1. 自我改善

1.1. 只有学会了如何学习和改变的人，才称得上是受过教育的人

1.1.1. 卡尔·罗杰斯

1.2. 人工智能如果只是学习纯理论的游戏（从国际象棋和围棋到电脑游戏），其结果已然可以令人惊叹

1.3. 让大多数机器人玩叠叠乐游戏（用积木搭成塔，慢慢从塔中抽出积木，然后搭在最顶上），结果就会变得乱七八糟

1.4. 就算机器人可以在模拟世界中使用监督学习进行训练，现实的复杂性和可变性总是跟虚拟环境大不相同

1.5. 训练人工智能理解现实的正常方法，是向它展示数以百万计移除真实积木的例子，其中既有成功的例子也有失败的例子

1.5.1. 在现实世界中，这种方法会花费很长的时间，因为塔需要重建数百万次

1.5.2. 由于每块积木都有微妙的不同，以及温度和湿度等不可预测的因素会以各种方式影响摩擦力，机器人在第一天学到的东西，第二天可能就不适用了

1.6. 自学成才的机器人

1.6.1. 机器人学会了对任务进行分析，对作用力和反馈进行判断，以决定下一步采取何种行动

2. 无监督学习

2.1. 在人工智能领域，自我学习通常被称为无监督学习

2.1.1. 向人工智能提供数据，然后它必须自己学习如何理解这些数据

2.2. 我们不妨把无监督学习看作是“物以类聚，人以群分”的数学版本

2.2.1. 卡西·科泽尔科夫，谷歌云总决策工程师(2018)

2.3. 麻省理工学院的尼玛·法泽里

2.3.1. 没有使用监督学习来训练人工智能，而是将机械臂放在塔面前，让它自己边玩边学习

2.3.2. 只有亲自推拉并感受结果，机器人才能理解其行为将如何影响摇晃不平的积木塔

2.3.3. 仅仅经过大约300次尝试，它就把积木分成了几种不同的类型

2.3.3.1. 卡住的积木（最好不要管它）

2.3.3.2. 松动的积木（可以移开）

2.3.4. 贝叶斯人工智能实际上已经对问题有了“理解”，然后这种理解可以推广到所有未来动作中

2.4. 用来改进工厂机器人

2.4.1. 使它们能够理解一个部件没有正确卡到位的感觉

2.4.2. 一枚螺丝没有正确拧紧的感觉

2.5. 当我们没有可以用于教学的数据时，我们就需要无监督学习

2.5.1. 因为数据的获取是不可行的

2.5.1.1. 比如围棋中所有可能的获胜策略

2.5.2. 因为数据根本不存在

2.5.2.1. 比如当控制一个新机器人时，我们可能还没有好的解决方案先例，但要是机器人可以执行所需的功能，我们就会知道问题已经得到解决了

2.6. 无监督学习（如聚类）可以帮助我对观察到的障碍物类型进行分类，但它同样不能让我学会应该走哪条路线

2.6.1. 我没有办法确定我必须做出的一连串选择中的每一个决策的正确性（或说应该得多少分

2.6.2. 后面一个决策的成功与否将取决于先前的决策

2.7. 有些可用于寻找隐藏在数据中的重要变量或特征

2.8. 有些可以用于识别模式或学习聚类

2.9. 有些甚至可以教会自己一套行为策略，或自我监督

2.10. 虽然监督学习提供了一个明确的、可衡量的准确性概念，但在无监督学习中，当没有正确和错误的例子可以比较时，人工智能的准确性可能更难提高

2.11.

人类和动物的大部分学习都是无监督学习，如果智能是一块蛋糕，无监督学习就是蛋糕体，监督学习就是蛋糕上的糖衣，而强化学习就是蛋糕上的樱桃。我们知道如何制作糖衣和樱桃，但我们还不知道如何制作蛋糕体。

2.11.1. 脸书的首席人工智能科学家杨立昆

2.12. 半监督学习

2.12.1. 监督学习和无监督学习的混合体

3. 学习分类

3.1. 聚类是最常用的无监督学习方法之一

3.2. 推荐系统寻找顾客之间的相似性，以便向他们推荐新产品

3.3. 推荐系统将上百万消费者的数据结合起来，就足以展现神奇的预见能力

3.3.1. 协作过滤，并可能使用聚类算法，将个人分组

4. 自组织地图

4.1. 其发明者、芬兰教授特沃·科霍宁

4.1.1. 也被称为科霍宁网络

4.2. 自组织地图很松散地基于人类大脑处理感官信息的方式，将“神经元”安排在一个类似网格的地图空间中

4.3. 当新的数据被输入自组织地图时，附近的神经元的位置（或“权重”）移向网格中每个数据点的位置

4.4. 在反复输入数据和调整神经元的过程后，自组织地图产生的一组神经元近似于所有主要数据点的分布

4.5. 可以

4.5.1. 对新的数据点进行分类

4.5.2. 用来可视化已有数据中的不同类别

5. 强化学习

5.1. 约翰·安德烈和唐纳德·米奇等研究人员在20世纪60年代首创

5.2. 这种巧妙的人工智能方法就像行为策略的优化器

5.3. 它估算在特定情况下每个潜在行动的可能质量，并学习正确的行动链，以产生预期的结果

5.4. 强化学习必须在探索（找出要做哪些事，并在此过程中犯很多错误）和运用（执行更多导致更好结果的行动）之间取得平衡

5.5. 由于大规模计算能力变得越来越普及，强化学习正在得到越来越多的应用

5.5.1. Salesforce已经在用强化学习来给长文本文件制作摘要

5.5.2. 摩根大通开发了自己的交易机器人以更高效地执行交易

5.6. Q学习

5.6.1. 由克里斯·沃特金斯在1989年发明

5.6.2. 一种流行的强化学习方法

5.6.3. 其灵感来自动物和人从经验中学习的过程

5.6.4. 通过正强化的形式来改善人工智能的行为

5.6.5. 类似于有限状态机的思想

5.6.5.1. 只是强化学习算法并不由程序员来设计行为，而是由人工智能直接自行学习

5.6.6. Q函数

5.6.6.1. “奖励”值

5.6.6.2. 它会反馈在特定情况下一个潜在行动（和所有后续行动）的预期奖励，行动选择策略就可以在一连串的行动中始终选择最佳行动，使总奖励最大化

5.6.6.3. 引入深度学习：只要有足够的例子，这种人工智能方法就可以学会Q函数

5.6.6.4. 补充以卷积深度神经网络，你就得到了一套人工智能系统，它可以观察并学习单个行动的奖励值，并选择要采取的最佳行动

6. 深度学习教父

6.1. 杰弗里·辛顿是公认的“深度学习教父”

6.2. 1986年，他与大卫·鲁梅尔哈特和罗纳德·威廉姆斯共同发表了一篇用于训练多层神经网络的反向传播学习算法的论文

6.3. 他带过的许多博士生和博士后研究人员，如杨立昆、里奇·泽梅尔和布兰登·弗雷，都纷纷成为机器学习领域的先驱

6.4. 亚历克斯·克雷舍夫斯基和伊利亚·苏茨基弗是最早使用AlexNet（一种利用图形处理器的卷积神经网络）在图像识别方面取得突破的研究人员

6.4.1. 辛顿的博士生

6.5. 创造了其他许多听起来很高深的技术

6.5.1. 玻尔兹曼机

6.5.2. 分布式表示法

6.5.3. 时间延迟神经网络

6.5.4. 混合专家

6.5.5. 亥姆霍兹机

6.5.6. 专家乘积系统

6.5.7. 胶囊神经网络

7. 在线学习

7.1. 有一种无监督学习会为了跟上不断变化的环境而不断进行学习，它的名字叫在线学习

7.2. 如果不顾变化，只会死板地应用以前学到的规则，学习就会出现问题

7.3. 通过在线学习算法，机器学习才有可能追踪不断变化的范式

7.4. 一些异常检测系统甚至以人类免疫系统的工作方式为模型

7.4.1. 无论的计算机系统还是人体在实质上都面临同样的问题

7.4.2. 每天，我们的免疫系统必须区分我们自己的细胞（我们由数万亿个细胞组成，内脏中的细菌数量甚至更多）和试图入侵我们身体的病原体

7.4.2.1. 许多病原体可能是全新的，是由其他病原体新近变异而来的

7.4.3. 我们的免疫系统保持着一套不断变化的免疫细胞和抗体，目的是只让那些异常的、与我们不同的、潜在的有害入侵者触发免疫反应

7.4.4. 应用于诈骗检测和机器人控制

7.5. 例子

7.5.1. 优步公司在其手机应用中建立了一套规则：当打车需求增加时，乘车价格就会自动提高

7.5.2. 2014年12月15日至16日在悉尼

7.5.2.1. 悉尼人质危机的日子

7.5.2.2. 一个枪手在一家咖啡馆挟持了18名人质

7.5.2.3. 危机期间，有几条街道被关闭，该地区的优步乘车需求急剧增加，动态定价系统就引发了自动涨价

7.5.3. 算法不知道额外需求背后的原因，所以只会盲目地遵循其规则，结果它给优步带来了非常负面的新闻

7.5.3.1. 看起来他们好像在利用一个可怕的事件赚黑心钱

7.5.3.2. 优步随后退还了超额的乘车费用

/an-zhuo-ding-zhi-ruan-jian/du-shi-tang-ji-jian-ren-gong-zhi-neng-ke-bi-ji-05-wu-jian-du-xue-xi-2912.html

读十堂极简人工智能课笔记05_无监督学习