教材使用机器学习[周志华]统计学习方法[李航]书籍,结合吴恩达机器学习视频,主要对相关机器学习算法原理进行推导,演算以及程序编程实现。

机器学习概念

1975年图灵奖获、1978年诺贝尔经济学奖获得者,赫伯特.西蒙(Herbert Simon)定义:如果一个系统,能够通过执行某个过程,就此改进了它的性能,那么这个过程就是学习。学习的目的是改善性能.

卡耐基梅隆大学,机器学习和人工智能教授汤姆.米切尔(Tom Mitchell)定义:对于某类任务(T)和某项性能评价准则(P),如果一个计算机在程序T上,以P作为性能度量,随着经验(E)的积累,不断自我完善,那么我们称计算机程序从经验(E)中进行了学习。

机器学习目的

  • 程序自我升级。
  • 解决那些算法过于复杂,甚至没有已知算法的问题。

机器学习分类

监督、无监督、半监督、强化学习

监督学习

在已知数据输出(经过标注的)的情况下对模型进行训练,根据输出进行调整、优化的学习方式称为有监督学习.

监督学习

无监督学习

没有已知输出的情况下,仅仅根据输入信息的相关性,进行类别的划分.

无监督学习

半监督学习

先通过无监督学习划分类别,再人工标记通过有监督学习方式来预测输出.例如先对相似的水果进行聚类,再识别是哪个类别.

半监督学习

强化学习

通过对不同决策结果的奖励、惩罚,使机器学习系统在经过足够长时间的训练以后,越来越倾向于接近期望结果的输出.

批量学习、增量学习

批量学习

将学习过程和应用过程分开,用全部训练数据训练模型,然后再在应用场景中进行预测,当预测结果不够理想时,重新回到学习过程,如此循环。

增量学习

将学习过程和应用过程统一起来,在应用的同时,以增量的方式不断学习新的内容,边训练、边预测。

基于模型学习、基于实例学习

基于模型的学习

根据样本数据,建立用于联系输出和输出的某种数学模型,将待预测输入带入该模型,预测其结果. 例如有如下输入输出关系:

输入(x) 输出(y)
1 2
2 4
3 6
4 8

根据数据,得到模型: $y = 2x$

预测:输入 9 时,输出 18

基于实例的学习

根据以往经验,寻找与待预测输入最接近的样本,以其输出作为预测结果,从数据中心找预测结果。 例如下列一组数据:

学历(x1) 工作经验(x2) 性别(x3) 月薪(y)
本科 3 8000
硕士 2 10000
博士 2 15000

预测:本科,3,男 ==> 预测薪资

机器学习工作流程

  1. 数据采集
    • 网络公开数据集
    • 手工采集/社会调查/相关报告
    • 爬虫抓取
    • 数据交易平台
    • 自动化采集
      • 日志采集
      • 传感器采集
      • 业务数据集
  2. 数据清洗
  3. 选择模型
  4. 训练模型
  5. 模型评估
  6. 测试模型
  7. 应用模型
  8. 模型维护

机器学习应用

  1. 股价预测
  2. 推荐引擎
  3. 自然语言处理
  4. 语音处理:语音识别、语音合成
  5. 图像识别、人脸识别

机器学习基本问题

回归问题

根据已知的输入和输出,寻找某种性能最佳的模型,将未知输出的输入代入模型,得到连续的输出。例如:

  • 根据房屋面积、地段、修建年代等其它条件,预测房屋价格。
  • 根据股票价格因素、新闻、政策等各种条件,预测某支股票的价格。
  • 根据农业、气象等数据,预测粮食收成。
  • 计算两个人脸的相似度。

分类问题

根据已知的输入和输出,寻找性能最佳的模型,将未知输出的输入带入模型,得到离散的输出。例如:

  • 手写体识别
  • 水果、鲜花、动物识别
  • 工业产品瑕疵检测(良品、次品二分类问题)
  • 识别一个句子表达的情绪(正面、负面、中性)

聚类问题

根据已知输入的相似程度,将其划分为不同的群落。例如:

  • 根据一批麦粒的数据,判断哪些属于同一个品种
  • 根据客户在电商网站的浏览和购买历史,判断哪些客户对某件商品感兴趣
  • 判断哪些客户具有更高的相似度。

降维问题

在性能损失尽可能小的情况下,降低数据的复杂度,数据规模缩小都称为降维问题.

机器学习知识体系

机器学习知识体系