MachineLearning-1.机器学习概述
条评论教材使用机器学习[周志华],统计学习方法[李航]书籍,结合吴恩达机器学习视频,主要对相关机器学习算法原理进行推导,演算以及程序编程实现。
机器学习概念
1975年图灵奖获、1978年诺贝尔经济学奖获得者,赫伯特.西蒙(Herbert Simon)定义:如果一个系统,能够通过执行某个过程,就此改进了它的性能,那么这个过程就是学习。学习的目的是改善性能.
卡耐基梅隆大学,机器学习和人工智能教授汤姆.米切尔(Tom Mitchell)定义:对于某类任务(T)和某项性能评价准则(P),如果一个计算机在程序T上,以P作为性能度量,随着经验(E)的积累,不断自我完善,那么我们称计算机程序从经验(E)中进行了学习。
机器学习目的
- 程序自我升级。
- 解决那些算法过于复杂,甚至没有已知算法的问题。
机器学习分类
监督、无监督、半监督、强化学习
监督学习
在已知数据输出(经过标注的)的情况下对模型进行训练,根据输出进行调整、优化的学习方式称为有监督学习.
无监督学习
没有已知输出的情况下,仅仅根据输入信息的相关性,进行类别的划分.
半监督学习
先通过无监督学习划分类别,再人工标记通过有监督学习方式来预测输出.例如先对相似的水果进行聚类,再识别是哪个类别.
强化学习
通过对不同决策结果的奖励、惩罚,使机器学习系统在经过足够长时间的训练以后,越来越倾向于接近期望结果的输出.
批量学习、增量学习
批量学习
将学习过程和应用过程分开,用全部训练数据训练模型,然后再在应用场景中进行预测,当预测结果不够理想时,重新回到学习过程,如此循环。
增量学习
将学习过程和应用过程统一起来,在应用的同时,以增量的方式不断学习新的内容,边训练、边预测。
基于模型学习、基于实例学习
基于模型的学习
根据样本数据,建立用于联系输出和输出的某种数学模型,将待预测输入带入该模型,预测其结果. 例如有如下输入输出关系:
输入(x) | 输出(y) |
---|---|
1 | 2 |
2 | 4 |
3 | 6 |
4 | 8 |
根据数据,得到模型: $y = 2x$
预测:输入 9 时,输出 18
基于实例的学习
根据以往经验,寻找与待预测输入最接近的样本,以其输出作为预测结果,从数据中心找预测结果。 例如下列一组数据:
学历(x1) | 工作经验(x2) | 性别(x3) | 月薪(y) |
---|---|---|---|
本科 | 3 | 男 | 8000 |
硕士 | 2 | 女 | 10000 |
博士 | 2 | 男 | 15000 |
预测:本科,3,男 ==> 预测薪资
机器学习工作流程
- 数据采集
- 网络公开数据集
- 手工采集/社会调查/相关报告
- 爬虫抓取
- 数据交易平台
- 自动化采集
- 日志采集
- 传感器采集
- 业务数据集
- 数据清洗
- 选择模型
- 训练模型
- 模型评估
- 测试模型
- 应用模型
- 模型维护
机器学习应用
- 股价预测
- 推荐引擎
- 自然语言处理
- 语音处理:语音识别、语音合成
- 图像识别、人脸识别
机器学习基本问题
回归问题
根据已知的输入和输出,寻找某种性能最佳的模型,将未知输出的输入代入模型,得到连续的输出。例如:
- 根据房屋面积、地段、修建年代等其它条件,预测房屋价格。
- 根据股票价格因素、新闻、政策等各种条件,预测某支股票的价格。
- 根据农业、气象等数据,预测粮食收成。
- 计算两个人脸的相似度。
分类问题
根据已知的输入和输出,寻找性能最佳的模型,将未知输出的输入带入模型,得到离散的输出。例如:
- 手写体识别
- 水果、鲜花、动物识别
- 工业产品瑕疵检测(良品、次品二分类问题)
- 识别一个句子表达的情绪(正面、负面、中性)
聚类问题
根据已知输入的相似程度,将其划分为不同的群落。例如:
- 根据一批麦粒的数据,判断哪些属于同一个品种
- 根据客户在电商网站的浏览和购买历史,判断哪些客户对某件商品感兴趣
- 判断哪些客户具有更高的相似度。
降维问题
在性能损失尽可能小的情况下,降低数据的复杂度,数据规模缩小都称为降维问题.