MachineLearning-11.聚类

聚类(cluster)属于无监督学习;聚类是根据数据的特征,将相似度最高的样本划分到一个聚簇中;相似度的度量方式有,曼哈顿距离、欧式距离、切比雪夫距离,都可以用闵式距离公式表示;聚类算法包括:基于原型聚类,如k-means算法;基于密度聚类,如DBSCAN算法;基金层次聚类,如凝聚算法。评价指标采用轮廓系数。

阅读全文

MachineLearning-10.模型评估与优化

模型评估和优化是机器学习中非常重要一环,不同的机器学习任务有着不同的评价指标,同时同一种机器学习任务也有着不同的评价指标,每个指标的着重点不一样。在实际情况中,会用不同的度量去评估模型,度量的选择,完全取决于模型的类型和模型的用处。[1]

阅读全文

MachineLearning-9.(分类)朴素贝叶斯分类

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。“朴素”的含义为:假设问题的特征变量都是相互独立地作用于决策变量的,即问题的特征之间都是互不相关的。其为多用途分类器,广泛应用于垃圾邮件过滤、自然语言处理等.

朴素贝叶斯优点:逻辑性简单,易训练;算法较为稳定,当数据呈现不同特点时,其分类性能不会有太大差异;样本特征之间的关系相对比较独立时,朴素贝叶斯分类算法会有较好的效果。

朴素贝叶斯缺点:特征独立性很难满足,样本特征之间往往存在互相关联,会导致分类效果降低。

朴素贝叶斯使用场景:根据先验概率计算后验概率的情况,且样本特征之间独立性较强。

阅读全文

MachineLearning-8.(分类)支持向量机SVM

支持向量机(Support Vector Machines)是一种二分类模型;(李航《统计学习方法:决策树》)[1]支持向量机通过寻找最优线性模型作为分类边界,边界要求具有正确性、公平性、安全性、简单性;SVM可以通过核函数将线性不可分问题转换为线性可分问题,其中核函数包括:线性核函数、多项式核函数、径向基核函数。支持向量机适合少量样本的分类。

阅读全文

MachineLearning-7.(分类)决策树分类

决策树(Decision Tree)是一种基本的分类与回归方法。在分类问题中,表示基于特征对实例进行分类的过程,可认为是if-then规则的集合,是定义在特征空间与类空间上的条件概率分布。利用训练数据,根据损失函数最小化的原则建立决策树模型,预测时,对新的数据利用决策树模型进行分类,包括三个步骤:特征选择、决策树生成、决策树修剪。(李航《统计学习方法:决策树》)[1]

阅读全文

MachineLearning-6.(分类)Logistic回归

逻辑回归(Logistic Regression)虽然被称为回归,但逻辑回归是分类模型,用于实现二分类。可利用线性模型计算,在逻辑函数作用下产生分类。并且可以将多分类问题转化为二分类问题实现。逻辑回归因其简单、可并行化、可解释强而受到广泛应用。

阅读全文

MachineLearning-5.(回归)决策树回归

决策树回归核心:划分点选择 + 输出值确定 [1]
决策树是一种基本的分类与回归方法,回归决策树主要指CART(classification and regression tree)算法,内部结点特征的取值为“是”和“否”, 为二叉树结构。

阅读全文

MachineLearning-4.(回归)多项式回归

线性回归适用于数据呈线性分布的回归问题。如果数据样本呈明显非线性分布,线性回归模型就不再适用(下图左),而采用多项式回归可能更好(下图右)。

阅读全文

MachineLearning-3.(回归)线性回归

线性模型描述了一个或多个自变量对另一个因变量的影响所呈现的线性比例和关系。线性模型在二维空间内为一条直线,在三维空间中为一个平面,更高维度下的线性模型称为超平面。

二维空间下线性模型表现为一条直线
三维空间下线性模型表现为一个平面

阅读全文

MachineLearning-2.数据预处理

笔记数据集采用Kaggle竞赛Sberbank俄罗斯房地产价值预测竞赛数据,预测Russian房价波动。选取部分样本使用。数据集已统一放入Github中方便下载使用。train.csv,数据集共有30471行、292列。

数据预处理的目的

  • 去除不必要数据(重复、错误数据);不一致数据(大写、地址);不规则数据(异常值、脏数据)
  • 补齐缺失值
  • 对数据范围、量纲、格式、类型进行统一化处理,方便进行后续计算

阅读全文