MachineLearning-4.(回归)多项式回归
线性回归适用于数据呈线性分布的回归问题。如果数据样本呈明显非线性分布,线性回归模型就不再适用(下图左),而采用多项式回归可能更好(下图右)。

线性回归适用于数据呈线性分布的回归问题。如果数据样本呈明显非线性分布,线性回归模型就不再适用(下图左),而采用多项式回归可能更好(下图右)。
线性模型描述了一个或多个自变量对另一个因变量的影响所呈现的线性比例和关系。线性模型在二维空间内为一条直线,在三维空间中为一个平面,更高维度下的线性模型称为超平面。
![]() |
![]() |
笔记数据集采用Kaggle竞赛Sberbank俄罗斯房地产价值预测竞赛数据,预测Russian房价波动。选取部分样本使用。数据集已统一放入Github中方便下载使用。train.csv,数据集共有30471行、292列。
教材使用机器学习[周志华],统计学习方法[李航]书籍,结合吴恩达机器学习视频,主要对相关机器学习算法原理进行推导,演算以及程序编程实现。
1975年图灵奖获、1978年诺贝尔经济学奖获得者,赫伯特.西蒙(Herbert Simon)定义:如果一个系统,能够通过执行某个过程,就此改进了它的性能,那么这个过程就是学习。学习的目的是改善性能.
卡耐基梅隆大学,机器学习和人工智能教授汤姆.米切尔(Tom Mitchell)定义:对于某类任务(T)和某项性能评价准则(P),如果一个计算机在程序T上,以P作为性能度量,随着经验(E)的积累,不断自我完善,那么我们称计算机程序从经验(E)中进行了学习。
Pandas官方定义: pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool, built on top of the Python programming language.
Pandas是Python数据分析必备工具,实现数据分析的五个重要环节:
Numpy(Numerical Python)官方定义:The fundamental package for scientific computing with Python.
Numpy是python的科学计算库,在矩阵乘法与数组性状处理上,Numpy有很好的性能,处理速度快。优点总结如下:
Matplotlib官方定义:Matplotlib is a comprehensive library for creating static, animated, and interactive visualizations in Python. Matplotlib makes easy things easy and hard things possible.
Matplotlib为数据可视化Python Package,根据Numpy提供的ndarray数据结构来绘制图像。
深度前馈网络(Deep Feedforward Network,DFN),也叫做前馈神经网络(Feedforward Neural Network,FNN)或者多层感知机(Multilayer Perception,MLP),典型的深度学习模型。目标是拟合一个函数,如有一个分类器$y=f^{*}(x)$将输入$x$映射到输出类别$y$。深度前馈网将这个映射定义为$f(x,\theta)$,并学习这个参数$\theta$的值来得到最好的函数拟合。
深度前馈网络(Deep Feedforward Network),也叫做前馈神经网络(Feedforward Neural Network)或者多层感知机(Multilayer Perception,MLP),典型的深度学习模型。卷积神经网络是一种专门的前馈网络。包含网络层、隐藏层和输出层。
花书的理论性很强,在看完相关的理论后,感觉太过于抽象,于是结合实验进一步理解,在搜索了相关的实验例子中,选取了手写数字图像识别这一示例进行学习与推导。在总结相关理论之前,先演示手写数字图像识别的完整代码实现过程。