笔记数据集采用Kaggle竞赛Sberbank俄罗斯房地产价值预测竞赛数据,预测Russian房价波动。选取部分样本使用。数据集已统一放入Github中方便下载使用。train.csv,数据集共有30471行、292列。
教材使用机器学习[周志华],统计学习方法[李航]书籍,结合吴恩达机器学习视频,主要对相关机器学习算法原理进行推导,演算以及程序编程实现。
1975年图灵奖获、1978年诺贝尔经济学奖获得者,赫伯特.西蒙(Herbert Simon)定义:如果一个系统,能够通过执行某个过程,就此改进了它的性能,那么这个过程就是学习。学习的目的是改善性能.
卡耐基梅隆大学,机器学习和人工智能教授汤姆.米切尔(Tom Mitchell)定义:对于某类任务(T)和某项性能评价准则(P),如果一个计算机在程序T上,以P作为性能度量,随着经验(E)的积累,不断自我完善,那么我们称计算机程序从经验(E)中进行了学习。
Pandas官方定义: pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool, built on top of the Python programming language.
Pandas是Python数据分析必备工具,实现数据分析的五个重要环节:
Numpy(Numerical Python)官方定义:The fundamental package for scientific computing with Python.
Numpy是python的科学计算库,在矩阵乘法与数组性状处理上,Numpy有很好的性能,处理速度快。优点总结如下:
Matplotlib官方定义:Matplotlib is a comprehensive library for creating static, animated, and interactive visualizations in Python. Matplotlib makes easy things easy and hard things possible.
Matplotlib为数据可视化Python Package,根据Numpy提供的ndarray数据结构来绘制图像。
深度前馈网络(Deep Feedforward Network,DFN),也叫做前馈神经网络(Feedforward Neural Network,FNN)或者多层感知机(Multilayer Perception,MLP),典型的深度学习模型。目标是拟合一个函数,如有一个分类器将输入映射到输出类别。深度前馈网将这个映射定义为,并学习这个参数的值来得到最好的函数拟合。