MachineLearning-2.数据预处理

笔记数据集采用Kaggle竞赛Sberbank俄罗斯房地产价值预测竞赛数据,预测Russian房价波动。选取部分样本使用。数据集已统一放入Github中方便下载使用。train.csv,数据集共有30471行、292列。

数据预处理的目的

  • 去除不必要数据(重复、错误数据);不一致数据(大写、地址);不规则数据(异常值、脏数据)
  • 补齐缺失值
  • 对数据范围、量纲、格式、类型进行统一化处理,方便进行后续计算

阅读全文

MachineLearning-1.机器学习概述

教材使用机器学习[周志华]统计学习方法[李航]书籍,结合吴恩达机器学习视频,主要对相关机器学习算法原理进行推导,演算以及程序编程实现。

机器学习概念

1975年图灵奖获、1978年诺贝尔经济学奖获得者,赫伯特.西蒙(Herbert Simon)定义:如果一个系统,能够通过执行某个过程,就此改进了它的性能,那么这个过程就是学习。学习的目的是改善性能.

卡耐基梅隆大学,机器学习和人工智能教授汤姆.米切尔(Tom Mitchell)定义:对于某类任务(T)和某项性能评价准则(P),如果一个计算机在程序T上,以P作为性能度量,随着经验(E)的积累,不断自我完善,那么我们称计算机程序从经验(E)中进行了学习。

阅读全文

Python-3.数据分析Pandas使用

Pandas官方定义: pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool, built on top of the Python programming language.

  Pandas是Python数据分析必备工具,实现数据分析的五个重要环节:

  • 加载数据
  • 整理数据
  • 操作数据
  • 构建数据模型
  • 分析数据

阅读全文

Python-2.数据分析Numpy使用

Numpy(Numerical Python)官方定义:The fundamental package for scientific computing with Python.

Numpy是python的科学计算库,在矩阵乘法与数组性状处理上,Numpy有很好的性能,处理速度快。优点总结如下:

  • Python科学计算基础库
  • 可对数组进行高效的数学运算
  • ndarray对象可以用来构建多维数组
  • 能够执行傅里叶变换与重塑多维数组性状
  • 提供了线性代数,以及随机数生成的内置函数

阅读全文

Python-1.数据分析Matplotlib使用

Matplotlib官方定义:Matplotlib is a comprehensive library for creating static, animated, and interactive visualizations in Python. Matplotlib makes easy things easy and hard things possible.

Matplotlib为数据可视化Python Package,根据Numpy提供的ndarray数据结构来绘制图像。

阅读全文

DeepLearning-6.深度前馈网络(二)

  深度前馈网络(Deep Feedforward Network,DFN),也叫做前馈神经网络(Feedforward Neural Network,FNN)或者多层感知机(Multilayer Perception,MLP),典型的深度学习模型。目标是拟合一个函数,如有一个分类器$y=f^{*}(x)$将输入$x$映射到输出类别$y$。深度前馈网将这个映射定义为$f(x,\theta)$,并学习这个参数$\theta$的值来得到最好的函数拟合。

阅读全文

DeepLearning-6.深度前馈网络(一)

  深度前馈网络(Deep Feedforward Network),也叫做前馈神经网络(Feedforward Neural Network)或者多层感知机(Multilayer Perception,MLP),典型的深度学习模型。卷积神经网络是一种专门的前馈网络。包含网络层、隐藏层和输出层。

  花书的理论性很强,在看完相关的理论后,感觉太过于抽象,于是结合实验进一步理解,在搜索了相关的实验例子中,选取了手写数字图像识别这一示例进行学习与推导。在总结相关理论之前,先演示手写数字图像识别的完整代码实现过程。

阅读全文

DeepLearning-5.机器学习基础

深度学习是机器学习的一个特定分支。

阅读全文

DeepLearning-4.数值计算

机器学习算法需要大量数值计算,通常是指通过迭代过程更新解得估计值来解决数学问题的算法,而不是通过解析过程推导出公式来提供正确解的方法。常见的操作包括优化线性方程组的求解。

阅读全文

DeepLearning-3.概率与信息论

概率论用于表示不确定性声明的数学框架。人工智能领域,主要用于推理和统计分析AI系统行为。
概率论与统计学的区别,概率论和统计学解决的问题是可逆的。概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。

阅读全文