《大话Python机器学习》从机器学习的基础知识讲起,全面、系统地介绍了机器学习算法的主要脉络与框架,并在每个算法原理、应用等内容基础上,结合Python编程语言深入浅出地介绍了机器学习中的数据处理、特征选择、算法应用等技巧,是一本兼具专业性与入门性的Python机器学习书籍。
《大话Python机器学习》分为13章,主要内容有机器学习入门基础、应用Python实现机器学习前的准备、单变量线性回归算法、线性回归算法进阶、逻辑回归算法、贝叶斯分类算法、基于决策树的分类算法、K近邻算法、支持向量机、人工神经网络、聚类算法、降维技术与关联规则挖掘,在具体介绍时侧重于机器学习原理、思想的理解,注重算法的应用,并辅助以相关的数据案例,方便读者快速入门。*后一章从一个关于房价预测的机器学习项目出发,系统展示了数据处理、特征提取、建模训练等机器学习完整流程,带领读者完成从零基础到入门数据科学家的飞跃。
《大话Python机器学习》条理清晰,内容深入浅出,以生活、工作中常见的例子来解释机器学习中的相关概念、算法原理和运算思维等,特别适合互联网创业者、数据挖掘相关人员、Python程序员、人工智能从业者、数据分析师、计算机专业的学生学习,任何对机器学习、人工智能感兴趣的读者均可选择本书作为入门图书参考学习。
本书是一本兼具专业性与入门性的人工智能书籍,通过结合Python当前机器学习*流行、*受欢迎的编程语言,辅以大量有趣的生活例子,既能向非专业人员讲解机器学习算法的基本原理与应用,又能帮助专业学习者深入掌握相关算法、Python编程等。
1.结构编排注重算法间的内在逻辑,为读者提供较好阅读体验
本书从初学者的视角,在注重机器学习的主要原理与数学基础之上,以平实通俗的语言,带领读者了解基础的机器学习理论、Python实用技巧。在介绍机器学习算法时按照从回归问题到分类问题,从监督学习到无监督学习的顺序,内容编排注重算法间的内在逻辑,给读者较好地阅读体验。
2.内容深入浅出,以实例引导,方便读者快速入门
本书以生活、工作中常见的例子来解释机器学习中的相关概念、算法原理、运算思维等等,基本做到了每个关键知识点的案例解释,方便读者快速入门。
3.知识涵盖范围广,强调项目实战中的数据科学思维
书内容介绍不仅仅限于机器学习,也不限于Python编程,在进行机器学习实战项目时不仅仅论述算法解决问题过程,还注重算法训练之前的数据处理、数据清洗、算法训练之后的评价、效果比较等。*后一章还从一个机器学习项目出发,系统展示了数据处理、特征选择、算法应用等完整流程,带领读者完成从零基础到入门数据科学家的飞跃。
第1章 机器学习入门基础
1.1 什么是机器学习
1.2 机器学习的思维
1.3 机器学习的基本框架体系
1.4 机器学习项目的实施流程
1.5 机器学习有什么用
1.6 小结
第2章 应用Python实现机器学习前的准备
2.1 为什么使用Python
2.2 Python机器学习的一些常用库
2.2.1 科学计算包(Numpy)简介及应用
2.2.2 数据分析工具(Pandas)简介及应用
2.2.3 数值计算包(Scipy)简介及应用
2.2.4 绘图工具库(Matplotlib)简介及应用
2.2.5 机器学习包(Scikitlearn)简介及应用
2.3 Anaconda的安装与使用
2.3.1 Anaconda的安装
2.3.2 Anaconda中集成工具的使用
2.3.3 Conda的环境管理
2.4 Jupyter Notebook模式
2.4.1 Jupyter Notebook模式的特点
2.4.2 Jupyter Notebook模式的图形界面
2.5 小结
第3章 从简单案例入手:单变量线性回归
3.1 回归的本质
3.1.1 拟合的概念
3.1.2 拟合与回归的区别
3.1.3 回归的诞生
3.1.4 回归的本质含义
3.2 单变量线性回归算法
3.2.1 单变量线性回归的基本设定
3.2.2 单变量线性回归的常规求解
3.2.3 单变量线性回归的评价与预测
3.3 用机器学习思维构建单变量线性回归模型
3.3.1 一个简单案例:波士顿房屋价格的拟合与预测
3.3.2 数据集划分
3.3.3 模型求解与预测的Python实现
3.3.4 模型评价
3.3.5 与最小二乘法预测效果的比较
3.4 机器学习的初步印象总结
3.5 小结
第4章 线性回归算法进阶
4.1 多变量线性回归算法
4.1.1 多变量线性回归算法的最小二乘求解
4.1.2 多变量线性回归的Python实现:影厅观影人数的拟合(一)
4.2 梯度下降法求解多变量线性回归
4.2.1 梯度下降的含义
4.2.2 梯度下降的相关概念
4.2.3 梯度下降法求解线性回归算法
4.2.4 梯度下降法的Python实现:影厅观影人数的拟合(二)
4.3 线性回归的正则化
4.3.1 为什么要使用正则化
4.3.2 正则化的原理
4.3.3 基于最小二乘法的正则化
4.3.4 基于梯度下降法的正则化
4.4 岭回归
4.4.1 岭回归的原理
4.4.2 岭参数的取值方法
4.4.3 岭回归的Python实现:影厅观影人数的拟合(三)
4.5 Lasso回归
4.5.1 Lasso回归的原理
4.5.2 Lasso回归的参数求解
4.5.3 Lasso回归的Python实现:影厅观影人数的拟合(四)
4.6 小结
第5章 逻辑回归算法
5.1 从线性回归到分类问题
5.2 基于Sigmoid函数的分类
5.3 使用梯度下降法求最优解
5.3.1 对数似然函数
5.3.2 最大似然
5.3.3 梯度下降法的参数求解
5.4 逻辑回归的Python实现
5.4.1 梯度下降法求解的Python示例:预测学生是否被录取(一)
5.4.2 用Scikit learn做逻辑回归:预测学生是否被录取(二)
5.4.3 两种实现方式的比较
5.5 逻辑回归的正则化
5.6 小结
第6章 贝叶斯分类算法
6.1 贝叶斯分类器的分类原理
6.1.1 贝叶斯定理
6.1.2 贝叶斯定理的一个简单例子
6.1.3 贝叶斯分类的原理与特点
6.2 朴素贝叶斯分类
6.2.1 朴素贝叶斯为什么是朴素的
6.2.2 朴素贝叶斯分类算法的原理
6.2.3 朴素贝叶斯分类算法的参数估计
6.2.4 朴素贝叶斯的优、缺点及应用场景
6.3 高斯朴素贝叶斯分类算法
6.3.1 高斯朴素贝叶斯的Python实现:借款者信用等级评估(一)
6.3.2 预测结果的评价及其与逻辑回归算法的比较
6.4 多项式朴素贝叶斯分类算法
6.4.1 多项式朴素贝叶斯算法的原理
6.4.2 多项式朴素贝叶斯的Python实现:借款者信用等级评估(二)
6.5 伯努利朴素贝叶斯分类算法
6.6 贝叶斯网络算法的基本原理与特点
6.6.1 贝叶斯网络算法的基本原理
6.6.2 贝叶斯网络算法的实现及其特点
6.7 小结
第7章 基于决策树的分类算法
7.1 决策树分类算法原理
7.1.1 以信息论为基础的分类原理
7.1.2 决策树分类算法框架
7.1.3 衡量标准:信息熵
7.1.4 决策树算法的简化
7.1.5 决策树算法的优、缺点与应用
7.2 基本决策树ID3算法
7.2.1 特征选择之信息增益
7.2.2 ID3算法原理与步骤
7.2.3 ID3算法的一个简单例子:顾客购买服装的属性分析(一)
7.2.4 ID3算法的Python实现:顾客购买服装的属性分析(二)
7.3 其他决策树算法
7.3.1 C4.5算法
7.3.2 CART算法
7.3.3 CART算法的应用举例:顾客购买服装的属性分析(三)
7.3.4 CART算法的Python实现:顾客购买服装的属性分析(四)
7.4 决策树剪枝方法
7.4.1 预剪枝及其实现
7.4.2 后剪枝之错误率降低剪枝方法
7.4.3 后剪枝之悲观错误剪枝方法
7.5 决策树的集成学习算法之随机森林
7.5.1 集成学习算法
7.5.2 随机森林
7.5.3 随机森林的Python实现:解决交通拥堵问题(一)
7.6 小结
第8章 K近邻算法
8.1 K近邻算法的原理与特点
8.1.1 K近邻算法的原理
8.1.2 K近邻算法需要解决的问题
8.1.3 K近邻算法的优、缺点
8.2 K近邻算法的具体内容探讨
8.2.1 距离的度量
8.2.2 最优属性K的决定
8.2.3 K近邻的快速搜索之Kd树
8.3 K近邻算法的应用
8.3.1 K近邻算法的一个简单例子:文化公司推广活动的效果预估
8.3.2 K近邻算法的Python实现:解决交通拥堵问题(二)
8.4 小结
第9章 支持向量机
9.1 支持向量机的基本知识
9.1.1 超平面
9.1.2 间隔与间隔最大化
9.1.3 函数间隔与几何间隔
9.2 不同情形下的支持向量机
9.2.1 线性可分下的支持向量机
9.2.2 线性不可分下的支持向量机
9.2.3 非线性支持向量机
9.2.4 非线性支持向量机之核函数
9.2.5 多类分类支持向量机
9.2.6 支持向量回归机
9.3 支持向量机的Python实现
9.3.1 线性可分SVM的Python实现
9.3.2 线性不可分SVM的Python实现
9.3.3 非线性可分SVM的Python实现
9.3.4 支持向量回归机SVR的Python实现
9.4 小结
第10章 人工神经网络
10.1 人工神经网络入门
10.1.1 从神经元到神经网络
10.1.2 神经网络决策的一个简单例子:小李要不要看电影
10.2 人工神经网络基本理论
10.2.1 激活函数
10.2.2 人工神经网络的基本结构
10.2.3 人工神经网络的主要类型
10.2.4 人工神经网络的特点
10.2.5 一个案例:异或逻辑的实现
10.3 BP神经网络算法
10.3.1 BP算法的网络结构与训练方式
10.3.2 信息正向传递与误差反向传播
10.3.3 BP神经网络的学习流程
10.3.4 BP算法的一个演示举例
10.4 人工神经网络的Python实现
10.4.1 人工神经网络的Python案例:手写数字的识别
10.4.2 手写数字数据的神经网络训练
10.4.3 手写数字数据的神经网络评价与预测
10.5 从人工神经网络到深度学习
10.5.1 从人工神经网络到深度学习的演进
10.5.2
深度学习相比ANN的技术突破
10.6 小结
第11章 聚类算法
11.1 聚类算法概述
11.1.1 监督学习与无监督学习:原理与区别
11.1.2 从监督学习到无监督学习
11.1.3 聚类算法简介与应用
11.1.4 主要的聚类算法
11.1.5 聚类结果的有效性评价
11.2 聚类之K均值算法
11.2.1 K均值算法的思想
11.2.2 K均值算法的流程
11.2.3 K均值算法的一个简单例子:二维样本的聚类
11.2.4 K均值算法的Python实现:不同含量果汁饮料的聚类(一)
11.3 层次聚类算法
11.3.1 层次聚类算法基本原理
11.3.2 算法的距离度量方法
11.3.3 层次聚类的简单案例之AGNES算法
11.3.4 层次聚类的简单案例之DIANA算法
11.3.5 层次聚类的Python实现:不同含量果汁饮料的聚类(二)
11.4 其他类型聚类算法简介
11.4.1 基于密度的DBSCAN算法
11.4.2 基于网格的STING算法
11.5 小结
第12章 降维技术与关联规则挖掘
12.1 降维技术
12.2 PCA降维技术的原理与实现
12.2.1 主成分分析(PCA)的基本原理
12.2.2 主成分分析(PCA)的步骤
12.2.3 PCA降维的一个简单案例:二维样本的降维(一)
12.2.4 PCA降维的Python实现:二维样本的降维(二)
12.3 LDA降维技术的原理与实现
12.3.1 判别问题与线性判别函数
12.3.2 线性判别分析(LDA)的基本原理
12.3.3 LDA的特点与局限性
12.3.4 LDA降维技术的Python实现:二维样本的降维(三)
12.4 关联规则挖掘概述
12.4.1 关联规则挖掘的相关定义
12.4.2 关联规则的挖掘过程
12.4.3 关联规则挖掘的分类
12.5 关联规则挖掘的主要算法
12.5.1 Apriori算法简介及案例:用户资讯浏览的挖掘(一)
12.5.2 FP
Growth算法简介及案例:用户资讯浏览的挖掘(二)
12.6 小结
第13章 机器学习项目实战全流程入门
13.1 机器学习项目实战概述
13.1.1 机器学习项目实战的意义
13.1.2 如何入门一个机器学习竞赛项目
13.2 一个简单的机器学习项目实战:房价预测
13.3 项目实战之数据预处理
13.3.1 数据加载与预览
13.3.2 缺失值处理
13.3.3 数据转换
13.4 项目实战之特征提取
13.4.1 变量特征图表
13.4.2 变量关联性分析
13.5 项目实战之建模训练
13.5.1 对训练数据集的划分
13.5.2 采用不同算法的建模训练
13.5.3 参数调优
13.6 预测与提交结果
13.7 小结