使用机器学习技术的产品或服务在我们的生活当中不断普及,被应用于大数据分析、智能驾驶、计算机视觉等领域,并迅速改变生活。本书以掌握一定的Python语言基础为前提,从具体的十一个精简案例切入,由浅入深、循序渐近展开学习机器学习在不同业务领域中的应用,内容上注重实用性和可操作性。具体涵盖了机器学习流程、有监督学习、无监督学习、数据分析与人工智能应用等需要掌握的基本知识和相应技能。
陈清华,女,1983年生,硕士上海交通大学计算机软件与理论硕士毕业,浙江工业大学物联网方向博士在读,温州职业技术学院计算机系大数据专业专任教师。
项目1 电影数据统计 1
1.1 数据获取 1
1.2 数据解析 4
1.3 数据分析 8
1.4 数据可视化 10
1.5 课堂实训:工资数据统计 16
1.6 练习题 19
项目2 电影数据分析(回归) 21
2.1 背景知识 21
2.2 使用一元线性回归分析电影票房数据 22
2.2.1 一元线性回归 22
2.2.2 范围缩放 25
2.2.3 数据集的切分 26
2.3 使用多项式回归分析电影票房数据 29
2.4 使用多元线性回归分析电影票房数据 31
2.5 理解回归分析方法 34
2.6 课堂实训:工龄与工资相关性分析 36
2.7 练习题 39
项目3 数据的爬取 41
3.1 背景知识 41
3.2 电影数据的爬取 42
3.2.1 网络数据一次爬取 42
3.2.2 网络数据定时爬取 48
3.2.3 正则表达式 49
3.3 房屋租赁数据的爬取 51
3.4 房屋租赁数据的统计 54
3.5 课堂实训:二手房数据的爬取与统计 58
3.6 练习题 59
项目4 房屋租赁数据的分析与可视化 62
4.1 背景知识 62
4.2 使用箱形图可视化租赁价格分布特征 63
4.3 使用散点图可视化房屋面积与租赁价格的关系 65
4.4 使用饼图可视化不同行政区的可租赁房源占比 69
4.5 使用折线图可视化房间数与租赁价格的关系 71
4.6 使用热力图可视化地理位置与租赁价格的关系 72
4.7 课堂实训:二手房数据的分析与可视化 75
4.8 练习题 78
项目5 身高与体重数据分析(分类器) 80
5.1 背景知识 80
5.1.1 机器学习 80
5.1.2 监督学习 80
5.1.3 分类器 82
5.2 使用分类方法进行性别分类 82
5.2.1 逻辑回归 82
5.2.2 朴素贝叶斯 88
5.2.3 决策树 91
5.2.4 支持向量机 95
5.3 使用支持向量机进行肥胖程度分类 97
5.4 课堂实训:肥胖分析1 101
5.5 练习题 102
项目6 鸢尾花分类 104
6.1 背景知识 104
6.2 使用K近邻对鸢尾花进行分类 105
6.3 使用随机森林对鸢尾花进行分类 108
6.4 使用神经网络对鸢尾花进行分类 111
6.5 课堂实训:肥胖分析2 114
6.6 练习题 115
项目7 电影评分数据分析(聚类) 117
7.1 背景知识 117
7.1.1 无监督学习 117
7.1.2 聚类 118
7.1.3 K-Means 119
7.2 使用DBSCAN确定质心个数 119
7.3 使用K-Means对观影用户进行聚类 123
7.4 课堂实训:根据身高、体重和性别对用户进行分类 127
7.5 练习题 130
项目8 人脸检测与人脸识别 132
8.1 背景知识 132
8.1.1 人工智能 132
8.1.2 计算机视觉 133
8.1.3 OpenCV计算机视觉包 134
8.2 图像中的人脸检测 135
8.3 视频中的人脸检测 137
8.4 图像中的人脸识别 140
8.5 视频中的人脸识别 143
8.6 课堂实训:眼睛与笑脸检测 145
8.7 练习题 146
项目9 手写数字识别应用 148
9.1 背景知识 148
9.2 图像数据集准备 149
9.2.1 MNIST数据集格式 149
9.2.2 获取MNIST数据集中的图像 150
9.3 使用支持向量机识别手写数字 150
9.4 使用神经网络识别手写数字 154
9.5 课堂实训:使用不同的方法识别手写数字 155
9.6 练习题 156
项目10 深度学习在行为识别中的应用 157
10.1 背景知识 157
10.1.1 卷积神经网络(CNN) 157
10.1.2 循环神经网络(RNN) 159
10.1.3 深度学习的应用 160
10.2 使用卷积神经网络识别行为 161
10.2.1 环境准备 161
10.2.2 数据的获取与解析 161
10.2.3 数据集分析 162
10.2.4 卷积神经网络的应用 162
10.3 使用循环神经网络识别行为 164
10.4 课堂实训:电影评论数据分析 166
10.5 练习题 168
项目11 TensorFlow与神经网络 169
11.1 背景知识 169
11.2 设计单层神经网络预测花瓣宽度 171
11.3 设计多层神经网络实现鸢尾花分类 174
11.4 课堂实训:卷积神经网络的实现与应用 177
11.5 练习题 178
项目12 项目综合实训 180
12.1 确定数据采集目标 181
12.2 数据采集与预处理 182
12.3 数据统计与分析 183
12.3.1 票房分析 183
12.3.2 上座率分析 185
12.3.3 票价分布情况分析 186
12.3.4 评分数据分析 186
12.4 数据分析与预测 187
12.4.1 总场次与票房之间的关系分析 187
12.4.2 评分相关因素分析与预测 187
12.5 数据分类应用 188
12.6 课外拓展实训:二手车数据的获取与市场分析 189
附录A 环境准备 191
附录B 本书使用的工具包 194
参考文献 195