本书包括两部分内容,第壹部分重点介绍了与Python语言相关的数据分析
工具,包括NumPy、Matplotlib、Pandas、Scipy、Seaborn和Sklearn。第二部分介绍数据处理、特征工程、评价指标、线性模型、支持向量机、K近邻算法、朴素贝叶斯、决策树、K-Means算法和文本分析实例。附录提供了课程教学大纲和
部分课后习题答案。
本书内容精练、文字简洁、结构合理、实训题目经典实用、综合性强、定位明确,面向初、中级读者,由“入门”起步,侧重“提高”。特别适合作为高等院校相关专业数据分析与机器学习课程的入门教材或教学参考书,也可以供从事计算机应用开发的各类技术人员参考。
前言
第1章Python与数据分析
11概述
111引例
112数据分析与数据挖掘
12Python简介
121Python特点
122Python应用场合
13数据分析流程
131明确目标
132获取数据
133清洗数据
134特征工程
135构建模型
136模型评估
14数据分析库
141NumPy
142Matplotlib
143Pandas
144Seaborn
145Scipy
146Sklearn
15Python解释器
151Ubuntu下安装Python
152Windows下安装Python
16Python编辑器
161IDLE
162VScode
163PyCharm
164Anaconda
165Jupyter
17习题
第2章NumPy——数据分析基础
工具
21安装NumPy
22ndarray对象
221认识ndarray对象
222ndarray对象属性
23创建ndarray对象
231zeros
232ones
233diag
234arange
235linspace
236logspace
24数组变换
241维度变换
242数组拼接
243数组分割
244数组复制
25索引和切片
26线性代数
261矩阵运算
262矩阵转置
263特征根和特征向量
27统计量
271平均值
272最值
273中位数
274极差
275方差
276协方差
277皮尔森相关系数
28习题
第3章Matplotlib——数据可视化
工具
31安装Matplotlib
32绘图步骤
321创建画布
322绘图函数
323绘图属性
33子图基本操作
331pltsubplot
332figureadd_subplot
333pltsubplots
34绘图
341折线图
342气泡图
343饼图
344直方图
345条形图
35概率分布
351泊松分布
352正态分布
353均匀分布
354二项分布
36习题
第4章Pandas——数据处理工具
41认识Pandas
42Series
421创建Series
422 Series属性
423访问Series数据
43操作Series
431更新Series
432插入Series
433删除Series
44DataFrame
441创建DataFrame
442DataFrame属性
443选取行列数据
45操作DataFrame
451更新DataFrame
452插入DataFrame
453删除DataFrame
46Index
461创建Index
462常用属性
463常用方法
464重建Index
47可视化
471线形图
472条形图
473饼状图
474直方图与密度图
48数据转换
481数据值替换
482数据映射
483数据值合并
484数据值补充
485数据离散化
49数据分组与聚合
491数据分组
492数据聚合
410读取外部数据
4101操作Excel
4102操作文本文件
4103操作数据库
411习题
第5章Scipy——数据统计工具
51认识Scipy
52稀疏矩阵
53线性代数
531矩阵运算
532线性方程组求解
54数据优化
541非线性方程组求解
542函数最值
543最小二乘法
55数据分布
551泊松分布
552正态分布
553均匀分布
554二项分布
555指数分布
56统计量
561众数
562皮尔森相关系数
57图像处理
571旋转图像
572图像滤波
573边缘检测
58习题
第6章Seaborn——数据可视化
工具
61认识Seaborn
611绘图特色
612图表分类
613数据集
62绘图设置
621绘图元素
622主题
623调色板
63绘图
631直方图
632核密度图
633小提琴图
634分类散点图
635条形图
636热力图
637点图
64习题
第7章Sklearn——机器学习工具
71Sklearn简介
72安装Sklearn
73数据集
731小数据集
732大数据集
733生成数据集
74机器学习流程
741数据清洗
742划分数据集
743特征工程
744机器算法
745模型评估
75习题
第8章数据处理
81认识数据处理
82数据清洗
821处理缺失值
822处理异常值
823处理重复值
83特征处理
831规范化
832标准化
833鲁棒化
84数据分析可视库
841missingno库
842词云
85案例——学生信息清洗
86习题
第9章特征工程
91认识特征工程
92独热编码
93特征提取
931DictVectorizer
932CountVectorizer
933TfidfVectorizer
94中文分词
941Jieba分词库
942停用词表
95案例——中文特征提取
96习题
第10章评价指标
101欠拟合和过拟合
1011欠拟合
1012过拟合
102曲线拟合
1021polyfit方法
1022Curve_fit方法
103分类评价指标
1031混淆矩阵
1032准确率
1033精确率
1034召回率
1035F1 Score
1036ROC曲线
1037AUC面积
1038分类评估报告
104回归评价指标
1041均方误差
1042相关系数或者R2
105案例——手写数字数据集评价
指标
106习题
第11章线性模型
111回归模型
1111线性回归
1112逻辑回归
112两种求解方法
1121最小二乘法
1122梯度下降法
113岭回归
1131认识岭回归
1132参数alpha
114案例
1141线性回归预测披萨价格
1142线性回归与岭回归识别糖
尿病
115习题
第12章支持向量机
121初识向量机
1211超平面线性方程
1212SVM算法库
122核函数
1221线性核函数
1222多项式核函数
1223高斯核函数
123参数调优
1231gamma参数
1232惩罚系数C
124回归问题
125案例
1251支持向量机识别鸢尾花
1252支持向量机预测波士顿
房价
126习题
第13章K近邻算法
131初识K近邻算法
1311算法思想
1312算法描述
132选择K值
133距离度量
134分类问题
135回归问题
136案例
1361KNN区分电影类型
1362KNN识别鸢尾花
137习题
第14章朴素贝叶斯
141初识朴素贝叶斯
142贝叶斯定理
143流程
144分类
1441高斯分布
1442多项式分布
1443伯努利分布
145案例
1451朴素贝叶斯识别鸢尾花
1452朴素贝叶斯分类新闻
146习题
第15章决策树
151初识决策树
152信息论
1521信息熵
1522条件熵
1523信息增益
1524互信息
1525基尼系数
153决策树算法
1531ID3算法
1532C45算法
1533CART算法
154分类与回归
1541分类问题
1542回归问题
1543调优max_depth参数
155集成分类模型
1551随机森林
1552梯度提升决策树
156graphviz与DOT
1561graphviz
1562DOT语言
157案例
1571决策树决定是否赖床
1572决策树预测波士顿房价
158习题
第16章K-Means算法
161初识K-Means
162实现K-Means聚类
1621理论实现K-Means聚类
1622Python实现K-Means聚类
1623Sklearn实现K-Means聚类
163K-Means评估指标
1631调整兰德系数
1632轮廓系数
164案例
1641K-Means聚类鸢尾花
1642K-Means标记质心
165习题
第17章文本分析示例
171正则表达式
1711基本语法
1712re模块
1713提取电影信息
172LDA
1721LDA原理
1722Gensim库
173距离算法
1731余弦相似度
1732编辑距离
174SimHash算法
1741算法思想
1742实现步骤
175文本情感分析
1751情感分析
1752SnowNLP
176案例——电影影评情感
分析
177习题
附录
附录A课程教学大纲
附录B部分课后习题答案
参考文献