Python是一门免费、开源的高级动态编程语言,支持命令式编程、函数式编程、面向对象程序设计,语法简洁清晰,并且拥有大量功能丰富而强大的标准库和扩展库,可以帮各领域的科研人员或策划师甚至管理人员快速实现和验证自己的思路与创意。本书首先介绍Python编程基础,然后通过实际案例来讲解聚类、分类与预测、协同过滤等算法的应用。
本书*大的特色就是实践性较强,在阐述大数据技术相关基础知识的同时,辅以大量实践内容及项目实例,可培养学生的学习兴趣,极大提高学生的动手能力。
大数据时代的到来,改变了许多行业的人才需求模式,大数据方面的人才成为各信息产业尤其是IT行业的热门人才。许多高等院校已经新增了大数据技术相关专业,部分院校成立了大数据学院,标志着进行大数据技术人才培养已经正式成为高等教育的培养需求。基于Python培养大数据人才的基本要求,《Python大数据技术应用实践》可作为大数据技术相关专业本科生及高职院校相关专业实践类的教材,为培养大数据技术相关人才打下坚实的基础。
培养技术型及实践型人才是大数据时代教育部对大数据技术相关人才的基本要求,也是各信息产业对人才的基本需求。编写本书的目的就是要让大数据技术相关专业学生通过本课程的学习,了解大数据技术的基础知识,掌握基于Python环境搭建大数据分析的基本流程及实现过程,提高学习本课程的兴趣,培养解决实际问题的能力。
本书最大的特色就是实践性较强,在阐述大数据技术相关基础知识的同时,辅以大量实践内容及项目实例,可培养学生的学习兴趣,极大提高学生的动手能力。本书克服了许多教材注重理论缺少实践内容的弊端。学生可在课后,自己进一步动手实践,从而提高学习效率。
本书主要以大数据技术及计算机相关专业的本科生及高职院校学生为读者对象,注重大数据技术相关基础知识,尤其是实践环节的描述,避免了烦琐的理论知识介绍。全书共21章,内容包括:Python基础简介、初识Python、列表与元组、字符串与正则表达式、字典、集合、文件操作、函数、面向对象、异常处理结构、使用Pandas进行数据分析、可视化技术与Matplotlib、分类与预测、常用聚类分析算法、关联规则算法、协同过滤算法、时间序列数据分析、离群点检测方法、数据降维、模型评估与调优、数据分析与挖掘实战。
第1~10章属于Python基础知识部分,是搭建Python环境和编码的必备知识;第11~12章是提高部分,主要是学习可视化图形的脚本编辑,实际中可根据应用需要选择学习;第13~20章是本书各个算法的实现及代码的实现
介绍;第21章从实际出发,通过不同领域的项目案例讲解Python如何处理大数据信息。本书可以作为工科高校相关专业32~40学时的课程教程。
本书由北京电子科技学院娄嘉鹏老师、北京红亚华宇科技有限公司郑洪宾总经理任主编,由候明昌、周国辉、谢涛任副主编,具体分工是:候明昌、周国辉、谢涛等参与教材整体框架设计,北京红亚华宇科技有限公司提供实训素材,娄嘉鹏老师负责编写全书。特别感谢山东工商学院董付国教授提供案例支持。本书在编写及校对过程中,特别是项目实践内容验证过程中,得到了北京红亚华宇科技有限公司的大力帮助,在此表示衷心感谢。
由于编著者水平有限,书中难免存在错误之处,敬请读者批评指正。
大数据时代的到来,改变了许多行业的人才需求模式,大数据方面的人才成为各信息产业尤其是IT行业的热门人才。许多高等院校已经新增了大数据技术相关专业,部分院校成立了大数据学院,标志着进行大数据技术人才培养已经正式成为高等教育的培养需求。基于Python培养大数据人才的基本要求,《Python大数据技术应用实践》可作为大数据技术相关专业本科生及高职院校相关专业实践类的教材,为培养大数据技术相关人才打下坚实的基础。
培养技术型及实践型人才是大数据时代教育部对大数据技术相关人才的基本要求,也是各信息产业对人才的基本需求。编写本书的目的就是要让大数据技术相关专业学生通过本课程的学习,了解大数据技术的基础知识,掌握基于Python环境搭建大数据分析的基本流程及实现过程,提高学习本课程的兴趣,培养解决实际问题的能力。
本书最大的特色就是实践性较强,在阐述大数据技术相关基础知识的同时,辅以大量实践内容及项目实例,可培养学生的学习兴趣,极大提高学生的动手能力。本书克服了许多教材注重理论缺少实践内容的弊端。学生可在课后,自己进一步动手实践,从而提高学习效率。
本书主要以大数据技术及计算机相关专业的本科生及高职院校学生为读者对象,注重大数据技术相关基础知识,尤其是实践环节的描述,避免了烦琐的理论知识介绍。全书共21章,内容包括:Python基础简介、初识Python、列表与元组、字符串与正则表达式、字典、集合、文件操作、函数、面向对象、异常处理结构、使用Pandas进行数据分析、可视化技术与Matplotlib、分类与预测、常用聚类分析算法、关联规则算法、协同过滤算法、时间序列数据分析、离群点检测方法、数据降维、模型评估与调优、数据分析与挖掘实战。
第1~10章属于Python基础知识部分,是搭建Python环境和编码的必备知识;第11~12章是提高部分,主要是学习可视化图形的脚本编辑,实际中可根据应用需要选择学习;第13~20章是本书各个算法的实现及代码的实现
介绍;第21章从实际出发,通过不同领域的项目案例讲解Python如何处理大数据信息。本书可以作为工科高校相关专业32~40学时的课程教程。
本书由北京电子科技学院娄嘉鹏老师、北京红亚华宇科技有限公司郑洪宾总经理任主编,由候明昌、周国辉、谢涛任副主编,具体分工是:候明昌、周国辉、谢涛等参与教材整体框架设计,北京红亚华宇科技有限公司提供实训素材,娄嘉鹏老师负责编写全书。特别感谢山东工商学院董付国教授提供案例支持。本书在编写及校对过程中,特别是项目实践内容验证过程中,得到了北京红亚华宇科技有限公司的大力帮助,在此表示衷心感谢。
由于编著者水平有限,书中难免存在错误之处,敬请读者批评指正。
前言::大数据时代的到来,改变了许多行业的人才需求模式,大数据方面的人才成为各信息产业尤其是IT行业的热门人才。许多高等院校已经新增了大数据技术相关专业,部分院校成立了大数据学院,标志着进行大数据技术人才培养已经正式成为高等教育的培养需求。基于Python培养大数据人才的基本要求,《Python大数据技术应用实践》可作为大数据技术相关专业本科生及高职院校相关专业实践类的教材,为培养大数据技术相关人才打下坚实的基础。
培养技术型及实践型人才是大数据时代教育部对大数据技术相关人才的基本要求,也是各信息产业对人才的基本需求。编写本书的目的就是要让大数据技术相关专业学生通过本课程的学习,了解大数据技术的基础知识,掌握基于Python环境搭建大数据分析的基本流程及实现过程,提高学习本课程的兴趣,培养解决实际问题的能力。
本书最大的特色就是实践性较强,在阐述大数据技术相关基础知识的同时,辅以大量实践内容及项目实例,可培养学生的学习兴趣,极大提高学生的动手能力。本书克服了许多教材注重理论缺少实践内容的弊端。学生可在课后,自己进一步动手实践,从而提高学习效率。
本书主要以大数据技术及计算机相关专业的本科生及高职院校学生为读者对象,注重大数据技术相关基础知识,尤其是实践环节的描述,避免了烦琐的理论知识介绍。全书共21章,内容包括:Python基础简介、初识Python、列表与元组、字符串与正则表达式、字典、集合、文件操作、函数、面向对象、异常处理结构、使用Pandas进行数据分析、可视化技术与Matplotlib、分类与预测、常用聚类分析算法、关联规则算法、协同过滤算法、时间序列数据分析、离群点检测方法、数据降维、模型评估与调优、数据分析与挖掘实战。
第1~10章属于Python基础知识部分,是搭建Python环境和编码的必备知识;第11~12章是提高部分,主要是学习可视化图形的脚本编辑,实际中可根据应用需要选择学习;第13~20章是本书各个算法的实现及代码的实现
介绍;第21章从实际出发,通过不同领域的项目案例讲解Python如何处理大数据信息。本书可以作为工科高校相关专业32~40学时的课程教程。
本书由北京电子科技学院娄嘉鹏老师、北京红亚华宇科技有限公司郑洪宾总经理任主编,由候明昌、周国辉、谢涛任副主编,具体分工是:候明昌、周国辉、谢涛等参与教材整体框架设计,北京红亚华宇科技有限公司提供实训素材,娄嘉鹏老师负责编写全书。特别感谢山东工商学院董付国教授提供案例支持。本书在编写及校对过程中,特别是项目实践内容验证过程中,得到了北京红亚华宇科技有限公司的大力帮助,在此表示衷心感谢。
由于编著者水平有限,书中难免存在错误之处,敬请读者批评指正。
娄嘉鹏,北京电子科技学院网络空间安全系,荣获“北京市优秀教师”,“北京市十大魅力教师”等荣誉称号。主讲《Python程序设计》,《Java程序设计》,《Linux内核原理与分析》等课程。
第1章 Python基础简介 12
1.1 Python语言概述 12
1.2 为何学习Python 12
1.2.1 Python特点 12
1.2.2 Python在大数据中的优势 14
1.3 Python主要应用领域 14
1.4 Python开发环境搭建 14
1.4.1 Windows系统中安装Python 14
1.4.2 在Linux系统中安装Python 16
1.4.3 使用pip安装扩展库 17
1.4.4 PyCharm安装与使用 18
1.4.5 Anaconda3安装与使用 21
第2章 初识Python 26
2.1 基本数据类型 26
2.1.1 数值类型 26
2.1.2 字符串 27
2.1.3 常用容器类型 30
2.2 变量 33
2.2.1 变量的定义与命名规则 33
2.2.2 变量创建与删除 33
2.3 基本输入输出 34
2.3.1 input()函数 34
2.3.2 print()函数 34
2.4 模块 35
2.4.1 模块的概念 35
2.4.2 导入和使用模块中的对象 35
2.4.3 内置模块__builtins__ 36
2.4.4 time模块 36
2.4.5 datetime模块 37
2.4.6 random模块 38
2.4.7 sys模块 39
2.4.8 自定义模块 40
2.5 运算符与表达式 40
2.5.1 算术运算符 40
2.5.2 关系运算符 41
2.5.3 集合运算符 42
2.5.4 逻辑运算符 42
2.5.5 成员运算符 42
2.5.6 身份运算符 42
2.5.7 运算符优先级 43
2.6 选择结构与循环结构 44
2.6.1 常用选择结构 44
2.6.2 if...else 44
2.6.3 while循环 45
2.6.4 for循环 46
2.6.5 break与continue语句 46
2.6.6 带else子句的循环结构 47
2.7 猜数字游戏 47
第3章 列表与元组 50
3.1 序列操作 50
3.1.1 创建序列 50
3.1.2 元素访问 51
3.1.3 切片 52
3.2 列表常用方法 53
3.2.1 append()、extend()、insert() 53
3.2.2 count() 54
3.2.3 index() 54
3.2.4 pop()、remove() 54
3.2.5 sort()、reverse() 55
3.3 元组 55
3.3.1 列表和元组的区别 55
3.3.2 元组的优点 56
3.4 列表解析式与生成器表达式 57
3.4.1 列表解析式 57
3.4.2 生成器表达式 59
3.4.3 列表解析式与生成器表达式的区别 60
第4章 字符串与正则表达式 63
4.1 字符编码 63
4.1.1 常见字符编码 63
4.1.2 字符串与字节串之间的转换 64
4.2 字符串的基本操作 65
4.2.1 元素访问 65
4.2.2 连接字符串 65
4.2.3 字符串重复 65
4.2.4 切片 66
4.2.5 字符串测试 67
4.3 字符串格式化 67
4.3.1 使用运算符%格式化 67
4.3.2 使用format()方法格式化 69
4.3.3 格式化字符串常量 70
4.4 字符串方法 70
4.4.1 find()、index() 70
4.4.2 split()、join() 71
4.4.3 lower()、upper()、swapcase() 71
4.4.4 strip() 72
4.4.5 replace() 72
4.4.6 maketrans、translate() 73
4.4.7 isupper()、islower()、isdigit() 73
4.4.8 center()、ljust()、rjust() 74
4.5 正则表达式与re模块 74
4.5.1 正则表达式基本语法 74
4.5.2 贪婪模式与非贪婪模式 75
4.5.3 re.match()、re.search() 76
4.5.4 re.split() 77
4.5.5 re.sub() 77
第5章 字典 80
5.1 字典创建与使用 80
5.1.1 字典的创建与删除 80
5.1.2 访问元素值 80
5.1.3 添加元素、修改元素值 81
5.2 字典方法 82
5.2.1 get() 82
5.2.2 items()、keys()、values() 82
5.2.3 pop()、popitem() 82
第6章 集合 84
6.1 集合创建与使用 84
6.1.1 集合的创建与删除 84
6.1.2 元素插入与删除 84
6.2 集合常用运算 85
第7章 文件操作 87
7.1 文件基本概念 87
7.1.1 文本文件 87
7.1.2 二进制文件 87
7.1.3 两者的区别 87
7.2 打开与关闭文件 87
7.2.1 open()函数与close()方法 87
7.2.2 with关键字 87
7.3 文件对象基本方法 87
7.3.1 read()、readline()、readlines() 87
7.3.2 write()、writelines() 87
7.3.3 读写二进制文件(是不是应该使用Struct?) 87
7.4 数据序列化与反序列化 87
7.4.1 序列化和反序列化的作用 87
7.4.2 使用pickle进行序列化和反序列化 87
7.4.3 使用JSON进行序列化和反序列化 87
7.5 文件与文件夹基本操作 87
7.5.1 os模块 87
7.5.2 os.path模块 87
第8章 函数 87
8.1 函数的定义和调用 87
8.1.1 定义函数 87
8.1.2 调用函数 87
8.2.3 递归函数 87
8.2 函数参数 87
8.2.1 形参与实参概念 87
8.2.2 位置参数 87
8.2.3 关键字参数 87
8.2.4 默认值参数 87
8.2.5 长度可变参数 87
8.3 变量作用域 87
8.4 函数返回值 87
8.5 函数嵌套定义、闭包、装饰器 87
第9章 面向对象 87
9.1 类的定义与使用 87
9.1.1 class关键字 87
9.1.2 数据成员与成员方法 87
9.1.3 创建对象 87
9.2 构造方法与析构方法 87
9.3 成员访问权限 87
9.4 继承 87
第10章 异常处理结构 87
10.1 异常概念与常见表现形式 87
10.2 常见异常处理结构 87
10.2.1 try...except... 87
10.2.2 try...except...else... 87
10.2.3 带多个except的异常处理结构 87
10.2.4 try...finally... 87
10.3 raise语句 87
第11章 使用pandas进行数据分析 87
11.1 Series和DataFrame简介 87
11.2 DataFrame常用属性和方法 87
11.2.1 创建DataFrame 87
11.2.2 DataFrame常用方法 87
11.3 数据访问与修改 87
11.3.1 数据访问 87
11.4 缺失值处理 87
11.5 重复值处理 87
11.6 异常值处理 87
11.7 读写文件 87
11.8 结合Matplotlib进行数据可视化 87
第12章 可视化技术与Matplotlib 87
12.1 绘制折线图 87
12.2 绘制散点图 87
12.3 绘制饼状图 87
12.4 绘制柱状图 87
12.5 绘图区域分割 87
12.5.1 plt.subplot(nrows, ncols, plot_number) 87
12.5.2 plt.subplot2grid(shape, loc, rowspan=1, colspan=1, fig=None) 87
12.5.3 matplotlib.gridspec 类 87
第13章 分类与预测 87
13.1 Logistic回归分析 87
13.1.1 Logistic回归分析定义 87
13.1.2 Logistic回归模型基本思想及内容 87
13.1.3 Logistic回归分析模型建模步骤 87
13.1.4 Logistic回归分析算法实例 87
13.2 决策树 87
13.2.1 决策树定义 87
13.2.2 常用决策树算法 87
13.2.3 决策树基本思想及内容 87
13.2.4 决策树计算公式及语法 87
13.2.5 决策树实例 87
13.3 K近邻分类算法 87
13.3.1 K近邻分类算法定义 87
13.3.2 K邻近分类算法计算步骤 87
13.3.3 K近邻分类算法优缺点 87
13.3.4 K邻近分类算法语法结构 87
13.3.5 K近邻分类算法实例 87
13.4 人工神经网络 87
13.4.1 人工神经网络定义 87
13.4.2 人工神经网络基本思想及内容 87
13.4.3 BP神经网络算法步骤 87
13.4.4 人工神经网络实例 87
13.5 支持向量机 87
13.5.1 支持向量机定义 87
13.5.2 支持向量机优缺点 87
13.5.3 支持向量机语法结构 87
13.5.4 支持向量机算法实例 87
13.6 随机森林 87
13.6.1 随机森林定义 87
13.6.2 随机森林执行步骤 87
13.6.3 随机森林优缺点 87
13.6.4 随机森林语法结构 87
13.6.5 随机森林方法实例 87
第14章 常用聚类分析算法 87
14.1 K-Means聚类算法 87
14.1.1 K-Means聚类算法过程 87
14.1.2 K-Means聚类的主要特点 87
14.1.3 K-Means聚类语法结构 87
14.1.4 K-Means聚类实例 87
14.2 系统聚类算法 87
14.2.1 系统聚类算法定义 87
14.2.2 系统聚类算法步骤 87
14.2.3 系统聚类算法语法结构 87
14.2.4 系统聚类算法实例 87
14.3 DBSCAN聚类算法 87
14.3.1 DBSCAN聚类算法定义 87
14.3.2 DBSCAN聚类算法步骤 87
14.3.3 DBSCAN聚类算法优缺点 87
14.3.4 DBSCAN聚类算法语法结构 87
14.3.5 DBSCAN聚类算法实例 87
第15章 关联规则算法 87
15.1 Apriori算法简介 87
15.1.1 挖掘项集相关定义 87
15.1.2 步骤 87
15.1.3 由频繁项集产生关联规则 87
15.2 Apriori算法应用 87
第16章 协同过滤算法 87
16.1 基于用户的协同过滤算法 87
16.1.1 基于用户的协同过滤算法定义 87
16.1.2 基于用户的协同过滤算法的方法步骤 87
16.1.3 基于用户的协同过滤算法的优缺点 87
16.1.4 基于用户的协同过滤算法实例 87
16.2 基于物品的协同过滤算法 87
16.2.1 基于物品的协同过滤算法定义 87
16.2.2 基于物品的协同过滤算法方法步骤 87
16.2.3 基于物品的协同过滤算法实例 87
第17章 时间序列数据分析 87
17.1 时间序列的预处理 87
17.1.1 平稳性检验 87
17.1.2 纯随机性检验 87
17.2 平稳时间序列分析 87
17.2.1 AR模型 87
17.2.2 MA模型 87
17.2.3 ARMA模型 87
17.2.4 平稳时间序列建模 87
17.3 非平稳时间序列分析 87
17.3.1 差分运算 87
17.3.2 ARIMA模型 87
17.4 Python 主要时序模式算法 87
第18章 离群点检测方法 87
18.1 离群点检测概述 87
18.1.1 离群点检测概念 87
18.1.2 离群点的成因 87
18.1.3 离群点的类型 87
18.1.4常用离群点检测方法 87
18.2 基于密度的离群点检测方法 87
18.2.1 平稳性检验 87
18.2.2 一元正态分布中的的离群点检测 87
18.2.3 混合模型的离群点检测 87
18.3 基于聚类的离群点检测方法 87
18.4 基于距离的离群点检测方法 87
18.4.1 基于原型的聚类 87
18.4.2 基于聚类的离群点检测的改进 87
第19章 数据降维 87
19.1 数据降维概述 87
19.1.1 数据降维概述 87
19.1.2 有监督和无监督 87
19.1.3 线性降维 87
19.1.4 非线性降维 87
19.1.5 数据标准化 87
19.2 常用降维方法简介 87
19.2.1 缺失值的比率 87
19.2.2 低方差过滤 87
19.2.3 高相关过滤 87
19.2.4 Random Forests/Ensemble Trees 87
19.2.5 PCA(主成分分析) 87
19.2.6 反向特征的消除 87
19.2.7 正向特征的构建 87
第20章 模型评估与调优 87
20.1 模型评估和调优的意义 87
20.1.1 机器学习 87
20.1.2 模型评估 87
20.2 评估指标(Evaluation metrics) 87
20.2.1 分类评估指标 87
20.2.2 回归评估指标 87
20.2.3 排序评估指标 87
20.3 模型调优建议与注意事项 87
20.3.1 数据倾斜 87
20.3.2 类别不均衡(Imbalanced Classes) 87
20.3.3 异常点(Outliers) 87
第21章 数据分析与挖掘实战 87
21.1 热水器使用情况分析 87
21.1.1 背景与挖掘目标 87
21.1.2 分析方法与过程 87
21.1.3 数据抽取 87
21.1.4 数据探索分析 87
21.1.5 数据预处理 87
21.1.6 模型构建 87
21.1 电子商务的智能推荐 87
21.1.1 背景与挖掘目标 87
21.1.2 分析方法与过程 87
21.1.3 数据抽取 87
21.1.4 数据探索分析 87
21.1.5 数据预处理 87
21.1.6 模型构建 87
21.2 财政收入分析 87
21.2.1 背景与挖掘目标 87
21.2.2 分析方法与过程 87
21.2.3 灰色预测与神经网络的组合模型 87
21.2.4 数据探索分析 87
21.2.5 模型构建 87
21.3 电商产品评价分析 87
21.3.1 背景与挖掘目标 87
21.3.2 分析方法与过程 87
21.3.3 评论数据采集 87
21.3.4 评论预处理 87
21.3.5 机械压缩去词 87
21.3.6 文本评论分词 87
21.3.7 模型构建 87
21.4 电力窃漏识别分析 87
21.4.1 背景与挖掘目标 87
21.4.2 分析方法与过程 87
21.4.3 灰色预测与神经网络的组合模型 87
21.4.4 数据探索分析 87
21.4.5 数据预处理 87
21.4.6 构建专家样本 87
21.4.7 模型构建 87
参考文献: 87