本书重点介绍了目前处理数据非常有效的工具——Excel、Python和数据库的应用知识。本书通过一则完整的故事讨论了如何以Python编程为中心,结合Excel和数据库的特点,并以基础统计学贯穿其中,帮助读者深入地了解数据分析的相关知识。在本书中,首先,讨论了如何使用Excel整理数据,以及Excel中数学和统计函数的应用;其次,探讨了与Python编程相关的数据分析内容,包括在Python中进行数据统计工作,以及各种格式数据的转换等;然后,讨论SQLite和MySQL数据库的应用,并介绍了如何使用Python操作数据库;最后,介绍了如何综合使用Excel、数据库和Python编程等工具打造自动化的数据处理中心。
本书架构清晰,内容深入浅出,案例丰富,适合需要进行数据处理和统计分析的职场人士、计算机爱好者等阅读。
综合性强:本书将数据处理工具、统计学原理及其综合应用技巧进行了巧妙结合,使读者能够在一个统一的框架下掌握多种工具的使用方法,提升数据分析能力。
内容丰富:详尽地比较了Excel、Python以及数据库等三大主流数据分析工具的优势和局限,同时指导读者如何根据具体需求灵活搭配这些工具。
循序渐进:内容解析深入浅出,能够加深读者对每种工具在不同场景下应用的理解,附赠书中涉及到的源代码及图片文件,供读者边学边连。
案例翔实:本书采用了生动的实际案例模拟方法,这些案例贴近职场实际,旨在帮助职场专业人士和自由职业者通过真实的业务场景来深化对数据处理的认识。
使用 本书学习,读者可以更加灵活和高效地掌握数据分析技巧,在提高工作和学习效率的同时增强了自己的数据处理能力。
曹化宇,独立软件开发人,拥有20余年软件开发经验,从事Windows、.NET Framework、Android等应用开发,精通Web项目开发。编写的图书有《网站全栈开发指南:HTML+CSS+JavaScript+PHP》《网站全栈开发指南:HTML+CSS+JavaScript+ASP.NET》《Java与Android移动应用开发:技术、方法与实践》《C#开发实用指南:方法与实践》《Objective-C和Sprite Kit游戏开发从入门到精通》《构建高质量的C#代码》等。
第 1章 网店开业——初识数据 1
1.1 清点库存——获取原始数据 1
1.2 数据标准化——整理Excel 数据 2
1.2.1 二维表 3
1.2.2 数据完整性与正确性 5
1.2.3 拆分数据——分列与 公式 7
1.2.4 数据类型和显示格式 11
1.2.5 分而治之,按需组合 12
1.3 认识数据 14
1.3.1 定量数据和定性数据 14
1.3.2 绝对量与相对量 14
1.4 寻找“大客户”——排序 16
1.5 数据挑着看——筛选 17
1.6 数据交换——Excel和CSV 19
第 2章 销量的起伏——数据背后的 故事 25
2.1 销售数据如何——简单的统计 25
2.1.1 算术平均数 26
2.1.2 几何平均数 27
2.1.3 众数 30
2.1.4 最小值和最大值 32
2.1.5 中位数、四分位数和 百分位数 33
2.1.6 方差和标准差 35
2.1.7 标准分 36
2.1.8 分类汇总 38
2.1.9 数据透视表 41
2.2 学看统计图 43
2.2.1 折线图 43
2.2.2 饼图 45
2.2.3 条形图 46
2.3 销量下降——是时候认真 分析数据了 47
2.3.1 转化率——访问量和 销量 48
2.3.2 访问量-购买量=? 50
第3章 凌晨3点——又加班了 51
3.1 多销售渠道的烦恼 51
3.2 日报表、月报表、 年度报表等 53
第4章 强大的信息处理工具—— Python编程 54
4.1 创建Python环境 54
4.1.1 Visual Studio 54
4.1.2 代码文件的编码问题 56
4.1.3 使用指定版本的Python 58
4.1.4 设置Path环境变量 59
4.1.5 命令行窗口 61
4.1.6 Python命令行环境 62
4.2 编写Python代码 64
4.3 功能实现者——函数和lambda 表达式 66
4.3.1 函数 66
4.3.2 可调用类型 71
4.3.3 lambda表达式 73
4.4 “对象”是主角——面向对象 编程 74
4.4.1 类与对象 74
4.4.2 继承 80
4.4.3 “魔术方法” 82
4.4.4 with语句 84
4.4.5 类成员和静态方法 87
4.5 模块化管理 91
4.6 向左还是向右——代码流程 控制 96
4.6.1 条件判断和if语句 96
4.6.2 循环语句 100
4.6.3 match语句 103
4.7 处理运行错误 104
第5章 更灵活的计算——在Python 中处理数据 108
5.1 不一样的算术运算 108
5.2 随机数 110
5.3 序列 112
5.3.1 列表 113
5.3.2 元组 121
5.3.3 数列 123
5.4 字典 124
5.5 集合 128
5.6 更自由的排列—— sorted() 函数 129
5.7 数学计算—— math模块 131
5.8 统计资源—— statistics模块 132
5.8.1 使用Fraction类处理 分数 132
5.8.2 算术平均数 133
5.8.3 几何平均数 133
5.8.4 众数 134
5.8.5 中位数 134
5.8.6 方差和标准差 135
5.9 计算百分位数 136
5.10 计算标准分数 139
5.11 按中文拼音排序 139
5.12 日期和时间 142
5.12.1 datetime类 142
5.12.2 时间间隔 143
5.12.3 时区 144
5.12.4 时间戳 144
5.12.5 日期和时间的推算 145
5.12.6 格式转换 146
第6章 “超能熊猫”来帮忙—— pandas应用 149
6.1 Series对象 149
6.2 排序 152
6.3 统计方法 154
第7章 二维表模型—— DataFrame 158
7.1 DataFrame对象 158
7.2 读取数据 160
7.2.1 iloc和loc属性 160
7.2.2 读取列 163
7.2.3 读取行 164
7.3 排序 168
7.4 按条件查询数据 170
7.5 处理空值数据 173
7.6 处理重复数据 174
7.7 数据旋转 177
7.8 数据合并 178
7.9 数据连接 181
7.10 统计方法 182
7.11 分组 183
7.12 透视表 185
第8章 图形更直观——pandas 绘制统计图 188
8.1 部分与整体的比例——饼图 189
8.2 数据的关系与分布——散点图与 气泡图 193
8.3 趋势——折线图 197
8.4 更直观的对比——条形图 202
8.5 数据的“距”——箱线图 209
第9章 数据中转站——数据格式 转换 211
9.1 xlwt模块写入Excel 211
9.2 xlrd模块读取Excel 215
9.3 openpyxl模块读写Excel 217
9.4 pandas模块读写Excel 220
9.5 csv模块读写CSV数据 223
9.6 pandas模块读写CSV数据 227
第 10章 强大的数据仓库—— SQLite数据库 229
10.1 使用DB Browser for SQLite 229
10.2 数据类型 230
10.3 数据表 230
10.3.1 创建表 230
10.3.2 表的关联——主键、唯一 约束和外键 232
10.3.3 添加字段 234
10.3.4 删除表 235
10.3.5 sqlite_master系统表 235
10.3.6 索引 236
10.4 导入CSV数据 236
10.5 查询与视图 237
10.5.1 查询条件 238
10.5.2 排序 240
10.5.3 分组与统计 242
10.5.4 连接 243
10.5.5 联合 245
10.5.6 limit和offset关键字 247
10.5.7 exists语句 248
10.5.8 case语句 248
10.5.9 视图 249
10.5.10 将查询结果 保存到表 251
10.5.11 将数据保存到CSV 文件 252
10.6 添加数据 252
10.7 修改数据 254
10.8 删除数据 255
10.9 日期和时间的处理方式 255
第 11章 Python操作SQLite 261
11.1 应用基础 261
11.1.1 执行SQL语句 262
11.1.2 读取查询结果 263
11.1.3 创建tSqlite类 263
11.2 查询单值 265
11.3 查询单条记录 266
11.4 查询多条记录 267
11.5 查询单列数据 270
11.6 添加数据 271
11.7 修改数据 273
11.8 删除数据 274
11.9 扩展操作 275
11.9.1 自定义函数 275
11.9.2 聚合函数 277
11.9.3 排序规则 280
11.10 pandas读取和写入SQLite数据 282
第 12章 更大、更快、更强——MySQL数据库 285
12.1 MySQL安装与配置 285
12.2 使用HeidiSQL 289
12.3 常用数据类型 291
12.4 数据表 292
12.4.1 创建表 292
12.4.2 主键、唯一值和外键约束 294
12.4.3 修改字段定义 295
12.4.4 复制表结构 296
12.4.5 表的重命名(表的移动) 297
12.4.6 删除表 298
12.4.7 索引 298
12.5 导入CSV数据 298
12.6 查询和视图 302
12.6.1 查询条件与排序 302
12.6.2 分组与统计 307
12.6.3 连接 307
12.6.4 联合 308
12.6.5 limit和offset关键字 310
12.6.6 exists语句 311
12.6.7 case语句 311
12.6.8 视图 312
12.6.9 查询结果保存到表 312
12.6.10 查询结果导出CSV 313
12.7 数据添加、修改和删除 314
12.7.1 添加数据 314
12.7.2 修改数据 315
12.7.3 删除数据 315
12.8 常用函数与功能 315
12.8.1 统计与数学计算 315
12.8.2 文本操作 316
12.8.3 日期和时间 317
12.8.4 if()和ifnull()函数 320
12.8.5 判断对象是否存在 320
12.9 存储过程 321
第 13章 Python操作MySQL 323
13.1 应用基础 323
13.1.1 连接数据库 323
13.1.2 执行SQL并读取查询结果 324
13.1.3 使用参数传递数据 325
13.2 创建tMySql类 325
13.3 查询单值 327
13.4 查询单条记录 328
13.5 查询多条记录 329
13.6 查询单列数据 331
13.7 添加记录 332
13.8 修改数据 335
13.9 删除记录 336
13.10 pandas读取和写入MySQL数据 337
第 14章 数据一箩筐——打造数据中心 339
14.1 创建数据中心 339
14.2 批量导入数据 341
14.2.1 标准化数据 341
14.2.2 导入Excel数据 342
14.3 定时导入 343
14.4 处理网络数据 349
14.4.1 HTML表格 349
14.4.2 JSON 352
14.5 从图像中识别数据OCR) 353
14.5.1 图像识别——EasyOCR 354
14.5.2 裁剪图片 356
14.5.3 保存到“数据中心” 359
第 15章 更深入的数据分析 365
15.1 客户的抱怨——处理文本信息 365
15.1.1 字符串处理 366
15.1.2 正则表达式 368
15.2 关于服装的信息 373
15.3 “购买指数”——产品推荐算法 374
第 16章 早上八点,一杯咖啡,一份报表 378
16.1 自动生成报表 378
16.1.1 数据计算 378
16.1.2 生成Excel报表 379
16.2 继续前进 383