金融大数据分析是金融科技专业的一门核心课程,它最大的特点是:它是大数据技术与金融学的学科交叉,融合了计算机专业的大数据分析、数据挖掘等课程与金融学、金融市场学等课程的相关知识,以利用大数据分析方法解决金融问题为导向。本书重点介绍如何运用计量经济学和机器学习的分析方法来实证研究各种常见的资产定价模型和量化投资策略。针对金融数据的特殊性,介绍横截面、时间序列及金融面板数据的分析处理方法,同时针对高维度的复杂金融大数据,介绍常用的机器学习方法及其在金融资产定价中的前沿应用。
吴轲,埃默里大学经济学博士,中国人民大学财政金融学院副教授、博士生导师, 中国人民大学吴玉章青年学者。主要研究领域包括资产定价、投资组合管理、金融计量 学和机器学习。研究成果已经发表在诸如《管理科学》(Management Science)、《金融与 定量分析杂志》(Journal of Financial and Quantitative Analysis)以及《应用计量经济 学杂志》(Journal of Applied Econometrics)等国际一流期刊上。主持国家自然科学基 金青年项目和面上项目,参与科技部国家重点研发计划。在中国人民大学为本科生和研 究生讲授资产定价、金融风险管理、金融科技以及金融大数据分析等课程。 周德馨,埃默里大学金融学博士,纽约市立大学巴鲁克学院副教授(终身教职)以 及研究生中心博士生导师。主要研究领域包括行为金融学以及大数据与另类数据在金融 市场中的应用。研究成果发表于《金融经济学杂志》(Journal of Financial Economics)、 《金融研究评论》(Review of Financial Studies)以及《会计评论》(The Accounting Re- view)等国际顶级期刊上,有些曾被《金融时报》(Financial Times)与《华尔街日报》 (The Wall Street Journal)等报刊转载引用,以及在哈佛大学法学院公司治理论坛分 享。在纽约市立大学为本科生讲授公司金融并为博士生讲授实证金融方法等课程。
第1部分 知识回顾
第1章 数据的管理与探索 003
1.1 金融数据管理面临的挑战与机遇 003
1.2 数据的存储与使用 004
1.3 Pandas与数据可视化程序库简介 005
1.4 程序:数据的管理以及初步探索 006
第2章 数学以及统计学知识回顾 017
2.1 数学知识回顾 017
2.2 统计学知识回顾 025
第2部分 监督学习基础
第3章 线性回归 033
3.1 案例:预测公司盈利 033
3.2 线性回归方法 034
3.3 知识拓展:线性回归方法的其他应用 040
3.4 程序 041
第4章 逻辑回归 048
4.1 案例:贷款违约预测 048
4.2 逻辑回归方法 049
4.3 知识拓展:多分类问题 054
4.4 程序 055
第5章 其他基础监督学习方法 063
5.1 其他基础监督学习方法简介 063
5.2 样条模型 064
5.3 广义可加模型 066
5.4 支持向量机 067
5.5 K近邻分类器 070
5.6 程序 070
第6章 模型验证 075
6.1 模型验证简介 075
6.2 如何进行模型验证 076
6.3 过拟合及欠拟合问题 078
6.4 模型验证指标 081
6.5 程序 084
第7章 模型选择与正则化 091
7.1 模型选择与正则化简介 091
7.2 模型选择 091
7.3 正则化 093
7.4 程序 097
第3部分 监督学习进阶
第8章 决策树 103
8.1 决策树简介 103
8.2 回归树模型训练 105
8.3 分类树 109
8.4 程序 110
第9章 集成学习 113
9.1 集成学习简介 113
9.2 袋装法 114
9.3 随机森林 115
9.4 提升法 116
9.5 集成学习方法的优缺点 117
9.6 程序 118
第10章 神经网络 121
10.1 神经网络简介 121
10.2 神经网络的结构 121
10.3 模型训练 126
10.4 神经网络正则化 129
10.5 常用的神经网络结构 130
10.6 程序 131
第11章 监督学习小结 139
11.1 监督学习方法回顾 139
11.2 复杂模型的可解释性 140
11.3 程序 143
第4部分 无监督学习
第12章 主成分分析 149
12.1 案例:投资策略 149
12.2 主成分分析方法 149
12.3 知识拓展:偏最小二乘回归 153
12.4 程序 154
第13章 聚类分析 160
13.1 案例:贷款违约风险评估 160
13.2 聚类分析方法 161
13.3 程序 165
第14章 缺失数据及其处理 168
14.1 缺失数据问题简介 168
14.2 缺失数据问题的处理方法 169
14.3 程序 172
第5部分 大数据与另类数据
第15章 基础文本分析 177
15.1 文本分析简介 177
15.2 词袋模型 178
15.3 文本相似度 183
15.4 词嵌入 184
15.5 知识拓展:数据获取 186
15.6 程序 187
第16章 大语言模型 190
16.1 大语言模型简介 190
16.2 大语言模型的技术背景 191
16.3 大语言模型在金融中的应用 194
16.4 国产大语言模型 197
16.5 程序 199
第17章 其他另类数据的处理 203
17.1 其他另类数据简介 203
17.2 图像数据及其处理 204
17.3 声音信息及其处理 207
17.4 知识拓展:用图片来预测股票收益率 207
17.5 程序 208
第18章 大数据的处理与学习 212
18.1 大数据简介 212
18.2 大数据的处理 213
18.3 大数据的学习 215
18.4 程序 216
第6部分 大数据学习与经济金融研究
第19章 大数据机器学习方法在金融中的应用 223
19.1 股票收益率横截面预测实证 224
19.2 工具变量主成分分析方法 232
19.3 大数据下的有效定价因子识别 238
19.4 采用自纠偏机器学习方法识别有效定价因子 247
19.5 机器学习方法在应用于金融领域时存在的问题 253
参考文献 254