本书系统地介绍了大数据的基本概念,保障大数据安全的基本技术和管理策略。主要内容包括大数据的创建、大数据的传输、大数据的存储、大数据的处理、大数据的交换以及大数据的恢复与销毁等过程的安全技术与管理策略,还包括大数据安全态势感知的相关技术以及网络安全等级保护中关于大数据的扩展安全要求。
我们生活在一个充满数据的时代,并且我们的生产和日常生活还在不断地产生新数据,堆砌着数据大厦。由于大数据的无所不包,数据产生和应用的无所不在,大数据安全将关系到各类社会组织的正常运行,关系到企业的正常经营和发展,关系到我们每个人的切身利益。
很多科学技术都是一把双刃剑,它一方面可以造福社会、造福人民,另一方面也可以被一些人用来损害社会公共利益和民众利益,因而国家强调必须将大数据安全纳入国家安全视野中来审视与思考。
《国务院关于印发促进大数据发展行动纲要的通知》强调,要科学规范利用大数据,切实保障数据安全,再次体现出国家层面对数据安全的高度重视。实际上,未来国家层面的竞争力将部分体现为一国拥有数据的规模、活性以及解释、运用的能力,数据主权将成为继边防、海防、空防之后另一个国与国之间博弈的空间。
共建数据安全,共享安全数据,就是要在确保数据安全的前提下,更好地发挥和挖掘数据的潜在价值,创造更好的社会和经济效益。为此,在数字赋能,共创未来携手构建网络空间命运共同体的过程中,我们有必要编写一本大数据安全图书,以推进大数据资源整合和开放共享,保障大数据安全,助力建设数字中国,更好地为发展我国经济社会和改善人民生活服务。
在此背景下,我们编写本书以飨读者。
新一轮科技革命和产业变革加速演进,大数据等新技术、新应用、新业态方兴未艾,但是关于大数据安全技术与管理的图书并不是很多。我们编写组成员通过分析大数据相关的法律、法规、标准、规范,根据编写组的项目实践经验,以及查阅的大量论文,按照大数据的生命周期,逐一讨论了大数据各阶段的安全问题,分析了相应的技术和管理措施,并在每章设计了习题,以便于读者按自己的需求及喜好查找相应的大数据安全问题,并寻求相应的解决措施。
在本书的编写过程中,编写组对书中所讨论的大数据安全问题慎之又慎,唯恐出现纰漏。然而,限于学识,书中表述可能有不当之处,欢迎各位读者不吝批评、指正,以使得本书更加完善。对于参阅的大量文献,未能全部列出,特向同行者表达深深的歉意。
本书的编写获得了河南省高校科技创新团队支持计划项目(211RTSTHN012)的支持。机械工业出版社华章公司的佘洁老师在本书的选题策划、写作等方面给予了认真细致的指导,在此对她表示诚挚的感谢。
前言
第1章 大数据安全挑战和现状 1
1.1 大数据概述 1
1.1.1 大数据的概念 2
1.1.2 大数据的特性 2
1.1.3 大数据安全需求 4
1.2 大数据面临的安全挑战 5
1.2.1 大数据技术和平台的安全 5
1.2.2 数据安全和个人信息保护 8
1.2.3 国家社会安全和法规标准 10
1.3 大数据安全现状 13
1.3.1 国家安全法 13
1.3.2 网络安全法 14
1.3.3 大数据安全管理指南 17
1.3.4 数据安全能力成熟度模型 18
1.3.5 个人信息安全规范 21
1.4 小结 23
习题1 23
第2章 大数据治理 24
2.1 大数据治理概述 24
2.1.1 大数据治理的概念 24
2.1.2 大数据治理的重要性 26
2.1.3 国内外大数据治理现状 27
2.2 大数据治理的原则和范围 31
2.2.1 大数据治理的原则 31
2.2.2 大数据治理的范围 32
2.3 大数据架构 34
2.3.1 大数据基础资源层 35
2.3.2 大数据管理与分析层 36
2.3.3 大数据应用层 37
2.3.4 大数据技术架构 38
2.4 个人隐私保护 41
2.4.1 大数据带来的个人隐私防护问题 41
2.4.2 个人隐私防护对策 42
2.4.3 大数据的隐私保护关键技术 44
2.5 大数据治理实施 46
2.5.1 实施目标 46
2.5.2 实施动力 48
2.5.3 实施过程 48
2.6 小结 50
习题2 51
第3章 大数据的安全创建 52
3.1 大数据的采集 52
3.1.1 大数据的分类分级 52
3.1.2 大数据采集安全管理 55
3.1.3 数据源鉴别与记录 57
3.1.4 大数据质量管理 60
3.2 大数据的导入导出 62
3.2.1 基本原则 62
3.2.2 安全策略 62
3.2.3 制度流程 62
3.3 大数据的查询 63
3.3.1 特权账号管理 63
3.3.2 敏感数据的访问控制 65
3.4 小结 66
习题3 67
第4章 大数据的传输与存储安全 68
4.1 大数据传输加密 68
4.1.1 大数据内容加密 68
4.1.2 网络加密方式 74
4.1.3 身份认证 76
4.1.4 签名与验签 78
4.2 网络可用性 80
4.2.1 可用性管理指标 80
4.2.2 负载均衡 81
4.2.3 大数据防泄露 84
4.3 大数据的存储 88
4.3.1 存储媒体 88
4.3.2 分布式存储 89
4.3.3 大数据备份和恢复 91
4.4 小结 92
习题4 92
第5章 大数据处理安全 93
5.1 数据脱敏 93
5.1.1 数据属性 93
5.1.2 数据匿名化 95
5.1.3 数据脱敏技术 99
5.2 大数据分析安全 100
5.2.1 个人信息防护 100
5.2.2 敏感数据识别方法 103
5.2.3 数据挖掘的输出隐私保护技术 106
5.3 大数据正当使用 107
5.3.1 合规性评估 107
5.3.2 访问控制 110
5.4 大数据处理环境 125
5.4.1 基于云的大数据处理系统的架构和服务模式 125
5.4.2 Hadoop处理平台 127
5.4.3 Spark处理平台 130
5.5 小结 132
习题5 132
第6章 大数据的安全交换 134
6.1 大数据交换概述 134
6.1.1 大数据交换的背景 134
6.1.2 大数据安全交换 136
6.1.3 大数据交换面临的安全威胁 137
6.2 大数据共享 139
6.2.1 大数据共享原则 139
6.2.2 大数据共享模型 141
6.2.3 大数据共享安全框架 145
6.3 大数据交换技术 149
6.3.1 数据接口安全限制 149
6.3.2 大数据格式规范 150
6.3.3 数据源异常检测 151
6.3.4 大数据异常检测应用 152
6.4 小结 153
习题6 154
第7章 大数据恢复与销毁 155
7.1 大数据备份 155
7.1.1 大数据备份类型 155
7.1.2 备份加密 157
7.2 大数据恢复 158
7.2.1 大数据恢复演练 159
7.2.2 数据容灾 159
7.3 大数据销毁处置 160
7.3.1 大数据销毁场景 161
7.3.2 数据删除方式 161
7.4 存储媒体的销毁处置 162
7.4.1 存储媒体销毁处理策略 162
7.4.2 存储媒体销毁方法 163
7.5 小结 163
习题7 164
第8章 大数据安全态势感知 165
8.1 安全态势感知平台概述 165
8.1.1 安全态势感知平台的研究背景 165
8.1.2 大数据安全平台面临的挑战 166
8.1.3 安全态势感知的研究进展 167
8.1.4 安全态势感知的关键技术 168
8.2 数据融合技术 169
8.2.1 数据融合的定义 169
8.2.2 数据融合的基本原理 170
8.2.3 数据融合的技术和方法 172
8.3 数据挖掘技术 173
8.3.1 数据挖掘的概念 173
8.3.2 数据挖掘任务 175
8.3.3 数据挖掘对象 177
8.3.4 数据挖掘的方法和技术 180
8.4 特征提取技术 181
8.4.1 模式识别 181
8.4.2 特征提取的概念 182
8.4.3 特征提取的方法 183
8.5 态势预测技术 184