《图数据管理与挖掘》介绍了图数据管理与挖掘的关键技术,涵盖基于集合相似度的子图匹配查询处理方法与原型系统、情境感知的个性化推荐方法、利用多层聚簇的跨类协同过滤推荐算法、基于潜在主题的准确性Web社区协同推荐方法、基于用户社区全域关系闭包的高效均衡性Web社区推荐方法、Web社区推荐原型系统、大规模时空图中人类行为模式的实时挖掘方法、基于潜在引用图数据的专利价值评估方法、基于专利关联的新颖专利查找方法,以及异构专利网络中的竞争对手主题预测方法。
《图数据管理与挖掘》适合计算机、信息管理等相关专业的高年级本科生和研究生阅读,也可作为数据科学等相关领域的研究与开发人员的参考书。
更多科学出版社服务,请扫码获取。
最近几年,图数据管理与挖掘技术的发展和应用引起了国内外研究者和工业界的极大兴趣。图作为一种常见的数据表示模型,用于建模复杂数据以及数据之间的关联,例如社会网络、语义网、路网、生物网络、专利网络等。图数据库是指被存储的数据对象是基于图数据模型的。图数据管理的核心问题是图数据库的查询处理,即基于图模型的结构查询,例如子图匹配查询、路径可达性查询、路径距离查询等。虽然从某种角度上来说,图数据库中的查询也可以用SQL语言来表达,利用现有的RDBMS的查询功能来完成,但是这样的查询系统的性能是非常低的。图数据管理研究的关键点是如何设计有效的索引结构和查询算法来快速地回答图数据库中的结构查询问题。图数据挖掘相比于关系数据库的挖掘更强调的是发现与分析数据之间的关联关系。随着大数据时代的到来,数据的关联关系在数据挖掘和分析的过程中越来越受到重视,是商务智能、决策支持、科学研究等领域的核心问题与难点。对于图数据管理与挖掘查询的研究最早可以追溯到20世纪90年代。最近,由于社会网络数据,专利网络数据,以及语义网数据等领域大数据的大量出现,引起了对于图数据管理与挖掘的新一轮研究热潮。在最近几年的三大国际数据库顶级会议(SIGMOD,VLDB和ICDE)上均有图数据管理与挖掘的相关论文,并且数量与比例逐年上升。
社会网络、时空图以及专利网络具有天然的图数据特征,数据之间的复杂关联以及大数据的产生给管理和挖掘这些数据带来了巨大的挑战。本书以图数据理论与模型为基础,面向社会网络、时空图、专利网络等应用领域,提出了一系列的图数据管理与挖掘关键技术。
本书的撰写得到武汉大学多位教师、同学的大力协助和支持,尤其是余骞博士和冯岭博士对本书部分内容的撰写做出了贡献,对他们的辛勤付出表示由衷的感谢!感谢相关学术研究的合作者,你们在我学习和研究道路上给予了大量的帮助和指导。感谢家人的陪伴、支持和鼓励。
本研究受到国家重点基础研究发展计划(973计划)“科学大数据管理系统(面向特定领域的大数据管理系统)”子课题“图数据管理关键技术及系统”(编号:2016YFB1000603),国家自然科学基金青年基金项目“移动社会网络中基于信任关系的情境感知推荐研究”(编号:61303025),以及国家自然科学基金重点国际合作研究项目“大数据环境下的知识组织与服务创新研究”(编号:71420107026)的资助,作者在此表示衷心的感谢。
收起全部↑
目录
前言
第1章 大图数据库中基于集合相似度的子图匹配查询处理方法1
1.1 引言1
1.2 预备知识4
1.2.1 问题定义4
1.2.2 架构5
1.3 集合相似度剪枝6
1.3.1 倒排模式格的构建7
1.3.2 剪枝技术8
1.3.3 倒排模式格的优化10
1.4 基于结构的剪枝操作11
1.4.1 结构化签名11
1.4.2 基于签名的LSH12
1.4.3 结构化剪枝12
1.5 基于支配集的子图匹配14
1.5.1 DS-匹配算法14
1.5.2 支配集的选择17
1.6 实验分析18
1.6.1 数据集合设置18
1.6.2 比较方法19
1.6.3 线下性能19
1.6.4 线上性能20
1.7 结论26
第2章 基于集合相似度的子图匹配查询原型系统27
2.1 引言27
2.2 预备知识29
2.2.1 问题定义29
2.2.2 方法概览30
2.3 签名及DS-Tree31
2.3.1 查询签名和数据签名31
2.3.2 DS-Tree32
2.3.3 利用DS-Tree查询36
2.4 支配子图38
2.5 SMOC 算法41
2.6 实验42
2.6.1 数据集和实验环境42
2.6.2 对比方法43
2.6.3 离线处理性能43
2.6.4 在线处理性能45
2.7 结论46
第3章 利用社会网络图数据的情境感知个性化推荐方法47
3.1 引言47
3.2 预备知识49
3.2.1 问题定义50
3.2.2 方法框架50
3.3 角色挖掘52
3.3.1 角色的定义52
3.3.2 用条件数据库进行角色挖掘52
3.3.3 情境感知的角色权重54
3.4 基于角色的信任模型55
3.5 寻找相似用户56
3.5.1 WSSQ算法概述57
3.5.2 前缀过滤58
3.5.3 L1-范数过滤59
3.5.4 相似度计算的优化60
3.6 推荐方法62
3.7 实验评价63
3.7.1 数据集描述63
3.7.2 对比方法63
3.7.3 对角色挖掘和信任模型的评价64
3.7.4 推荐质量65
3.7.5 推荐时间69
3.8 结论72
第4章 多层聚簇中基于协同过滤的跨类推荐算法73
4.1 引言73
4.2 预备知识74
4.2.1 问题定义74
4.2.2 算法框架75
4.3 多层聚簇75
4.4 利用多层聚簇推荐78
4.4.1 推荐框架78
4.4.2 Top-k推荐79
4.5 实验80
4.5.1 数据集80
4.5.2 对比方法81
4.5.3 评价标准81
4.5.4 参数设置81
4.5.5 minsup的影响81
4.5.6 效率和扩展性82
4.6 结论84
第5章 基于潜在主题的准确性Web社区协同推荐方法85
5.1 引言85
5.2 基于潜在主题的Web社区协同推荐方法86
5.2.1 方法框架87
5.2.2 ITS值计算88
5.2.3 ETS值计算91
5.2.4 IETS值计算93
5.2.5 可扩展性95
5.3 实验及分析95
5.3.1 数据集描述96
5.3.2 实验方案96
5.3.3 实验结果96
5.4 结论99
第6章 基于用户-社区全域关系的新颖性Web社区推荐方法100
6.1 引言100
6.2 UCTR 方法102
6.2.1 UCTR 方法框架103
6.2.2 社区准确度计算104
6.2.3 社区新颖度计算105
6.2.4 社区UCTR值计算108
6.3 实验及分析108
6.3.1 数据集描述109
6.3.2 推荐准确性评价109
6.3.3 推荐新颖性评价111
6.3.4 推荐综合评价112
6.4 结论113
第7章 基于用户-社区全域关系闭包的高效均衡性Web社区推荐方法114
7.1 引言114
7.2 NovelRec方法116
7.2.1 方法框架117
7.2.2 离线建模计算118
7.2.3 在线推荐计算121
7.2.4 NovelRec复杂度分析126
7.2.5 用户冷启动分析127
7.3 实验及分析128
7.3.1 实验数据分析128
7.3.2 推荐准确性分析130
7.3.3 推荐新颖性分析132
7.3.4 NovelRec性能分析135
7.4 结论138
第8章 Web社区推荐原型系统139
8.1 引言139
8.2 Web 社区建模139
8.2.1 对象代理模型概述139
8.2.2 利用对象代理模型建模Web社区140
8.3 Web 社区管理原型系统143
8.3.1 对象代理数据库概述143
8.3.2 基于TOTEM 的Web社区管理系统145
8.4 Web 社区推荐原型系统147
8.4.1 推荐系统实现机制147
8.4.2 推荐系统功能效果148
8.5 结论150
第9章 大规模时空图中人类行为模式的实时挖掘方法151
9.1 引言151
9.2 预备知识153
9.2.1 定义153
9.2.2 问题陈述154
9.2.3 框架154
9.3 在单一时间间隔中的黑洞检测155
9.3.1 STG索引155
9.3.2 候选网格选择156
9.3.3 空间扩展158
9.3.4 流上限更新159
9.4 连续检测159
9.5 实验评估161
9.5.1 数据161
9.5.2 北京市案例研究162
9.5.3 纽约市案例研究165
9.5.4 在单一时段内的表现167
9.5.5 连续检测的表现169
9.6 结论171
第10章 基于潜在引用图数据的专利价值评估方法172
10.1 引言172
10.2 潜在引用关联174
10.3 专利价值评估基本算法175
10.4 专利价值评估改进算法179
10.5 专利价值评估更新算法181
10.6 实验评估184
10.6.1 实验设置184
10.6.2 评估方法185
10.6.3 结果与分析185
10.7 结论188
第11章 基于专利关联的新颖专利查找方法189
11.1 引言189
11.2 相对新颖图191
11.3 专利新颖度排序算法193
11.4 专利新颖度更新算法195
11.5 实验评估200
11.5.1 实验设置200
11.5.2 评估方法201
11.5.3 结果与分析201
11.6 结论204
第12章 异构专利网络中的竞争对手主题预测方法205
12.1 引言205
12.2 竞争对手的主题预测的框架207
12.3 主题词选取208
12.4 建立企业-主题异构图208
12.5 拓扑特征的分析和抽取210
12.6 基于监督模型的主题预测方法213
12.7 实验评估215
12.7.1 实验设置215
12.7.2 评估方法216
12.7.3 结果与分析217
12.8 结论220
参考文献221