《社交大数据挖掘》紧紧围绕社交媒体中的大数据问题,系统介绍了社交大数据的基本概念以及相关的大数据处理技术,重点介绍了网页和媒体的大数据挖掘。《社交大数据挖掘》共分为14章,总体上可以分为三部分:第一部分包括第1章和第2章,介绍了社交大数据的基本概念和内涵,明晰了社交大数据与一般大数据的区别;第二部分为第3章至第9章,介绍了大数据处理中涉及的基本概念和技术方法,包括假设的定义、通过数据挖掘提出假设的方法,以及假设验证的分析方法;第三部分为第10章至第14章,详细介绍了社交大数据中的网页和媒体数据挖掘技术、自然语言处理技术,以及社交大数据的应用。《社交大数据挖掘》体系结构完整,内容关注于具有鲜明特色的社交媒体大数据,行文通俗易懂,同时兼具较好的理论参考价值、实用性和指导性。《社交大数据挖掘》可为具有一定相关专业基础、对大数据感兴趣的师生、工程师及其他专业人士提供参考。
原书前言当今时代,在科学界、互联网以及物理系统中不断产生大量的数据,这些数据统称为数据洪流。根据IDC(互联网数据中心)的研究,每年全世界产生和复制的数据估计有161EB。仅2011年产生的数据总量就超过了该年度可用存储介质的存储容量的10倍或更多。
科学和工程领域的专家通过观察和分析目标现象会产生大量的数据,甚至普通人通过互联网上的各种社交媒体也会自发发布大量的数据。此外,在真实世界中,人们通过物理系统检测到的各种动作会无意识地产生数据。,这些数据通常被认为能够产生有价值的信息。
在上述IDC的研究报告中,科学界、互联网和物理系统中产生的数据统称为大数据。
大数据的特点可以概括如下。
数量(Volume)大:正如它的名字所示,大数据的数量是非常大的。
种类(Variety)多:数据的种类可以扩展到非结构化文本、半结构化数据,比如网络中的XML、图表等。
速度(Velocity)快:如同推特(Twitter)和传感器数据流的情况一样,数据生成的速度非常快。
因此,大数据的特征通常用V3来表示,即数量、种类和速度这三个单词的首字母。
人们期望大数据能够有助于获取科学知识,而且企业也能从中获得价值。
“种类多”意味着大数据出现在各种各样的应用中。大数据本质上包含“模糊性”
(vagueness),比如它的不一致性和缺失等。为了获得有价值的分析结果,就必须解决模糊性的问题。此外,最近在日本完成的一项调查显示,很多用户对“模糊性”的担忧如同对大数据应用安全和机制的担心一样。解决这些问题是大数据应用能否成功推广的一个关键。从这个意义上讲,应该用V4而不是V3来描述大数据。
数据分析师也被称作数据科学家。在大数据时代,需要越来越多的数据科学家,他们必备的技能包括以下方面:
·能够构建一个假设·能够验证假设·挖掘社交数据以及通用Web数据的能力·能够处理自然语言信息·能够恰当地将数据和知识表示出来·能够恰当地将数据和结果进行可视化·使用地理信息系统(Geographical Information Systems,GIS)的能力·了解各种各样的应用程序·了解可扩展性的知识·了解和遵守与隐私和安全有关的道德和法律·能够使用安全系统·能够与客户交流根据上述标准,本书的内容不一定很全面。然而,从社交大数据的角度来看,本书二要关注的是下述基本概念和相关技术:
·大数据和社交数据·假设的概念·用于做出假设的数据挖掘·用于验证假设的多变量分析.Web挖掘和媒体挖掘·自然语言处理·社交大数据应用·可扩展性简而言之,本书介绍了特征假设,它在社交大数据时代中具有越来越重要的地位,刖外,还介绍了分析技术,如社交大数据的建模、数据挖掘和多变量分析。本书与其他同娄书的不同之处在于,本书从学术基础出发,目的是描绘出社交大数据从基本概念到应用削全景。
希望本书能够为那些对社交大数据感兴趣的读者所广泛使用,包括学生、工程师、莽学家和其他专业人士。此外,我要深深感谢家人的大力支持。
石川博(Hiroshi Ishikawa)
译者序
原书前言
第1章社交媒体
1. 1什么是社交媒体
1.2代表性社交媒体
1.2.1 Twitter一
1.2.2 Flickr
1.2.3 YouTube
1.2.4 Facebook
1.2.5维基百科
1.2.6通用网络
1.2.7其他社交媒体
参考文献
第2章大数据和社交数据
2.1 大数据
2.2物理真实世界与社交媒体的交互
2.3集成框架
2.4交互的建模和分析
2.5元分析模型——概念层
2.5.1面向对象的集成分析模型
2.5.2原始案例
2.6假设的生成和验证——逻辑层
2.6.1多变量分析
2.6.2数据挖掘
2.6.3发现和识别影响
2.6.4影响的定量测量
2.7 兴趣回顾——互动挖掘
2.8分布式并行计算框架
2. 8.1 NoSQL
2.8.2 MapReduce--种并行分布式计算的机制
2.8.3 Hadoop
参考文献
第3章大数据时代的假设
3.1 什么是假设
3.2数据采样
3.3假设验证
3.4假设构建
3.4.1归纳法
3.4.2推理
3.4.3可信推理
3.4.4不明推论式
3.4.5相关性
3.4.6因果关系
3.4.7类比
3.4.8传递定律
3.5假设的粒度
3.6 对假设的重新审视
参考文献
第4章社交大数据应用
4.1普通网页与社交媒体之间作为分析主体的差异
4.2基于要素的社交媒体应用分类
4.3基于目标的社交媒体应用分类
4.4通过MiPS模型描
第5章数据挖掘中的基本概念
第6章关联规则挖掘
第7章聚类
第8章分类
第9章预测
第10章Wep结构挖掘
第11章Wep内容挖掘
第12章Wep访问日志挖掘 信息提取 深层Wep挖掘
第13章媒体挖掘
第14章可扩展性和异常检测
附录