本书是为所有热爱大数据、打算从事大数据相关工作的读者编写的,适合有Java编程基础的学习者参考使用。本书全面介绍了大数据技术生态圈,更在此基础上全景展现了Hadoop大数据分布式系统集群平台的搭建、大数据分布式文件系统HDFS、大数据分布式并行计算框架MapReduce、Hadoop大数据仓库工具Hive和海量日志采集工具Flume等大数据实用技术。本书通俗易懂、结构清晰,着重于分析解决问题的思路和具体实施过程。本书适合作为高等院校计算机相关专业的程序设计教材,也可作为Hadoop技术的培训图书。
(1)重点突出,理论与实践结合,适合教学使用。
(2)内容结构完整,可循序渐进地教学。
(3)以图文并茂的方式展示了大数据应用程序的设计与实现过程。
随着互联网的高速发展,使用网络的用户越来越多,人们在使用网络的过程中产生了数量庞大的数据,这些数据极具商业价值,所以对这些数据的有效存储、管理、计算分析和应用就成为信息行业迫切需要解决的问题。大数据技术就是基于这种数据爆炸的现状产生的。那到底怎样才能解决海量数据的存储和计算分析等问题呢?Hadoop应运而生了。
Hadoop是一个能够对海量数据进行分布式处理的软件框架,它以一种可靠、高效、可伸缩的方式进行数据处理,用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。Hadoop 设计之初的目标就定位于高可靠性、高可拓展性、高容错性和高效性,正是这些设计上与生俱来的优点,才使得Hadoop一出现就受到众多大公司的青睐,在互联网领域得到了广泛运用。
本书采用理论 实战的形式编写,不但全面介绍了大数据技术生态圈,更在此基础上全景展现了Hadoop大数据分布式系统集群平台的搭建、大数据分布式文件系统HDFS(Hadoop Distributed File System)、大数据分布式并行计算框架MapReduce、Hadoop大数据仓库工具Hive和海量日志采集工具Flume等大数据实用技术,后通过一个完整的Hive数据仓库项目,深入讲解了大数据技术在实际工作中的应用。本书通俗易懂、结构清晰,内容层层递进,理论与实践相结合,着重于分析解决问题的思路和具体实施过程。书中包含大量的案例讲解和练习,通过从案例需求到案例实现这一完整流程的体验,可以帮助读者真正理解与消化Hadoop大数据技术。书中案例全部源于企业真实项目,可操作性强,可轻松引导读者融会贯通相关技术。
本书特色:
(1)重点突出,理论与实践结合,适合教学使用。
(2)内容结构完整,可循序渐进地教学。
(3)以图文并茂的方式展示了大数据应用程序的设计与实现过程。
另外,本书配套资源丰富,扫描书中二维码除了可以得到相应的程序源代码、教学PPT、课后练习之外,更有海量教学视频。视频囊括了书中介绍的所有内容,所有的实践案例也通过教学视频加以讲解,内容充实。
后,本书的附录中还介绍了一个使用可视化在线云开发平台道捷实训云平台(www.yun.51dcool.com)完成的项目,该项目直接使用道捷实训云模拟的分布式物理集群,计算每个学生相应科目的平均分,然后将同一个科目的成绩放在一个文件中,并按照平均分从高到低排序,省去了我们自己搭建大数据集群的时间,极大地提高了工作效率。
本书是为所有热爱大数据、打算从事大数据相关工作的读者编写的,适合有Java编程基础的学习者参考使用,也适合作为高等院校、培训机构的大数据技术教材。由于时间仓促,编者水平有限,书中难免有疏漏之处,敬请读者批评指正!
编 者
2021年2月
智酷道捷是中关村智酷双创人才服务股份有限公司下属高科技教育企业。旨在打造产、学、研、用双创一 体化深度融合的智能化泛 IT 产教综合服务平台。是一家专注于面向 高校提供产、学、研、用一体化双创实践性教学解决方案,面向 高新技术职业技能持续培育的创新型科技教育企业。公司专注于前沿 技术基于云计算、大数据、以及智能化控制等高新技术开发的全新资源与服务平台。公司借鉴发达国家先进的技术应用教学经验并结合中国国情,创新提出双创双元、双元双通理论模型,通过工程实践中心这一创新载体,整合高校教育与产业实践应用,基于云平台的大数据反馈和自适应机制,打造形成以产业应用需求为引领,以岗位技能能力图表为核心线索的智能化课程研发体系,将产业应用需求、高校教育过程以及课程研发机制、产教协同育人进行一体化联动和融合,实现双创实践性应用人才智能化、生态化、个性化、本地化培育,为地方企业和高校提供优质的实践性课程与人才服务。
第1章 初识Hadoop及HDFS分布式系统1
1.1 初识Hadoop1
1.1.1大数据概述1
1.1.2大数据技术2
1.1.3Hadoop简介3
1.2 分布式文件系统(HDFS)6
1.2.1分布式文件系统6
1.2.2HDFS的定义7
1.3 Hadoop伪分布式环境搭建12
1.3.1Hadoop安装的三种模式 12
1.3.2搭建的准备工作 12
1.3.3Hadoop相关配置12
1.3.4启动Hadoop13
1.4 HDFS常用命令与应用13
1.4.1HDFS命令行基本操作 13
1.4.2HDFS Java API的核心类
和接口21
1.4.3基于Java API的编程实例 21
小结55
习题55
第2章 分布式协调服务ZooKeeper
和HDFS高可用性56
2.1 ZooKeeper的作用和基本概念56
2.1.1分布式应用概述56
2.1.2分布式应用的优缺点57
2.1.3ZooKeeper 的概念和特点58
2.1.4ZooKeeper 的主要应用58
2.1.5ZooKeeper的架构58
2.1.6数据模型与层次命名空间59
2.1.7Znode的类型59
2.2 ZooKeeper集群的搭建60
2.3 ZooKeeper操作与API编程69
2.3.1服务端常用命令 69
2.3.2客户端连接ZooKeeper的
相关操作70
2.3.3使用Java API访问
ZooKeeper75
2.3.4使用Java API编程
入门案例75
2.3.5使用Java API编程
官方案例解读93
2.4 ZooKeeper原理分析105
2.4.1一致性协议Zab协议105
2.4.2Leader选举106
2.5 高可用108
2.6 HDFS缓存108
2.7 HDFS完全分布式搭建115
2.8 HDFS高可用架构搭建116
2.8.1HDFS的基本架构116
2.8.2HDFS高可用架构116
2.8.3高可用架构搭建思路117
小结118
习题118
第3章 分布式并行计