服务器

关注公众号 jb51net

关闭
Hadoop大数据处理技术基础与实践 完整pdf扫描版[7MB]

Hadoop大数据处理技术基础与实践 完整pdf扫描版[7MB]

热门排行

简介

《Hadoop大数据处理技术基础与实践》全书共有12章,从Hadoop起源开始,介绍了Hadoop的安装和配置,并对Hadoop的组件分别进行了介绍,包括HDFS分布式存储系统,MapReduce计算框架,海量数据库HBase,Hive数据仓库,Pig、ZooKeeper管理系统等知识,最后对Hadoop实时数据处理技术作了简单介绍,旨在让读者了解当前的其它的大数据处理技术。本书除了对Hadoop的理论进行说明之外,还对如何使用各组件进行了介绍,但介绍的只是基础的使用,没有涉及到底层的高级内容,所以本书只是起一个引导作用,旨在让读者了解Hadoop并能够使用Hadoop的基本功能,并不是学习Hadoop的完全手册。

本书适用于高等院校的学生;是云计算专业、物联网专业及云计算与大数据专业的核心基础课程,也是计算机相关专业的一门新增专业课或选修课;适合于零售及云计算与大数据技术相关的培训班等使用。

目录

Hadoop基础与实践
第1章Hadoop概述
1.1 Hadoop来源和动机
1.2 Hadoop体系架构
1.3 Hadoop与分布式开发
1.4 Hadoop行业应用案例分析
1.4.1 Hadoop在门户网站的应用
1.4.2 Hadoop在搜索引擎中的应用
1.4.3 Hadoop在电商平台中的应用
1.5小结
第2章Hadoop安装与配置管理
2.1 实验准备
2.2 配置一个单节点环境
2.2.1 运行一个虚拟系统CentOS
2.2.2 配置网络
2.2.3创建新的用户组和用户
2.2.4上传文件到CentOS并配置Java、Hadoop环境
2.2.5 修改Hadoop2.2配置文件
2.2.6修改CentOS主机名
2.2.7绑定hostname与IP
2.2.8关闭防火墙
2.3节点之间的免密码通信
2.3.1什么是SSH
2.3.2 拷贝虚拟机节点
2.3.3 配置SSH免密码登录
2.4 Hadoop的启动和测试
2.4.1 格式化文件系统
2.4.2启动HDFS
2.4.3 启动Yarn
2.4.4 管理JobHistory Server
2.4.5 集群验证
2.4.6 需要了解的默认配置
2.5动态管理节点
2.5.1 动态增加和删除datanode
2.5.2 动态修改TaskTracker
2.6小结
第3章HDFS技术
3.1HDFS的特点
3.2HDFS架构
3.2.1数据块
3.2.2元数据节点与数据节点
3.2.3辅助元数据节点
3.2.4安全模式
3.2.5负载均衡
3.2.6垃圾回收
3.3HDFS Shell命令
3.3.1文件处理命令
3.3.2dfsadmin命令
3.3.3namenode命令
3.3.4fsck命令
3.3.5pipes命令
3.3.6job命令
3.4HDFS中Java API的使用
3.4.1上传文件
3.4.2新建文件
3.4.3查看文件详细信息
3.4.4下载文件
3.5RPC通信
3.5.1反射机制
3.5.2代理模式与动态代理
3.5.3Hadoop RPC机制与源码分析
3.6小结
第4章Map/Reduce技术
4.1 什么是Map/Reduce
4.2 Map/Reduce编程模型
4.2.1 MapReduce编程模型简介
4.2.2 Map/Reduce简单模型
4.2.3 Map/Reduce复杂模型
4.2.4 Map/Reduce编程实例–WordCount
4.3 Map/Reduce数据流
4.3.1分片、格式化数据源(InputFormat)
4.3.2 Map过程
4.3.3 Shuffle过程
4.3.4 Reduce过程
4.3.5文件写入(OutputFormat)
4.4 Map/Reduce任务流程
4.4.1 MRv2基本组成
4.4.2 Yarn基本组成
4.4.3 任务流程
4.5 Map/Reduce的Streaming和Pipe
4.5.1 Hadoop Streaming
4.5.2 Hadoop Pipe
4.6 Map/Reduce性能调优
4.7Map/Reduce实战
4.7.1 快速入门
4.7.2简单使用Eclipse插件
4.8小结
第5章Hadoop I/O操作
5.1HDFS数据完整性
5.1.1校验和
5.1.2DataBlockScanner
5.2基于文件的数据结构
5.2.1SequenceFile存储
5.2.2MapFile
5.2.3SequenceFile转换为MapFile
5.3压缩
5.3.1Codec
5.3.2本地库
5.3.3如何选择压缩格式
5.4序列化
5.4.1Writable接口
5.4.2WritableComparable
5.4.3Hadoop writable基本类型
5.4.4自定义writable类型
5.5小结
第6章海量数据库HBase技术
6.1 初识HBase
6.2 HBase表视图
6.2.1概念视图
6.2.2物理视图
6.3HBase物理存储模型
6.4安装HBase
6.4.1HBase单节点安装
6.4.2HBase伪分布式安装
6.4.3HBase完全分布式安装
6.5HBaseShell
6.5.1general一般操作
6.5.2ddl操作
6.5.3dml操作
6.5.4小结
6.6小结
第7章ZooKeeper技术
7.1 分布式协调技术
7.2 实现者
7.3 角色
7.4 ZooKeeper数据模型
7.4.1Znode
7.4.2ZooKeeper中的时间
7.4.3ZooKeeper节点属性
7.4.4watch触发器
7.5 ZooKeeper集群安装
7.6 ZooKeeper主要Shell操作
7.7 典型运用场景
7.7.1数据发布与订阅
7.7.2统一命名服务(Name Service)
7.7.3分布通知/协调(Distribution of notification/coordination)
7.8小结
第8章分布式数据仓库技术Hive
8.1 Hive出现原因
8.2 Hive服务组成
8.3 Hive安装
8.3.1 Hive基本安装
8.3.2 MySQL安装
8.3.3 Hive配置
8.4 Hive Shell介绍
8.5HiveQL详解
8.5.1 Hive管理数据方式
8.5.2 Hive表DDL操作
8.5.3 Hive表DML操作
8.6小结
第9章分布式数据分析工具Pig
9.1 Pig的安装和配置
9.2 Pig基本概念
9.3 Pig保留关键字
9.4使用Pig
9.4.1 Pig命令行选项
9.4.2 Pig的两种运行模式
9.4.3 Pig相关Shell命令详解
9.4.4Pig程序运行方式
9.4.5 Pig输入与输出
9.5模式(Schemas)
9.6 Pig相关函数详解
9.7小结
第10章 Hadoop与RDBMS数据迁移工具Sqoop
10.1 Sqoop基本安装
10.2 Sqoop配置
10.3 Sqoop相关功能
10.4 Hive、Pig和Sqoop三者之间的关系
10.5小结
第11章Hadoop1.x与Hadoop2.x的比较
11.1 Hadoop发展历程
11.2 Hadoop1.x与Hadoop2.x之间的差异
11.2.1 Hadoop1与Hadoop2体系结构对比
11.2.2 Hadoop1与Hadoop2之间配置差异
11.2.3 Hadoop2的Yarn框架
11.2.4 HDFS联邦机制(Federation)
11.3小结
第12章Hadoop实时数据处理技术
12.1 Storm-Yarn
12.1.1 Apache Storm组成结构
12.1.2 Storm数据流
12.1.3 Storm-Yarn产生背景
12.1.4 Storm-Yarn功能介绍
12.2 Apache Spark
12.2.1 Apache Spark组成结构
12.2.2 Apache Spark扩展功能
12.3 Storm与Spark的比较
12.4小结
附录一:使用Eclipse提交Hadoop任务相关错误解决
附录二:常用Pig内置函数简介

大家还下载了