热门排行
简介
典型Hadoop云计算 图书简介:
本书系统地阐述了当今IT业界最热门的话题——云计算,全书共分为9章。第1章介绍云计算背景与Hadoop;第2章介绍Hadoop的安装与配置;第3~8章系统、详细地介绍了Hadoop的子项目及相关项目的基本概念和实例分析,主要包括Hadoop的MapReduce、ZooKeeper、Mahout、Avro、Chukwa、HBase、Hive、Pig及Cassandra等项目;第9章总结了Hadoop云计算的综合实例。
典型Hadoop云计算 图书目录:
第1章 云计算背景与Hadoop
1.1 云计算概述
1.1.1 云计算的定义
1.1.2 云计算的特点
1.1.3 云计算的发展史
1.1.4 云计算的发展趋势
1.1.5 云计算的基本特征
1.2 云计算的优缺点
1.3 云计算存在的问题
1.4 Hadoop使用
1.4.1 国外Hadoop使用
1.4.2 国内Hadoop使用
1.5 Hadoop概述
1.5.1 Hadoop的起源及简介
1.5.2 Hadoop的历史
1.5.3 Hadoop的功能与作用
1.5.4 Hadoop的优势
1.5.5 Hadoop的现状与趋势
1.6 Hadoop的总体结构与模块简介
1.7 Hadoop的数据管理
1.7.1 HDFS的数据管理
1.7.2 HBase的数据管理
1.7.3 Hive的数据管理
第2章 Hadoop的安装与配置
2.1 在Linux上安装Hadoop
2.1.1 安装单节点Hadoop
2.1.2 在Linux系统上安装多
节点Hadoop
2.2 Windows安装Hadoop
2.2.1 单机模式下安装Hadoop
2.2.2 分布模式下安装Hadoop
2.3 Hadoop的组件
2.3.1 基本文件命令
2.3.2 剖析MapReduce
2.4 Hadoop的InputFormat与
OutputFormat
2.4.1 InputFormat
2.4.2 OutputFormat
2.5 Hadoop的常用命令
2.5.1 常规选项
2.5.2 HDFS Shell命令
2.5.3 用户命令
2.5.4 管理命令
2.6 Hadoop的I/O操作
2.6.1 I/O操作数据检查
2.6.2 压缩数据
2.6.3 数据I/O中的序列化操作
2.6.4 MapReduce文件类
2.7 Hadoop的权限管理
2.7.1 概述
2.7.2 用户分组管理
2.7.3 作业管理
2.7.4 提交作业
第3章 Hadoop云计算的MapReduce详解
3.1 总体结构
3.2 MapReduce的工作原理
3.3 MapReduce的基础模板
3.4 一个气象数据集
3.4.1 数据格式
3.4.2 使用UNIX工具进行数据
分析
3.4.3 使用Hadoop进行数据
分析
3.4.4 新的Java MapReduce API
3.4.5 Combiner
3.4.6 运行分布式MapReduce
作业
3.5 MapReduce的应用实例
3.5.1 数据去重
3.5.2 排序
3.5.3 二次排序
3.5.4 单表关联
3.5.5 多表关联
3.6 复合键值对的使用
3.6.1 合并键值
3.6.2 用复合键排序
3.7 定制数据类型及格式
3.7.1 定制数据类型
3.7.2 定义数据输入格式与
RecordReader
3.7.3 定制数据输出格式与
RecordWriter
3.7.4 定制Partitioner
3.7.5 定制Combiner
3.8 shuffle与排序
3.8.1 map端
3.8.2 reduce端
3.8.3 shuffle过程
3.9 组合式MapReduce作业
3.9.1 迭代MapReduce计算任务
3.9.2 顺序组合式MapReduce
作业的执行
3.9.3 前、后处理的链接
3.9.4 复杂依赖关系的组合式
3.10 使用DataJoin包实现Join
3.11 参数/数据文件的传递与使用
3.11.1 传递全局作业参数
3.11.2 查询全局MapReduce
作业属性
3.11.3 全局数据文件的传递
第4章 Hadoop云计算的ZooKeeper详解
4.1 ZooKeeper的基本概念
4.1.1 ZooKeeper的角色
4.1.2 设计目的
4.1.3 工作原理
4.1.4 工作流程
4.1.5 数据模型
4.2 ZooKeeper的安装
4.2.1 软件及环境要求
4.2.2 单机模式
4.2.3 集群模式
4.2.4 集群伪分布
4.2.5 启动并测试ZooKeeper
4.3 ZooKeeper的配置
4.3.1 Client和ZK集群的连接及
session的建立过程
4.3.2 关于ACL
4.3.3 关于Watcher
4.3.4 关于Log文件和snapshot
4.4 ZooKeeper的使用
4.4.1 ZooKeeper的简单操作
4.4.2 ZooKeeper的四字命令
4.4.3 ZooKeeper的命令行工具
4.4.4 常用接口列表
4.4.5 基本操作
4.4.6 ZooKeeper API的使用
4.5 ZooKeeper的特性
4.5.1 ZooKeeper的会话及状态
4.5.2 读写性能测试
4.5.3 可靠性测试
4.6 ZooKeeper的典型应用
4.6.1 统一命名服务(Name
Service)
4.6.2 配置管理(Configuration
Management)
4.6.3 集群管理(Group
Membership)
4.6.4 分布式锁
4.6.5 共享锁(Locks)
4.6.6 队列管理
4.7 ZooKeeper实例详解
4.8 进程调度系统
4.8.1 设计方案
4.8.2 设计实现
第5章 Hadoop云计算的Mahout详解
5.1 Mahout概述
5.2 Mahout的安装与配置
5.3 Mahout API简介
5.4 Mahout的相关算法
5.4.1 分类算法
5.4.2 聚类算法
5.4.3 Slope one算法
5.5 应用Mahout建立一个推荐引擎
5.5.1 推荐引擎概述
5.5.2 推荐引擎的实现代码
5.6 运行Naive Bayes分类器
5.6.1 生成分类结果的前提准备
5.6.2 实现生成分类结果代码
5.7 基于Mahout的应用
5.7.1 应用构架
5.7.2 应用实例
第6章 Hadoop云计算的Avro详解
6.1 Avro概述
6.2 Avro模式
6.2.1 Avro模式声明
6.2.2 组件化Avro模式
6.3 Avro数据
6.3.1 数据序列化
6.3.2 数据排序顺序
6.4 Avro协议
6.4.1 Avro协议声明
6.4.2 协议传输格式
6.5 使用Avro实现继承
6.6 使用Avro实现多态性
6.7 使用Avro的向后兼容性
6.8 Avro的C/C++实现
6.9 Avro的Java实现
6.10 Avro IDL语言
第7章 Hadoop云计算的Chukwa详解
7.1 初识Chukwa
7.1.1 Chukwa不是什么
7.1.2 Chukwa是什么
7.1.3 Chukwa流水线数据处理
7.2 Chukwa架构
7.2.1 adaptors和agents
7.2.2 collector与Demux
7.2.3 HICC
7.2.4 dbadmin
7.2.5 数据接口与