热门排行
简介
Hadoop是一个开源的分布式并行计算平台,它主要由MapReduce的算法执行和一个分布式的文件系统等两部分组成。Hadoop起源于Doug Cutting大牛领导开发的Nutch搜索引擎项目的子项目。现在是Apache软件基金会管理的开源项目。
本文主要介绍Hadoop及相关技术,从Hadoop的起源开始讲述,主要涵盖了MapReduce算法思想,基本框架,运行流程和编程粒度等内容,以期给入门者提供一个关于Hadoop的技术简介和研究参考。关于Hadoop的安装指南和编程范例并不在本文叙述范围内,有需要者请参考其它资料。
目录
引言——Hadoop从何而来
算法思想——Hadoop是怎么思考的
基本架构——Hadoop是如何构成的
运行流程——Hadoop是如何工作的
任务粒度——Hadoop是如何并行的
参考文献