热门排行
简介
Spark与Hadoop大数据分析比较系统地讲解了利用Hadoop和Spark及其生态系统里的一系列工具进行大数据分析的方法,既涵盖ApacheSpark和Hadoop的基础知识,又深入探讨所有Spark组件——SparkCore、SparkSQL、DataFrame、DataSet、普通流、结构化流、MLlib、Graphx,以及Hadoop的核心组件(HDFS、MapReduce和Yarn)等,并配套详细的实现示例,是快速掌握大数据分析基础架构及其实施方法的详实参考。
全书共10章,第1章从宏观的角度讲解大数据分析的概念,并介绍在Hadoop和Spark平台上使用的工具和技术,以及一些*常见的用例;第2章介绍Hadoop和Spark平台的基础知识;第3章深入探讨并学习Spark;第4章主要介绍DataSourcesAPI、DataFrameAPI和新的DatasetAPI;第5章讲解如何用SparkStreaming进行实时分析;第6章介绍Spark和Hadoop配套的笔记本和数据流;第7章讲解Spark和Hadoop上的机器学习技术;第8章介绍如何构建推荐系统;第9章介绍如何使用GraphX进行图分析;第10章介绍如何使用SparkR。
目录
第1章 从宏观视角看大数据分析 1
第2章 Apache Hadoop和Apache Spark入门 13
第3章 深入剖析Apache Spark 37
第4章 利用Spark SQL、Data-Frame和Dataset进行大数据分析 69
第5章 利用Spark Streaming和Structured Streaming进行实时分析 102
第6章 利用Spark和Hadoop的笔记本与数据流 130
第7章 利用Spark和Hadoop进行机器学习 153
第8章 利用Spark和Mahout构建推荐系统 171
第9章 利用GraphX进行图分析 190
第10章 利用SparkR进行交互式分析