![数据算法:Hadoop/Spark大数据处理技巧 完整版 中文pdf扫描版[100MB]](http://img.jbzj.com/do/uploads/litimg/171122/1K4352L2O.jpg)
数据算法:Hadoop/Spark大数据处理技巧 完整版 中文pdf扫描版[100MB]
- 大小:100.3MB
- 分类:服务器
- 格式:PDF
- 更新:2017-11-22
热门排行
简介
《数据算法:Hadoop/Spark大数据处理技巧》介绍了很多基本设计模式、优化技术和数据挖掘及机器学习解决方案,以解决生物信息学、基因组学、统计和社交网络分析等领域的很多问题。这还概要介绍了MapReduce、Hadoop和Spark。
主要内容包括:
■ 完成超大量交易的购物篮分析。
■ 数据挖掘算法(K-均值、KNN和朴素贝叶斯)。
■ 使用超大基因组数据完成DNA和RNA测序。
■ 朴素贝叶斯定理和马尔可夫链实现数据和市场预测。
■ 推荐算法和成对文档相似性。
■ 线性回归、Cox回归和皮尔逊(Pearson)相关分析。
■ 等位基因频率和DNA挖掘。
■ 社交网络分析(推荐系统、三角形计数和情感分析)。
适读人群 :这本书面向了解Java基础知识并且想使用Hadoop和Spark 开发MapReduce 算法(数据挖掘、机器学习、生物信息技术、基因组和统计领域)和解决方案的软件工程师、软件架构师、数据科学家和应用开发人员。
目录
第1章二次排序:简介 19
第2章二次排序:详细示例 42
第3章 Top 10 列表 54
第4章左外连接 96
第5章反转排序 127
第6章移动平均 137
第7章购物篮分析 155
第8章共同好友 182
第9章使用MapReduce实现推荐引擎 201
第10章基于内容的电影推荐 225
第11章使用马尔可夫模型的智能邮件营销 .253
第12章 K-均值聚类 282
第13章 k-近邻 296
第14章朴素贝叶斯 315
第15章情感分析 349
第16章查找、统计和列出大图中的所有三角形 354
第17章 K-mer计数 375
第18章 DNA测序 390
第19章 Cox回归 413
第20章 Cochran-Armitage趋势检验 426
第21章等位基因频率 443
第22章 T检验 468
第23章皮尔逊相关系数 488
第24章 DNA碱基计数 520
第25章 RNA测序 543
第26章基因聚合 553
第27章线性回归 586
第28章 MapReduce和幺半群 600
第29章小文件问题 622
第30章 MapReduce的大容量缓存 635
第31章 Bloom过滤器 651Bloom