Hadoop数据分析 【图灵程序设计丛书】Hadoop及Spark指导手册 以数据科学的视角介绍Hadoop集群计算和分析 纵览Hadoop生态系统 基于python代码
通过提供分布式数据存储和并行计算框架,Hadoop已经从集群计算的抽象演变成了大数据操作系统。本书从数据科学的视角,介绍Hadoop集群计算和分析,重点关注可构建的具体分析、数据仓储技术和高阶数据流。书中主要内容如下: Hadoop和集群计算背后的核心概念 使用设计模式和并行分析算法创建分布式数据分析作业 在分布式环境下使用Apache Hive和HBase进行数据管理、数据挖掘和数据仓储 使用Sqoop和Apache Flume从关系数据库采集数据 使用Apache Pig和Spark DataFrame编写复杂的Hadoop和Spark应用程序 通过Spark MLlib运用分类、聚类和协同过滤等机器学习技术 我还未见过比本书更好的Hadoop框架讲解。 Marck Vaisman,博思艾伦咨询公司数据科学家、乔治?华盛顿大学兼职教授、数据社区DC联合创始人 每个概念都得以清晰明了的解读,在容易忽略细节的部分又都有补充资源,供读者深入学
¥54.50定价:¥69.00 (7.9折)