Spark高级数据分析 第2版 【图灵程序设计丛书】数据分析教程 Spark大数据 涵盖大规模数据分析中常用算法 数据集和设计模式
作为计算框架,Spark速度快,开发简单,能同时兼顾批处理和实时数据分析,因此很快被广大企业级用户所采纳,并随着近年人工智能的崛起而成为分析和挖掘大数据的重要得力工具。本书由业内知名数据科学家执笔,通过丰富的示例展示了如何结合Spark、统计方法和真实世界数据集来解决数据分析问题,既涉及模型的构建和评价,也涵盖数据清洗、数据预处理和数据探索,并描述了如何将结果变为生产应用,是运用Apache Spark进行大数据分析和处理的实战宝典。第2版根据新版Spark杰出实践,对样例代码和所用资料做了大量更新。本书涵盖模式如下:● 音乐推荐和Audioscrobbler数据集 ● 用决策树算法预测森林植被 ● 基于K均值聚类进行网络流量异常检测 ● 基于潜在语义算法分析维基百科 ● 用GraphX分析伴生网络 ● 对纽约出租车轨迹进行空间和时间数据分析
¥54.50定价:¥69.00 (7.9折) 电子书:¥28.99
Spark高级数据分析 Cloudera公司数据科学家团队携手打造,教你用Spark进行大规模数据分析
这是一本实用手册,四位作者均是Cloudera公司的数据科学家,他们联袂展示了利用Spark进行大规模数据分析的若干模式,而且每个模式都自成一体。他们将Spark、统计学方法和真实数据集结合起来,通过实例向读者讲述了怎样解决分析型问题。 本书首先介绍了Spark及其生态系统,接着详细介绍了将分类、协同过滤及异常检查等常用技术应用于基因学、安全和金融领域的若干模式。如果你对机器学习和统计学有基本的了解,并且会用Java、Python或Scala编程,这些模式将有助于你开发自己的数据应用。 本书介绍了以下模式: 音乐推荐和Audioscrobbler数据集 用决策树算法预测森林植被 基于K均值聚类进行网络流量的异常检测 基于潜在语义分析技术分析维基百科 用GraphX分析伴生网络 对纽约出租车轨迹进行空间和时间数据分析 通过蒙
¥44.20定价:¥59.00 (7.5折)