《Hadoop硬实战》((美)霍姆斯|译者:梁李印//宁青//杨卓荦)-图书推荐
内容提要
Hadoop是一个开源的MapReduce平台,设计运行在大型分布式集群环境中,为开发者进行数据存储、管理以及分析提供便利的方法。霍姆斯编著的《Hadoop硬实战》详细讲解了Hadoop和MapReduce的基本概念,并收集了85个问题及其解决方案。在关键问题领域对基础概念和实战方法做了权衡。本书适合使用Hadoop进行数据存储、管理和分析的技术人员使用。
目录
前言
致谢
关于本书
部分背景和基本原理
1跳跃中的Hadoop
1.1什么是Hadoop
1.1.1Hadoop 的核心组件
1.1.2Hadoop 生态圈
1.1.3物理架构
1.1.4谁在使用Hadoop
1.1.5Hadoop 的局限性
1.2运行Hadoop
1.2.1下载并安装Hadoop
1.2.2Hadoop 的配置
1.2.3CLI 基本命令
1.2.4运行MapReduce 作业
1.3本章小结
第2部分数据逻辑
2将数据导入导出Hadoop
2.1导入导出的关键要素
2.2将数据导入Hadoop
2.2.1将日志文件导入Hadoop
技术点1使用Flume 将系统日志文件导入HDFS
2.2.2导入导出半结构化和二进制文件
技术点2自动复制文件到HDFS 的机制
技术点3使用Oozie 定期执行数据导入活动
2.2.3从数据库中拉数据
技术点4使用MapReduce 将数据导入数据库
技术点5使用Sqoop 从MySQL 导入数据
2.2.4HBase
技术点6HBase 导入HDFS
技术点7将HBase 作为MapReduce 的数据源
2.3将数据导出Hadoop
2.3.1将数据导入本地文件系统
技术点8自动复制HDFS 中的文件
2.3.2数据库
技术点9使用Sqoop 将数据导入MySQL
2.3.3Hbase
技术点10将数据从HDFS 导入HBase
技术点11使用HBase 作为MapReduce 的数据接收器
2.4本章小结
3数据序列化——处理文本文件及其他格式的文件
3.1了解MapReduce 中的输入和输出
3.1.1数据输入
3.1.2数据输出
……
第3部分大数据模式
4处理大数据的MapReduce 模式.
5优化HDFS 处理大数据的技术
6诊断和优化性能问题
第4部分 数据科学
7数据结构和算法的运用
8结合R 和Hadoop 进行数据统计
9使用Mahout 进行预测分析
第5部分驯服大象
10深入解析 Hive
11Pig 流管道
12Crunch 及相关技术
13测试和调试
附录A相关技术
附录BHadoop 内置的数据导入导出工具
附录CHDFS 解剖
附录D优化MapReduce 合并框架
索引