# 好书推荐 ## 好书奇遇季 # 《 Kettle 构建 Hadoop ETL 系统实践》,京东当当天猫都有发售。 定价 79 元,网店打折销售其实没多少钱。 Kettle 是一款国外开源的 ETL 工具,纯 Java 编写,无须安装,功能完备,数据抽取高效稳定。本书介绍并演示如何用 Kettle 完成 Hadoop 数据仓库上的 ETL 过程,所有的描绘场景与实验环境都是基于 Linux 操作系统的虚拟机。我们仍然以 CDH 作为 Hadoop 平台,沿用相同的销售订单示例进行说明,因此可以将本书当作《 Hadoop 构建数据仓库实践》的另一版本。
本书内容
全书共分 10 章,主要内容包括 ETL 与 Kettle 的基本概念、 Kettle 安装与配置、 Kettle 对 Hadoop 的支持、建立 ETL 示例模型、数据转换与装载、定期自动执行 ETL 作业、维度表技术、事实表技术,以及 Kettle 并行、集群与分区技术。
为什么选用 Kettle
面对各种各样的 ETL 开发工具,之所以选择 Kettle ,主要由于它的一些鲜明特性。首先,很明确的一点是,作为一款 GUI 工具, Kettle 的易用性好,编码工作量最小化。几乎所有的功能都可以通过用户界面完成,提高了 ETL 过程的开发效率。其次, Kettle 的功能完备。书中演示所用的 Kettle 8.3 版本几乎支持所有常见的数据源,并能满足 ETL 功能需求的各种转换步骤与作业项。第三, Kettle 是基于 Java 的解决方案,天然继承了 Java 的跨平台性,只要有合适的 JVM 存在,转换或作业就能运行在任何环境和平台之上,真正做到与平台无关。最后, Kettle 允许多线程与并发执行,以提高程序执行效率。用户只需指定线程数,其他工作都交给 Kettle 处理,实现细节完全透明化。
本书读者
本书既适合大数据分析系统开发、数据仓库系统设计与开发、 DBA 、架构师等相关技术人员阅读,也适合高等院校和培训机构人工智能与大数据相关专业的师生参考。
本书作者
王雪迎 ,毕业于中国地质大学计算机专业,高级工程师, 20 年数据库、数据仓库相关技术工作经验。先后供职于北京现代商业信息技术有限公司、北京在线九州信息技术服务有限公司、华北计算技术研究所、北京优贝在线网络科技有限公司,担任 DBA 、数据架构师等职位。著有图书《 Hadoop 构建数据仓库实践》《 HAWQ 数据仓库与数据挖掘实战》《 SQL 机器学习库 MADlib 技术解析》《 MySQL 高可用实践》。
目录
第1章 ETL与Kettle
第2章 Kettle安装与配置
第3章 Kettle对Hadoop的支持
第4章 建立ETL示例模型
第5章 数据抽取
第6章 数据转换与装载
第7章 定期自动执行ETL作业
第8章 维度表技术
第9章 事实表技术
第10章 并行、集群与分区