介绍
它是一款大数据实时采集和ETL工具,可以实现不写一行代码完成数据的采集和流转。
实现数据的快速采集、转换、过滤、聚合、加密、延迟等功能,以及数据的流式处理和批处理。它还可以支持多种数据源、操作、目的地和执行器,可以适应各种场景和需求。
特点
-
它提供了一个可视化的界面,让用户可以通过拖拽和连线的方式,设计和调度数据管道 (Pipelines)。
-
它支持多种数据源 (Origins)、操作 (Processors)、目的地 (Destinations) 和执行器 (Executor),可以实现数据的快速获取、转换、过滤、聚合、加密、延迟等功能。
-
它内置了监控功能,可以实时查看数据流的传输情况和数据质量。
-
它可以处理批处理和流式数据,适用于各种场景,如实时数据同步、实时ETL、实时宽表等。
适用场景
-
从FTP读取结构化数据,并将其存储到HDFS中。
-
从Oracle数据库中查询数据,并将其写入到Kafka或HBase中。
-
从Kafka读取JSON格式的数据,并根据字段值进行分流处理,再写入到不同的Kafka主题中。
-
从Hadoop FS读取文件,并对每个字段进行加密、聚合、延迟等操作。
使用手册推荐
关于StreamSets ETL工具的简单部署和使用 - 知乎 (zhihu.com)