大数据技术 - StreamSets

大数据技术 - StreamSets

元亨利贞
2023-08-12 10:05:51
Hadoop
原创

介绍

它是一款大数据实时采集和ETL工具，可以实现不写一行代码完成数据的采集和流转。

实现数据的快速采集、转换、过滤、聚合、加密、延迟等功能，以及数据的流式处理和批处理。它还可以支持多种数据源、操作、目的地和执行器，可以适应各种场景和需求。

特点

它提供了一个可视化的界面，让用户可以通过拖拽和连线的方式，设计和调度数据管道 (Pipelines)。
它支持多种数据源 (Origins)、操作 (Processors)、目的地 (Destinations) 和执行器 (Executor)，可以实现数据的快速获取、转换、过滤、聚合、加密、延迟等功能。
它内置了监控功能，可以实时查看数据流的传输情况和数据质量。
它可以处理批处理和流式数据，适用于各种场景，如实时数据同步、实时ETL、实时宽表等。

适用场景

从FTP读取结构化数据，并将其存储到HDFS中。
从Oracle数据库中查询数据，并将其写入到Kafka或HBase中。
从Kafka读取JSON格式的数据，并根据字段值进行分流处理，再写入到不同的Kafka主题中。
从Hadoop FS读取文件，并对每个字段进行加密、聚合、延迟等操作。

使用手册推荐

关于StreamSets ETL工具的简单部署和使用 - 知乎 (zhihu.com)

Streamsets--一个流批一体的ETL工具_登峰大数据的博客-CSDN博客

StreamSets使用指南 - 简书 (jianshu.com)