大数据技术 - StreamSets

介绍

     它是一款大数据实时采集和ETL工具,可以实现不写一行代码完成数据的采集和流转。

     实现数据的快速采集、转换、过滤、聚合、加密、延迟等功能,以及数据的流式处理和批处理。它还可以支持多种数据源、操作、目的地和执行器,可以适应各种场景和需求。

特点

  • 它提供了一个可视化的界面,让用户可以通过拖拽和连线的方式,设计和调度数据管道 (Pipelines)。

  • 它支持多种数据源 (Origins)、操作 (Processors)、目的地 (Destinations) 和执行器 (Executor),可以实现数据的快速获取、转换、过滤、聚合、加密、延迟等功能。

  • 它内置了监控功能,可以实时查看数据流的传输情况和数据质量。

  • 它可以处理批处理和流式数据,适用于各种场景,如实时数据同步、实时ETL、实时宽表等。

适用场景

  • 从FTP读取结构化数据,并将其存储到HDFS中。

  • 从Oracle数据库中查询数据,并将其写入到Kafka或HBase中。

  • 从Kafka读取JSON格式的数据,并根据字段值进行分流处理,再写入到不同的Kafka主题中。

  • 从Hadoop FS读取文件,并对每个字段进行加密、聚合、延迟等操作。

使用手册推荐

关于StreamSets ETL工具的简单部署和使用 - 知乎 (zhihu.com)

Streamsets--一个流批一体的ETL工具_登峰大数据的博客-CSDN博客

StreamSets使用指南 - 简书 (jianshu.com)

请使用浏览器的分享功能分享到微信等