如何在MapReduce中使用SequenceFile数据格式?

本文作为《Hadoop从入门到精通》大型专题的第三章第三节,主要介绍如何在MapReduce中使用SequenceFile数据格式。我们在上一篇文章中提到了许多可与MapReduce大数据处理匹配的数据格式,本节将首先介绍SequenceFile数据格式。(往期文章可自行查看文末链接)

3.3.2  SequenceFile

因为SequenceFile是为与MapReduce一起使用而创建的,所以这种格式可以说是与MapReduce、Pig和Hive一起提供最高级别集成支持的数据格式。SequenceFile是一种可拆分的二进制文件格式,以Key/value形式存储数据。所有SequenceFiles共享相同的头格式,如图3.8所示。

 

图3.8 SequenceFile头格式

SequenceFiles有三种类型,根据应用压缩的方式而有所不同,每种类型都有自己对应的Writer类。

Uncompressed

Uncompressed SequenceFiles是使用SequenceFile.Writer类编写的,其对比压缩格式并没有任何优势,因为压缩通常会减少存储占用空间,并且对读取和写入更有效,如图3.9所示。

Record-compressed

Record-compressed SequenceFiles是使用SequenceFile.RecordCompressWriter类编写的。记录添加到SequenceFile后会立即被压缩并写入该文件。这种方法的缺点是与块压缩相比,压缩比略有不同。该文件格式与uncompressed SequenceFiles基本相同,如图3.9所示。

 

图3.9  record-compressed和uncompressed SequenceFiles的文件格式

Block-compressed(块压缩)  

Block-compressed SequenceFiles是使用SequenceFile.BlockCompressWriter类编写的。默认情况下,块大小与HDFS块大小相同,但可以覆盖它,这种压缩的优势在于压缩程度更容易达到理想状态。整个块被压缩,而不是在记录级别压缩。直到达到块大小才写入数据,此时整个块被压缩,从而产生良好的整体压缩状态。如图3.10所示。

你只需要一个Reader类(SequenceFile.Reader)读取所有三种类型的SequenceFiles。甚至Writer也是抽象的,因为你可以调用SequenceFile.createWriter决定首选格式,并且返回一个基类,无论如何压缩都可以用于写入。

 

图3.10 块压缩的SequenceFile格式

SequenceFiles具有可插入的序列化框架,写入的key和value必须具有相关的org.apache.hadoop.io.serializer.Serializer和Deserializer,用于编组和解组。Hadoop附带了四个序列化程序:Avro,Java,Tether(用于TetherData类中包含的二进制数据)和Writable(默认序列化程序)。

自定义SequenceFile序列化

如果希望SequenceFile包含可序列化对象,则需要实现自己的Serializer并注册,可以通过更新core-site.xml并将自定义序列化实现的类名追加到io.serializations属性来注册。

SequenceFiles是可拆分的,因为对于 record-based文件而言,每个文件大约每6 KiB(1 kibibyte = 1024字节)就会写入一个同步标记,并且在每个块之前写入基于块的文件。

现在让我们看一下如何在MapReduce中使用SequenceFiles。

如何使用SequenceFiles?

当必须支持复杂类型数据时,使用MapReduce中的文本会变得很棘手,这些数据可能包括nonscalar的数据类型,如列表或词典。此外,如果MapReduce的数据位置属性很重要,那么大型压缩文本文件需要一些额外的考虑,但使用SequenceFile等文件格式可以克服这些挑战。

问题

希望在MapReduce中使用结构化文件格式,可以使用该格式模拟复杂数据结构,并且支持压缩和可拆分输入。

解决方案

该技术着眼于如何从独立应用程序和MapReduce中使用SequenceFile文件格式。

讨论

SequenceFile格式提供与MapReduce等工具的高度集成,还可以对复杂数据结构进行建模。我们将研究如何读取和编写SequenceFiles,以及如何将它们与MapReduce、Pig和Hive一起使用。

我们将使用此技术的库存数据。与SequenceFiles一起使用的最常见序列化方法是Writable,因此需要创建一个Writable来表示stock数据。编写复杂Writable的关键元素是扩展Writable类并定义序列化和反序列化方法,如下所示。

 

列表3.3 表示stock price的写实现

 

现在有了Writable,你需要编写一些代码来创建SequenceFile。我们可以从本地磁盘读取stocks文件,创建StockWritable,并使用stock price作为密钥将其写入SequenceFile:

   

如何读并创建写文件?

 

现在需要通过写和读文件来证明其工作原理:

 

我们将如何在MapReduce中处理此SequenceFile?幸运的是,SequenceFileInputFormat和SequenceFileOutputFormat都与MapReduce很好地集成。因为Writable是MapReduce中的本机数据格式,所以使用带有MapReduce的SequenceFiles是完全透明的。以下代码显示了带有mapper和reducer的MapReduce作业:

 

现在,你可以针对先前创建的stocks SequenceFile运行MapReduce作业:

 

因为我们所做的只是回显输出的输入,所以应该在两个文件中看到相同的内容,可以通过读取作业输出文件来确保这种情况。至于如何验证输出是否为SequenceFile,很简单,SequenceFile输出的前三个字节是SEQ,然后是包含SequenceFile版本的第四个字节,然后是key和value类:

 

现在尝试使用之前编写的SequenceFile读取器代码将其转储到标准输出:

 

因为SequenceFiles是基于key/value的,并且SequenceFiles的默认序列化数据格式是可写的,所以使用SequenceFiles对于map和reduce完全透明。我们通过使用MapReduce的内置map和 reduce类并使用SequenceFile作为输入证明了这一点。 我们唯一需要做的就是告诉MapReduce使用特定于SequenceFile的输入和输出格式类,这些类都构建在MapReduce中。

在Pig中读取SequenceFiles

如果自己编写Writable,可以使用非MapReduce工具(如Pig)创建更多工作。Pig适用于Hadoop的内置scalar Writable,如Text和IntWritable,但不支持自定义Writable。 你需要编写自己的LoadFunc来支持StockPriceWritable。这适用于MapReduce,但Pig的SequenceFileLoader不能与自定义Writable一起使用,这意味着需要编写自己的Pig加载程序来处理文件。LoadFunc for Pig非常简单,如下所示:

列表3.4 一个Pig加载器函数,将StockPriceWritable转换为Pig元组

现在可以尝试在Pig中加载和转储stock SequenceFile:

 

Hive

Hive包含对SequenceFiles的内置支持,但它有两个限制。首先,它忽略了每条记录的关键部分。其次,开箱即用只适用于可写的SequenceFile值,通过执行toString()将值转换为Text形式来支持。

如果有自定义Writable,则必须编写一个Hive SerDe,它将Writable反序列化为Hive可以理解的形式。生成的DDL语句如下:

 

总结

SequenceFiles非常有用,因为其解决了MapReduce最具挑战性的问题——其本身可拆分且具有内置压缩支持,这使得它对用户完全透明。当然,它们也可用作其他文件格式的容器,如果这些格式不能集成到MapReduce中。SequenceFiles比较棘手的是缺乏多语言支持,限制了与数据互操作的工具范围。但是,如果数据大部分保留在HDFS中并使用MapReduce(或Hive / Pig)进行处理,那么SequenceFiles可能是你所需要的。

SequenceFiles的另一个挑战是在使用Writable时缺乏模式演变 - 对Writable进行更改不会向后或向前兼容,除非将其构建到实现中。这可以通过使用Protocol Buffers作为key/value类型来解决。

该技术研究了如何将SequenceFiles与Writable一起使用,SequenceFile知道如何在其文件格式内进行编码和解码。如何通过SequenceFiles使用Writables以外的数据?

使用SequenceFiles编码Protocol Buffers

Writable是SequenceFiles中的一等公民,并且API具有读取和写入Writable实例的特定方法,这并不意味着SequenceFiles仅限于使用Writables。事实上,只要有一个插入Hadoop序列化框架的数据类型的序列化实现,就可以使用任何数据类型。

Protocol Buffers是Google开源的复杂数据格式,提供了模式演变和高效数据编码功能。 (有关Protocol Buffers的更多详细信息,请参见之后的第3.3.3节)。在这种技术中,我们可以实现Protocol Buffers序列化,并了解如何在MapReduce中使用本机Protocol Buffers对象。

问题

希望在MapReduce中使用Protocol Buffers数据。

解决方案

编写Protocol Buffers序列化程序,使能够在SequenceFiles中编码Protocol Buffers序列化数据。

讨论

出于性能考虑,Hadoop使用自己的框架来序列化和反序列化数据。此框架的一个示例用法是将map输出作为shuffle阶段的一部分写入磁盘,所有map输出必须具有相应的Hadoop序列化类,该类知道如何读取和写入数据流。Writable是MapReduce中最常用的数据类型,有一个WritableSerialization类且使用Writable接口上的readFields和writeFields方法执行序列化。

SequenceFiles使用相同的序列化框架来序列化和反序列化其key/value记录中的数据,这就是SequenceFiles开箱即用支持Writable的原因。因此,将数据类型编码到SequenceFile只是编写自己的Hadoop序列化实例问题。

 Protocol Buffers与SequenceFiles一起使用的第一步是编写自己的序列化类。每个序列化类都必须支持序列化和反序列化,所以从序列化器开始,其作用是将记录写到输出流。

以下代码使用MessageLite类作为type,是所有生成的Protocol Buffers类的超类。MessageLite接口提供了将Protocol Buffers写入输出流并从输入流中读取它们的方法,如下面的代码所示:

 

接下来是解串器,其作用是从输入流填充Protocol Buffers对象。与序列化相比,Protocol Buffers对象只能通过其 builder类进行构建:

 

现在,我们需要配置Hadoop序列化框架以使用新的序列化程序。这是通过将新的序列化程序附加到io.serializations属性来完成的。编写辅助方法通常可以使客户端变得容易。以下示例显示了与Hadoop 2捆绑在一起的标准序列化程序,它们附加了刚刚创建的序列化类。这里没有显示ProtobufSerialization的源代码,它只是返回ProtobufSerializer和ProtobufDeserializer实例: 

 

接下来,需要生成一个新的Protocol Buffers编码的SequenceFile。这里的关键项是在使用SequenceFile writer之前调用register方法(如前面的代码所示):

 

关于MapReduce代码,新的序列化程序的优点是map和reduce类可以直接使用Protocol Buffers对象。同样,关键在于如何配置作业以使Protocol Buffers序列化程序可用。在下面的示例中,使用标识函数来演示如何在SequenceFiles中编码:

 

现在,你可以编写具有Protocol Buffers值的SequenceFile,对该数据运行标识MapReduce作业,然后转储作业输出内容:

 

以上是本章节的所有内容,在下一章节,我们将研究可以将Protocol Buffers集成到MapReduce中的其他方法。

相关文章:

1、《第一章:Hadoop生态系统及运行MapReduce任务介绍!》链接:   http://blog.itpub.net/31077337/viewspace-2213549/

2、《学习Hadoop生态第一步:Yarn基本原理和资源调度解析!》链接:   http://blog.itpub.net/31077337/viewspace-2213602/

3、《MapReduce如何作为Yarn应用程序运行?》链接:   http://blog.itpub.net/31077337/viewspace-2213676/

4、《Hadoop生态系统各组件与Yarn的兼容性如何?》链接:   http://blog.itpub.net/31077337/viewspace-2213960/

5、《MapReduce数据序列化读写概念浅析!》链接:  http://blog.itpub.net/31077337/viewspace-2214151/

6、《MapReuce中对大数据处理最合适的数据格式是什么?》链接: http://blog.itpub.net/31077337/viewspace-2214325/

请使用浏览器的分享功能分享到微信等