本文作为《Hadoop从入门到精通》大型专题的第三章第三节，主要介绍如何在MapReduce中使用SequenceFile数据格式。我们在上一篇文章中提到了许多可与MapReduce大数据处理匹配的数据格式，本节将首先介绍SequenceFile数据格式。（往期文章可自行查看文末链接）

3.3.2 SequenceFile

因为SequenceFile是为与MapReduce一起使用而创建的，所以这种格式可以说是与MapReduce、Pig和Hive一起提供最高级别集成支持的数据格式。SequenceFile是一种可拆分的二进制文件格式，以Key/value形式存储数据。所有SequenceFiles共享相同的头格式，如图3.8所示。

图3.8 SequenceFile头格式

SequenceFiles有三种类型，根据应用压缩的方式而有所不同，每种类型都有自己对应的Writer类。

Uncompressed

Uncompressed SequenceFiles是使用SequenceFile.Writer类编写的，其对比压缩格式并没有任何优势，因为压缩通常会减少存储占用空间，并且对读取和写入更有效，如图3.9所示。

Record-compressed

Record-compressed SequenceFiles是使用SequenceFile.RecordCompressWriter类编写的。记录添加到SequenceFile后会立即被压缩并写入该文件。这种方法的缺点是与块压缩相比，压缩比略有不同。该文件格式与uncompressed SequenceFiles基本相同，如图3.9所示。

图3.9 record-compressed和uncompressed SequenceFiles的文件格式

Block-compressed（块压缩）

Block-compressed SequenceFiles是使用SequenceFile.BlockCompressWriter类编写的。默认情况下，块大小与HDFS块大小相同，但可以覆盖它，这种压缩的优势在于压缩程度更容易达到理想状态。整个块被压缩，而不是在记录级别压缩。直到达到块大小才写入数据，此时整个块被压缩，从而产生良好的整体压缩状态。如图3.10所示。

你只需要一个Reader类（SequenceFile.Reader）读取所有三种类型的SequenceFiles。甚至Writer也是抽象的，因为你可以调用SequenceFile.createWriter决定首选格式，并且返回一个基类，无论如何压缩都可以用于写入。

图3.10 块压缩的SequenceFile格式

SequenceFiles具有可插入的序列化框架，写入的key和value必须具有相关的org.apache.hadoop.io.serializer.Serializer和Deserializer，用于编组和解组。Hadoop附带了四个序列化程序：Avro，Java，Tether（用于TetherData类中包含的二进制数据）和Writable（默认序列化程序）。

自定义SequenceFile序列化

如果希望SequenceFile包含可序列化对象，则需要实现自己的Serializer并注册，可以通过更新core-site.xml并将自定义序列化实现的类名追加到io.serializations属性来注册。

SequenceFiles是可拆分的，因为对于 record-based文件而言，每个文件大约每6 KiB（1 kibibyte = 1024字节）就会写入一个同步标记，并且在每个块之前写入基于块的文件。

现在让我们看一下如何在MapReduce中使用SequenceFiles。

如何使用SequenceFiles？

当必须支持复杂类型数据时，使用MapReduce中的文本会变得很棘手，这些数据可能包括nonscalar的数据类型，如列表或词典。此外，如果MapReduce的数据位置属性很重要，那么大型压缩文本文件需要一些额外的考虑，但使用SequenceFile等文件格式可以克服这些挑战。

问题

希望在MapReduce中使用结构化文件格式，可以使用该格式模拟复杂数据结构，并且支持压缩和可拆分输入。

解决方案

该技术着眼于如何从独立应用程序和MapReduce中使用SequenceFile文件格式。

讨论

SequenceFile格式提供与MapReduce等工具的高度集成，还可以对复杂数据结构进行建模。我们将研究如何读取和编写SequenceFiles，以及如何将它们与MapReduce、Pig和Hive一起使用。

我们将使用此技术的库存数据。与SequenceFiles一起使用的最常见序列化方法是Writable，因此需要创建一个Writable来表示stock数据。编写复杂Writable的关键元素是扩展Writable类并定义序列化和反序列化方法，如下所示。

列表3.3 表示stock price的写实现

现在有了Writable，你需要编写一些代码来创建SequenceFile。我们可以从本地磁盘读取stocks文件，创建StockWritable，并使用stock price作为密钥将其写入SequenceFile：

如何读并创建写文件？

现在需要通过写和读文件来证明其工作原理：

我们将如何在MapReduce中处理此SequenceFile？幸运的是，SequenceFileInputFormat和SequenceFileOutputFormat都与MapReduce很好地集成。因为Writable是MapReduce中的本机数据格式，所以使用带有MapReduce的SequenceFiles是完全透明的。以下代码显示了带有mapper和reducer的MapReduce作业：

现在，你可以针对先前创建的stocks SequenceFile运行MapReduce作业：

因为我们所做的只是回显输出的输入，所以应该在两个文件中看到相同的内容，可以通过读取作业输出文件来确保这种情况。至于如何验证输出是否为SequenceFile，很简单，SequenceFile输出的前三个字节是SEQ，然后是包含SequenceFile版本的第四个字节，然后是key和value类：

现在尝试使用之前编写的SequenceFile读取器代码将其转储到标准输出：

因为SequenceFiles是基于key/value的，并且SequenceFiles的默认序列化数据格式是可写的，所以使用SequenceFiles对于map和reduce完全透明。我们通过使用MapReduce的内置map和 reduce类并使用SequenceFile作为输入证明了这一点。我们唯一需要做的就是告诉MapReduce使用特定于SequenceFile的输入和输出格式类，这些类都构建在MapReduce中。

在Pig中读取SequenceFiles

如果自己编写Writable，可以使用非MapReduce工具（如Pig）创建更多工作。Pig适用于Hadoop的内置scalar Writable，如Text和IntWritable，但不支持自定义Writable。你需要编写自己的LoadFunc来支持StockPriceWritable。这适用于MapReduce，但Pig的SequenceFileLoader不能与自定义Writable一起使用，这意味着需要编写自己的Pig加载程序来处理文件。LoadFunc for Pig非常简单，如下所示：

列表3.4 一个Pig加载器函数，将StockPriceWritable转换为Pig元组

现在可以尝试在Pig中加载和转储stock SequenceFile：

Hive

Hive包含对SequenceFiles的内置支持，但它有两个限制。首先，它忽略了每条记录的关键部分。其次，开箱即用只适用于可写的SequenceFile值，通过执行toString（）将值转换为Text形式来支持。

如果有自定义Writable，则必须编写一个Hive SerDe，它将Writable反序列化为Hive可以理解的形式。生成的DDL语句如下：

总结

SequenceFiles非常有用，因为其解决了MapReduce最具挑战性的问题——其本身可拆分且具有内置压缩支持，这使得它对用户完全透明。当然，它们也可用作其他文件格式的容器，如果这些格式不能集成到MapReduce中。SequenceFiles比较棘手的是缺乏多语言支持，限制了与数据互操作的工具范围。但是，如果数据大部分保留在HDFS中并使用MapReduce（或Hive / Pig）进行处理，那么SequenceFiles可能是你所需要的。

SequenceFiles的另一个挑战是在使用Writable时缺乏模式演变 - 对Writable进行更改不会向后或向前兼容，除非将其构建到实现中。这可以通过使用Protocol Buffers作为key/value类型来解决。

该技术研究了如何将SequenceFiles与Writable一起使用，SequenceFile知道如何在其文件格式内进行编码和解码。如何通过SequenceFiles使用Writables以外的数据？

使用SequenceFiles编码Protocol Buffers

Writable是SequenceFiles中的一等公民，并且API具有读取和写入Writable实例的特定方法，这并不意味着SequenceFiles仅限于使用Writables。事实上，只要有一个插入Hadoop序列化框架的数据类型的序列化实现，就可以使用任何数据类型。

Protocol Buffers是Google开源的复杂数据格式，提供了模式演变和高效数据编码功能。（有关Protocol Buffers的更多详细信息，请参见之后的第3.3.3节）。在这种技术中，我们可以实现Protocol Buffers序列化，并了解如何在MapReduce中使用本机Protocol Buffers对象。

问题

希望在MapReduce中使用Protocol Buffers数据。

解决方案

编写Protocol Buffers序列化程序，使能够在SequenceFiles中编码Protocol Buffers序列化数据。

讨论

出于性能考虑，Hadoop使用自己的框架来序列化和反序列化数据。此框架的一个示例用法是将map输出作为shuffle阶段的一部分写入磁盘，所有map输出必须具有相应的Hadoop序列化类，该类知道如何读取和写入数据流。Writable是MapReduce中最常用的数据类型，有一个WritableSerialization类且使用Writable接口上的readFields和writeFields方法执行序列化。

SequenceFiles使用相同的序列化框架来序列化和反序列化其key/value记录中的数据，这就是SequenceFiles开箱即用支持Writable的原因。因此，将数据类型编码到SequenceFile只是编写自己的Hadoop序列化实例问题。

Protocol Buffers与SequenceFiles一起使用的第一步是编写自己的序列化类。每个序列化类都必须支持序列化和反序列化，所以从序列化器开始，其作用是将记录写到输出流。

以下代码使用MessageLite类作为type，是所有生成的Protocol Buffers类的超类。MessageLite接口提供了将Protocol Buffers写入输出流并从输入流中读取它们的方法，如下面的代码所示：

接下来是解串器，其作用是从输入流填充Protocol Buffers对象。与序列化相比，Protocol Buffers对象只能通过其 builder类进行构建：

现在，我们需要配置Hadoop序列化框架以使用新的序列化程序。这是通过将新的序列化程序附加到io.serializations属性来完成的。编写辅助方法通常可以使客户端变得容易。以下示例显示了与Hadoop 2捆绑在一起的标准序列化程序，它们附加了刚刚创建的序列化类。这里没有显示ProtobufSerialization的源代码，它只是返回ProtobufSerializer和ProtobufDeserializer实例：

接下来，需要生成一个新的Protocol Buffers编码的SequenceFile。这里的关键项是在使用SequenceFile writer之前调用register方法（如前面的代码所示）：

关于MapReduce代码，新的序列化程序的优点是map和reduce类可以直接使用Protocol Buffers对象。同样，关键在于如何配置作业以使Protocol Buffers序列化程序可用。在下面的示例中，使用标识函数来演示如何在SequenceFiles中编码：

现在，你可以编写具有Protocol Buffers值的SequenceFile，对该数据运行标识MapReduce作业，然后转储作业输出内容：

以上是本章节的所有内容，在下一章节，我们将研究可以将Protocol Buffers集成到MapReduce中的其他方法。

相关文章：

1、《第一章：Hadoop生态系统及运行MapReduce任务介绍！》链接： http://blog.itpub.net/31077337/viewspace-2213549/

2、《学习Hadoop生态第一步：Yarn基本原理和资源调度解析！》链接： http://blog.itpub.net/31077337/viewspace-2213602/

3、《MapReduce如何作为Yarn应用程序运行？》链接： http://blog.itpub.net/31077337/viewspace-2213676/

4、《Hadoop生态系统各组件与Yarn的兼容性如何？》链接： http://blog.itpub.net/31077337/viewspace-2213960/

5、《MapReduce数据序列化读写概念浅析！》链接： http://blog.itpub.net/31077337/viewspace-2214151/

6、《MapReuce中对大数据处理最合适的数据格式是什么？》链接： http://blog.itpub.net/31077337/viewspace-2214325/

如何在MapReduce中使用SequenceFile数据格式？