随着制造业与物联网、云计算、互联网等信息技术的融合与发展，制造业已进入了大数据时代，在大数据环境下，制造技术将发生巨大的进步与改革。从大数据下的制造业数据特点出发，勾画了制造业的大数据技术架构，并重点分析了大数据下制造业的五大关键技术，即数据集成技术、数据存储技术、数据处理技术、数据分析技术以及数据展现技术，为制造业大数据的发展提供参考。

制造业；大数据；智能制造；Hadoop

中图分类号：TP391

文献标识码：A

DOI：10.16157/j.issn.0258-7998.2017.02.002

中文引用格式：李少波，陈永前. 大数据环境下制造业关键技术分析[J].电子技术应用，2017，43(2)：18-21，25.

英文引用格式：Li Shaobo，Chen Yongqian. Analysis on key technologies of manufacturing industry in big data environment[J].Application of Electronic Technique，2017，43(2)：18-21，25.

0 引言

大数据（Big Data）这一概念的提出最早可以追溯到上世纪80年代^[1]，当时并没有得到人们的关注。直到2008年，著名杂志Nature出版了专刊《Big Data：Science in the Petabyte Era》^[2]，从经济学、互联网技术、环境科学等多个领域介绍海量数据带来的挑战。从此大数据一词被广泛传播，受到了各个国家、政府及各界的广泛关注与研究，并在IT、金融、互联网等行业得到了较大的发展与利用^[3]。

制造业作为国家经济支柱性产业，是我国综合国力的表现，充分地应用和挖掘制造业中的数据逐渐成为行业研究和讨论的热点^[4]。制造业具有地理分布广泛，制造类型多，制造过程复杂多样，涉及领域广等众多特点，是人类社会中最复杂的行业之一，这决定了制造业将产生庞大的数据量，且有着类型丰富、结构多样、增长速度快等特点，是一个典型的行业大数据体现，以一个的典型的纺织制造企业来说，光是一个制造车间一天的数据量都将达到84 GB^[5]。在制造业这种庞大的数据量与爆炸式的增长新形势下，传统的制造业技术将不再够用，不能满足制造行业从海量数据中快速获取知识与信息的需求。因此，在大数据环境下，制造技术将发生巨大的进步与改革。

1 大数据下的制造业数据特点

1.1 大数据下的制造业数据来源

大数据不仅仅是一种数据处理技术，而是一种总体视角的体现，是一种综合关联性分析，发现具有潜在联系之间的相关性，如将大数据单独割裂来看，则大数据的大价值无从体现^[6]。因此在进行制造业大数据分析时，必须全面地考虑制造业的数据来源。在互联网、物联网、移动互联等技术快速发展的今天，制造业的数据来源不仅包括了产品设计与开发、产品加工与设备运行、仓库管理等行业数据，同时还包含了市场、客户关系、政府计划、互联网等外部数据。制造业大数据来源如图1所示。

1.2 大数据下的制造业数据特点

“大数据”一词在业界都被普遍认为有着“3V”特征^[7]，即Volume（容量大）、Variety（种类多）、Velocity（速度快）。在制造业具有十分强的专业性、时序性、关联性、流程性等特点情况下，不仅拥有大数据的“3V”特征，而且还有以下特征^[8-9]：（1）强相关与高维度性。制造业各个数据间往往相互关联相互耦合，从而构成一个复杂多变量的高维系统。（2）强烈的非线性。在产品的生产过程中的许多物理和化学变化都表现为不可测的、非线性的。（3）高噪声。互联网大数据主要在乎数据的统计显著性，对数据噪音并没有太大的要求，而对于制造业，只要出现一点差错，都会造成巨大的损失，因此数据的高噪音是制造业大数据不可忽视的。

2 制造业的大数据技术架构

制造业的大数据分析平台是根据业务的需求逐步勾画出来的^[10]。针对制造业大数据的业务特点，制造业大数据平台在功能上应满足多种类型数据的采集与导入，能存储海量的、多样的、多类型的制造业大数据，支持多种类型的数据分析方法和数据展示方法。从性能方面考虑，制造业大数据平台总架构应满足可扩展性、高错容性与可靠性、实时性、较好的安全性以及低成本等要求^[11]。

在制造过程中，对大数据的实时分析与处理，对制造过程的实时决策及实时控制，是企业生产安全有序进行、及时决策、提高效率、减少损失的重要保障^[12]。另一方面，制造业是一个高维非线性的复杂性行业，一个普通的制造企业，其内部就包含着许多子系统，例如制造执行系统（MES）、企业资源计划（ERP）、产品数据管理（PDM）等。每一个子系统往往又包含着许多业务流程，产生着大量的数据，甚至可以单独构成一个领域的大数据，例如供应链管理大数据就是大数据在供应链的一个应用^[13]。

综上，根据制造业实际需求和业务状况相结合，勾画出制造业大数据技术架构如图2所示。在该架构中，系统先将各种来源的数据进行集成处理，再根据对各部分数据的要求与特点选择不同的处理方式，并根据业务的需求进行分析，最后用不同的数据展现方式将信息传达给各个应用系统。

3 大数据下的制造业关键技术

3.1 大数据集成技术

数据集成技术就是把不同来源、格式、特点、性质的数据在逻辑上或者物理上有机地集中，为系统存储一系列面向主题的、相对稳定的、反映历史变化的数据集合，从而为系统提供全面的数据共享^[14]。大数据的集成技术是解决制造企业各系统间的数据沉余和“信息孤岛”的重要工具。按照数据集成点不同，可以将其分为源端和应用端数据集成。

（1）源端数据集成。在制造企业中，数据来源十分广泛，数据格式复杂，不仅有传统的内部生产数据，还有市场数据、客户关系数据、价值链数据等。面对重多的数据来源和格式，如果直接将其进行大数据分析，不但会导致分析速度的下降，而且还会影响数据分析的质量^[15]，因此在数据分析前将数据集成为统一格式是制造业大数据分析的重要步骤。源端数据集成如图3所示。

（2）应用端的数据集成。制造业内部存在许多应用系统，例如生产应用、供应链应用、定制应用等，不同的应用系统间往往有不同的数据库和数据形式，且各个应用系统之间的数据一般只能供自己使用，而这样就很容易产生信息孤岛。对应用端数据进行集成将会利于各个部门与系统间的信息共享，避免企业信息孤岛的产生。应用端数据集成如图4所示。

3.2 大数据存储技术

大数据下的制造业对数据存储将面临着以下挑战：（1）存储数据量大，制造业大数据量将达到PB级别甚至更高；（2）制造业大数据来源广，数据形式和数据结构都比较复杂；（3）满足数据的完整性；（4）数据读取和写入速度应达到业务的需求；（5）具备可扩展性。显然，传统的数据库明显有点力不从心，制造业大数据的存储还要寻求新的方法。分布式文件系统是大数据时代数据存储最好的工具，比较有代表性的分布式文件系统当属Hadoop的HDFS^[16]。HDFS是受到Google文件系统(GFS)的启发而构建的，有着支持超大文件、低延迟数据访问、高错容性、可扩展、可运行在普通机器上等优点^[17]，HDFS的工作原理如图5所示^[10]^[18]。

3.3 大数据处理技术

制造业的大数据处理技术主要包含了批处理、流处理和内存计算^[19]，分别满足制造业大数据处理的不同需求。

3.3.1 批处理技术

目前最主流的批处理技术当属Google公司在2004年提出的MapReduce分布式计算模式，基于该框架写出来的应用程序可以在普通机器群集上运行，能够轻松地处理TB级别以上的数据集，且有良好的错容性。

在MapReduce中，一个计算流程分为map和reduce两个阶段。在map阶段，其输入文件(Input file)往往会被划分为固定大小的输入块（split）。每个块都会对应着一个map任务，该map任务中的map函数会作用于split中的每一个记录（record），一个记录就是一个键值对。map任务完成后，其结果(键值对)会被进行分区（partition），然后暂时写入到磁盘中，为reduce阶段做准备。在reduce阶段，map阶段的每个partition都会被分配至某个reduce任务，等到reduce阶段处理完成后，其结果将会被存入到分布式文件系统（HDFS）中。MapReduce整个处理流程如图6所示^[12]。

3.3.2 流处理技术

批处理技术对大批量静态的数据处理是有效的，然而在制造企业中，不光要处理大批量的静态数据，而且还要处理像生产监控数据、故障警报数据等动态和大批量小数据。

流处理（Stream Computing）技术对这种数据的处理往往是非常有效的^[20]。当有数据到来时，流处理工具就应该立刻响应，然后把处理后得到的信息马上呈送给用户或系统，这种数据处理无须数据准备时间，从而有很好的实时性。目前，流处理计算框架主要有：Apache S4、Storm、Scribe、Kafka等，下面用比较主流的S4进行介绍。

S4(Simple Scalable Streaming System)^[21-22]是一个分布式流计算模型，S4有着良好的通用性、可扩展性、错容性等优点。S4在对数据处理时，将数据流看成是事件（Event）的序列流。每个Event是一个（K，A）元素，通过EventType来标示其类型。K、A分别表示这种类型的 Event的若干个关键字和若干个属性。在这种抽象的基础上，设计者将Processing Elements(PE)定义为S4中的最小数据计算单元。每个PE只负责处理Event type、属性Key和属性Value都匹配的事件，并最终输出结果或新的（K，A）元素。每个S4都包含有若干个这样的PE，当数据到来时，便立刻共同作业，完成数据流的处理。

3.3.3 内存计算

内存计算技术，就是指CPU直接从内存上读取数据，并进行计算、分析。内存计算大大减少了从硬盘读取数据的时间，是对传统数据处理模式的一种速度提升。比较有代表性的内存计算系统有SAP HANA、Oracle Exadata和IBM pureData。

较批处理与流处理来说，内存计算的最大优势就在于其处理数据的速度，从而决定了内存计算非常适合需要实时获得结果的数据，是制造业大数据分析和数据处理中的关键应用技术之一。内存计算的原理非常简单，如图7所示^[20]。

3.4 大数据分析技术

大数据技术的根本驱动力是将信号转化为数据，将数据分析为消息，将消息提炼为知识，以知识促成决策和应用^[24]。经过数据的集成与处理后，所得的数据便成为数据分析的原始数据，根据业务的需求与应用，再对数据进一步的分析，最后得到所需要的知识。

传统意义上的数据分析技术是先将数据进行存储，然后对数据进行筛选，建立数据中心，在此基础上建立数据仓库，再根据业务需求来进行联机分析处理（OLAP）^[11]。这种方法对于结构复杂、实时性要求高，分析程度较深的制造业大数据来说是无能为力的。根据制造业大数据的数据特点与业务要求，制造业大数据的数据分析主要面临的困难是大量非结构化复杂数据分析和实时预测分析。因此可以利用以下思想去解决制造业大数据的分析难题：（1）对数据进行处理。在面临结构复杂的大数据时，利用粒化思想，将大数据进行粒分，变大数据为小数据后再进行分析；（2）加强对新一代数据分析工具的利用与研究。例如EMC的GreenPlum数据分析工作台、Teradata的Aster Data平台等；（3）通过人工智能和机器学习等技术分析大数据^[24]。

3.5 大数据展现技术

制造业的大数据展现技术可以分为制造过程数据展现技术、历史数据展现技术及可视化技术。

制造过程数据展现技术是制造业大数据展现技术的关键部分。随着制造物联的快速发展，制造企业会产生大量生产现场实时数据，如果将这些实时数据实时展现出来，那么就可以清晰地了解到生产现场的实时变化情况，这样不仅提高了企业的生产效率，而且能完善企业的资源配置，是实现智慧生产的重要步骤。

历史数据展现技术主要体现在制造业对历史数据的管理和展示上，这里的历史数据一般指对实时性要求不是太强的数据，例如企业生产历史数据、客户关系数据、竞争对手数据等。企业对历史数据分析展现，可以绘制出数据的发展趋势并预测出未来的数据走势，可以模拟历史重大事件发生与演变，挖掘历史事件潜在的知识与规律。

数据可视化技术是指运用计算机图形学和图像处理技术，将数据转换为图形或图像在屏幕上显示出来，并进行交互处理的方法和技术^[25]。制造业的复杂性、多系统性决定了数据的分析结果会呈现出多维的特点。数据可视化技术正是解决这一系列问题的，它以一种简单易懂的方式将复杂的数据呈现给我们，不仅让我们更容易去理解数据，而且对发现数据中新的信息也起到非常关键的作用。目前常见的可视化技术有Tag cloud、History flow、Spatial information flow等。

4 结语

“中国制造2025”和德国“工业4.0”纷纷指出智能制造是制造业未来的发展趋势，而大数据技术则是助力实现智能制造不可缺失的一把利剑。将来，制造技术不光是指传统的机械加工等技术，而是一种集制造业与互联网、物联网、移动互联、大数据、云计算等信息技术为一体的新局面，这是制造业智能化、绿色化的必要前提。大数据技术已广泛使用在互联网、电商、金融等行业，并创造了较大的商业价值，然而对于制造业来说，乃处在起步甚至是研究阶段。因此，大力发展制造业大数据技术，挖掘制造业大数据的最大价值，促进制造业的转型升级将是制造企业下一阶段的重要任务与课题。