- 制造业多价值链协同数据空间设计理论与方法
- 牛东晓 王宏伟 韩洁平
- 5285字
- 2024-05-24 17:58:04
1.2 国内外研究现状
1.2.1 制造业多价值链数据面临的问题及困境
制造及协作企业在生产经营过程中,为共同提高自身价值,从生产、供应、营销和服务等多方面以合作形式展开的一系列增值活动形成了制造业多价值链,多价值链主要包括生产价值链、供应价值链、营销价值链和服务价值链。在各类主体日常生产运行中多价值链参与的主体包括制造企业、与制造企业相关的协作企业群、多价值链协同数据空间管理第三方平台以及监督管理部门四大类主体。各类主体日常生产运行会产生海量的数据,数据的存储技术从早期的数据系统开始,经历了数据孤岛、数据池等时期。数据池技术由于数据更新滞后等问题,造成数据共享困难,使数据失去了安全性和主权性。因此,在数据沼泽的发展基础上,出现了数据库系统。而数据库本身也具有效率低等问题。因此,在2012—2013年,为了实现数据治理和流程再造,数据空间开始发展起来。数据空间能够有效提高数据安全性,使得数据空间主体具有数据处理权,更加符合企业智能化发展的需要[3]。但是针对制造企业如何构建数据空间,完善数据空间管理体系,如何将管理与生产、经营融合,现在研究还在起步阶段,亟须开展进一步研究[3]。
当前,制造业使用数据空间存在着全过程多价值链协同数据采集需求、多价值链协同数据下的智能优化决策需求、多价值链协同知识服务需求以及多价值链协同数据空间管理需求。其中,全过程多价值链协同数据采集需求主要指如何针对制造与协作企业在生产及管理各个环节产生的感知数据、状态数据、业务数据、流程数据以及价值链中的交易平台、金融平台、供应链平台等平台中存在的结构化、半结构化、非结构化数据形成统一的管理平台,按照统一的标准进行采集。多价值链协同数据下的智能优化决策需求指利用收集到的数据,建立价值链各环节的智能优化决策模型优化管理运营。多价值链协同知识服务需求指企业面向复杂的数据空间,利用多价值链协同服务知识图谱,采用面向语境的知识服务推荐方法,以实现复杂知识服务与用户需求的动态匹配。多价值链协同数据空间管理需求指实现面向分布式集群引擎数据存储和管理、面向事务处理的动态快速索引、引擎数据自动扩展和可视化等。目前,分析企业对于多价值链协同数据空间体系需求,以及如何使用和管理数据空间,如何构建多价值链协同数据空间管理引擎模型研究框架、明确数据空间的主体与边界、探究该过程中的管理方法及关键技术亟须研究。
1.2.2 制造业多价值链协同数据全生命周期体系的数据处理方法现状
(1)数据采集
在制造业生产经营过程中,会产生不同来源、多种结构数据的多源异构数据,多元异构数据因其数据来源的多样性、数据种类及形态的复杂性给数据规范化采集与使用带来了一定困难[4]。往往由于不同数据源的数据之间可能存在冲突、不一致或者相互矛盾的现象,在如此大量的数据下,难以实现不同数据的检测和定位。目前,数据采集面临着大数据开放流通困难、数据产权模糊、隐私容易泄露、数据采集质量水平仍待提高等问题。大数据开放流通困难主要指客户以及潜在客户的数据采集和管理零散,严重影响数据的流通使用和共享,很难对线上、线下等多个维度的个人数据进行汇总,且采集的数据大多数为静态数据,缺乏实时性。数据采集之后还面临着数据空间构建、数据使用等问题,数据采集阶段的数据质量直接影响数据空间的构建和数据的使用[5]。因此,针对制造业的多价值链协同效应,从数据全生命周期角度,构建数据空间数据质量的评价指标体系非常关键[6]。
(2)数据存储
伴随着复杂供应链的数据空间,围绕制造业进行数据分析的过程必然需要依靠场景和业务处理或接触到很多的数据。和传统数据存储相比,这些数据按结构分类分为三种:结构化数据、非结构化数据和半结构化数据。其中,结构化数据是指数据以表格形式存储,并且每个数据字段都有固定的数据类型。这些数据具有清晰的数据结构,可以通过行和列的方式组织和访问,类似于关系型数据库中的数据。非结构化数据是指数据没有固定的格式和组织方式,不容易用表格或数据库存储。半结构化数据介于结构化数据和非结构化数据之间,具有一定的结构,但不是完全按照表格形式组织的。在数据分析和处理过程中,不同类型的数据需要采用不同的方法和工具进行处理。在实际应用场景中,通过利用产品或者制造业中的统一编码规制对关键产品环节进行编码提取转换,从而形成围绕该产品的数据空间。值得注意的是,企业往往从多个数据源头提取数据,因此难免会出现数据缺失、数据异常以及数据统计口径、单位等尺度不同的现象,对数据进行预处理有利于提高数据质量。
(3)数据分析及应用
数据分析及应用是构建数据空间的目的,是企业提质增效的关键点。按照数据分析流程,可以分为数据筛选、数据分类、数据集成、数据挖掘、数据降维、数据预测等[7];按照应用范围,制造业多价值链协同数据包含了影响因素识别、经营风险识别、产品需求预测、制造企业负荷预测等[7]。目前,数据分析及应用较为成熟,但是更需要依据业务特性进行定制相关应用分析算法。
(4)数据安全
数据空间技术不仅可以满足主体对象对多元、不确定性数据的大量需求,同时作为一种数据管理策略解决了对异构、分散数据的收集、利用与共享[8]。伴随着数据处理的快速响应以及高速运算,数据的覆盖面更加广阔、数据利用功能更加多样、数据相关性更强。与此同时,带来的数据安全问题影响着正常的生活生产。在数据的全生命周期中,数据的采集、存储、处理、传输、交换和销毁各个环节都面临一定的风险安全[9],基于数据的全生命周期制定数据安全管理模式可以有效规避风险。因此需要从风险识别、评价、预警和控制四个角度出发,考虑数据空间数据的动态性以及不确定性,对数据进行安全管理[10]。
1.2.3 制造业多价值链协同数据空间关键支撑方法研究现状
数据建模、快速索引、关联表示、全链搜索和集成演化是构建制造业多价值链协同数据空间的关键支撑方法,有助于提高企业的数字化水平,实现全价值链数据的协同治理与价值信息的挖掘。本节分别对其发展现状进行分析。
(1)数据建模
基于数据空间的数据建模,可以高效利用制造业多价值链协同的过程中企业产生的大量异域、异源、异构数据进行复杂多维度分布式数据分析。在数据建模过程中,需要依据数据特性、用户目的进行建模。在制造业多价值链协同数据空间中,往往需要对文本型、数值型、视频型等数据进行建模。针对邮件和表格中的文本型数据,文献[11]提出了一种基于表格检索和机器学习二阶段的表格相关文本识别方法,阶段一利用表格内容进行全文检索,获取潜在相关文本。阶段二构建机器学习模型,判断表格与潜在相关文本间的相关性,从而实现文献中表格相关文本的自动识别。文献[12]提出了基于人工智能方法,采用光学字符识别(OCR)技术,对图像中的文本进行识别。针对数值型数据,这一类数据结构清晰,一般包括产量数据、交易数据、营销数据等。数据建模的关键点在于需要依据工程实际用户进行建模,文献[13]为了解决新系统建设初期出现的用户满意度下降、投诉量增加的问题,提出建立基于XGBoost的用户投诉风险预测模型来对用户投诉行为进行预测。文献[14]针对备件需求量预测这一典型问题,结合基于状态的维修实际,研究了定期检测策略下备件需求量的预测方法。对于视频类数据,以企业厂房的监控信息为例,文献[15]提出了基于视频的行人轨迹信息提取及异常行为检测与分析研究,解决了依据视频监控迅速且精准地定位异常事件的问题。文献[16]针对现实生活中未经剪辑的视频的效果表现不理想、信息过于冗余问题,提出了一个视频关键运动信息提取算法,用于捕捉视频中的关键运动部分,并以此进行多尺度时间和空间特征建模与融合,使得视频中的时序信息与运动空间场景产生联系。综上分析可知,现在已经有相关研究针对各类型数据,但是值得注意的是在不同的情境下数据建模与数据特点的不同,数据建模具有很大的差异性。因此,亟需依据制造业各类不同的应用场景,提出科学、有效且适用的数据建模方法。
(2)快速索引
快速索引指的是从多源数据、时空数据、多模态数据角度构建多链多源多模态数据的存储与索引,实现复杂数据的快速检索,并以模糊查询的形式为用户提供简便的查询入口,为其他服务提供基础。现在已经有部分学者对快速索引进行了相关研究,文献[17]提出了有效利用数据存储空间,时间序列数据存储采用分布式压缩存储结构,对整数、浮点数、布尔值、字符串和时间等不同类型的数据采用不同的压缩算法,每个存储节点采用日志结构化合并树的数据结构来组织数据,结果表明该方法单机查询性能好。文献[18]针对电力系统中的海量数据,结合Jimo大数据的动态可删节索引技术,提出一种适用于电力大数据的索引机制与查询方法,并构建了电力大数据高效索引与快速组合查询的一体化解决方案。实际的计算分析表明,该算法极大地提升了电力大数据的组合查询效率,很好地满足了系统的性能需求。文献[19]提出一种大规模数据的潜在语义索引(LSI)方法,给出一个降维问题的统一框架。利用该技术在最大程度保持LSI降维效果的同时,简化LSI的计算,使其能够应用于大规模数据。结果表明利用该技术在最大程度保持LSI降维效果的同时,可以简化LSI的计算,使其能够应用于大规模数据。总体而言,已经存在对数据快速索引的研究,但是实际上企业面临的数据具有多源特性、多时空特性、多模态特性。如何构建系统性框架,对多源数据、多时空数据、多模态数据进行分析有待深入探索。
(3)关联表示
关联表示指的是针对制造业全价值链活动过程中产生海量多源异构数据进行数据融合和数据关联,实现产品物料母件与子件的有效关联,并提供关联信息的可视化查询。文献[20]针对多模态数据中存在细粒度信息以及空间关系信息表示不充分、单模态的偏置问题和无效区域偏置融合问题,构建了多模态数据关联表示方法。文献[21]为了解决传统关联规则忽略了规则之间的关系和影响,提出了一种基于贝叶斯网的关联规则表示方法,实验表明这种方法生成的贝叶斯网不仅能够有效地表示原有的关联规则的含义,而且表现了关联规则之间的联系,从而扩展了关联规则的应用。文献[22]针对忽略文本中实体间的语义关联的问题,提出一种利用实体描述文本进行增强学习的方法,基于文本挖掘出关联性实体并对关联性进行分级,将关联性作为辅助约束融合到知识图谱的表示学习中。实验结果表明,该辅助约束能明显提升推理效果,优于传统的结构化学习模型以及基于深度学习的文本和结构的联合表示模型。分析可知,现在少有文献对制造业全价值链活动过程中所产生的海量多源异构数据进行关联性分析、同组数据内的数据分析、不同组数据之间的数据分析。
(4)全链搜索
在数据空间中,如何实现从海量的全链路数据中检索出所需要的有价值的数据成为关键。数据检索,顾名思义,是指根据用户所提出的问题,经过选择、整理和评价,选出能够回答问题的数据。通过检索,能够为用户决策提供可靠的依据,检索出的数据越全面、越准确,越能保证做出的决策的合理性。文献[23]研究一种基于知识图谱的全链路数据自动检索方法,该方法结合知识图谱理论,构建全链路数据的知识图谱,对全链路数据实施关联整理,结果表明:与基于簇内乘积量化的最近邻检索方法、基于类别分组索引的检索方法、基于加权模式挖掘与规则混合扩展的检索方法相比,所研究检索方法平均倒数排名指标值更小、命中率更大,说明所研究检索方法性能好,检索结果更加全面和准确。文献[24]针对智慧图书馆发展需求,提出了一种深度学习模型,用于查询文档文本与关键字之间的相关性。首先计算查询和文档之间的可变长度Delta矩阵,描述两个文本之间的差异,其次将其传递到深度卷积阶段,再经过深度前馈网络以计算相关性得分,实验结果证明该模型性能优于同类的最新深度学习方法。文献[25]也对电力大数据的检索需求、检索关键技术、检索平台的构建进行了探究。综上分析可知,现在的数据检索是单一模态的,且数据系统也是单一面对某一个具体用户的,而制造业中数据一般是跨模态、跨链检索系统的,依据制造企业特点构建数据检索框架,实现跨模态、跨链检索是数据采集与数据应用的关键点。
(5)集成演化
集成演化包括面向历史数据的分析挖掘服务与面向未来趋势的演化预测服务,立足于数据集成挖掘结果和未来演化趋势,制造企业可以高效地制定企业发展方向。目前,相关的研究相对比较少,文献[26]为了解决信息孤岛和信息不对等的问题,充分发挥分布式信息系统的优势,以Agent技术为研究基础,提出一种能够在分布式开放网络环境下对信息系统进行集成演化的支撑环境,实现不同系统之间的在线协同与数据流通。文献[27]提出了一种面向代码演化的集成软件缺陷预测模型,通过选择与缺陷相关联的代码度量元以及版本间的演化度量元,由决策树(J48)、逻辑回归(LR)、神经网络(NN)、朴素贝叶斯(NB)各自迭代产生分类器,结合Adaboost集成学习方法,使其在训练分类器时更关注每一轮的错分元组,得到不同的预测集成模型。而在制造企业中,需要分别在供应链、生产链、营销链和服务链等异质链条上的结构化与非结构化数据,进而使用数据挖掘方法分析集成数据的时空间演化趋势来预测其未来演化趋势,并使用可视化方法对数据集成信息以及演化趋势信息进行展示,为制造企业的业务决策提供有价值的信息支持。