第1章 绪论
1.1 制造大数据的基本概念
1.1.1 制造大数据的定义与分类
制造大数据是指涵盖制造业全生命周期的各类数据,包括企业信息化数据、制造业物联网数据,以及外部跨界数据。其中,企业信息化数据是指通过企业信息系统,如制造执行系统(manufacturing execution system, MES)、企业资源规划(enterprise resource planning, ERP)、产品生命周期管理(product lifecycle management, PLM)、供应链管理(supply chain management, SCM)和客户关系管理(customer relationship management,CRM)等,产生和管理的产品研发、生产制造、供应链和客户服务等核心业务数据;制造业物联网数据是指通过传感器、射频识别(radio frequency identification,RFID)、智能设备等物联网技术采集和监控的设备运行状态、工艺参数、质量检测等实时数据;外部跨界数据是指通过互联网或其他渠道获取的与制造业相关的气候变化、生态环境、政治事件、自然灾害、市场需求等多维度数据。这三类数据构成了制造大数据的主要来源,也是制造大数据规模迅速扩张的原因。
制造大数据可以根据数据的结构性分为结构化数据、半结构化数据和非结构化数据。结构化数据是指按照固定的格式和规则存储在数据库中的数据,如表格、数值和日期等,这些数据可以用二维表格的形式表示实体和关系;非结构化数据是指没有固定格式和规则的数据,如文档、文本、图片、报告、图像、音/视频等,这些数据无法用二维表格的形式表示;半结构化数据是指既有一定的格式和规则,又有一定的自描述性的数据,如可扩展标记语言(extensible markup language, XML)、Java脚本对象表示法(Javascript object notation,JSON)等,这些数据既不完全属于结构化数据,也不完全属于非结构化数据。
制造大数据是智能制造与工业互联网的基础,其目标是通过实现数据的自动流动和智能分析,解决制造过程中的控制和优化问题,降低决策过程中的不确定性和风险,并克服人工决策的局限性。为了达到这个目标,需要利用大数据技术,如Hadoop、Spark、Cassandra等,对海量异构数据进行存储、处理和挖掘;运用机器学习和人工智能技术,如深度学习、神经网络(neural network, NN)、自然语言处理等,对复杂模式和规律进行识别和预测;运用可视化和仪表盘技术,如Tableau、Power BI等,对分析结果进行展示和交互。
1.1.2 制造大数据的空间分布
制造大数据具有跨界性和协同性,不仅涉及企业内部的各个环节,还涉及产业链和跨产业链的各个主体。企业内部数据是指通过企业信息系统(如MES、ERP、PLM等)生成和管理的生产制造、经营管理等数据;产业链数据是指通过SCM系统和CRM系统获取和分析的供应商、客户、合作伙伴等数据;跨产业链数据是指通过互联网或其他渠道收集和处理的市场、地理、环境、法律、政府等数据。这些数据构成了制造大数据的全面视角,也是制造大数据研究和应用的重要依据。
1.1.3 制造大数据的采集与传输
制造大数据的生产者主要包括人类和机器。人类数据来源于人工输入或采集的各种信息,如设计方案、业务流程、产品评价、新闻事件和法律法规等,这些数据通常存储在企业信息系统中;机器数据则来源于传感器、仪器仪表和智能设备等自动采集和监测的数据,如设备运行状态、工艺参数和质量检测等,这些数据通常传输到物联网平台中。对于制造企业,机器数据主要分为生产设备数据和制造产品数据。生产设备数据用于智能生产过程的控制和优化,为智能工厂的运行提供实时数据支持;制造产品数据用于智能服务过程的监测和预警,为用户提供设备维护、运行效率提升、安全保障等服务。
在智能制造和工业互联网的推进过程中,实现数据的自动化采集和分析是一个关键目标。随着互联网技术和制造业技术的深度融合,机器数据的传输方式也发生了变化,从传统的有线网络传输转变为无线网络传输,数据的管理范围也扩展到企业外部的设备和产品。这种变化促进了人机协同、企业社会化,以及工业互联网价值的创造。
1.1.4 制造大数据的发展趋势
从20世纪60年代开始,计算机技术在制造业管理中得到了广泛应用。从层次模型,到网状模型,再到关系模型,形成了以结构化数据为主的ERP/MES等企业信息系统。20世纪70年代,计算机图形学和辅助设计技术的发展,使得计算机辅助设计(computer aided design, CAD)、计算机辅助工程(computer aided engineering, CAE)、计算机辅助制造(computer aided manufacturing,CAM)等工具软件可以产生三维模型、工程仿真、加工代码等复杂文件,形成了以非结构化数据为主的产品数据管理(product data management, PDM)等产品管理系统。21世纪,互联网和物联网为制造业提供了大量的文本、图像、音/视频、时序、空间等多种类型的非结构化数据,导致制造业数据中结构化数据和非结构化数据的比例发生巨大变化。
近年来,智能制造和工业互联网的推动,促进了以“个性化定制、网络化协同、智能化生产和服务化延伸”为特征的新型制造模式的发展。未来,人类产生和处理的数据规模将逐渐减少,机器产生和分析的数据规模将逐渐增加。
1.2 制造大数据的特点
制造大数据具有大数据的4V特征,即数据量(volumn)大、数据速度(velocity)快、数据类型(variety)多、数据质量(veracity)低。
数据量大是指数据的规模和增长速度都很大。我国的大型制造企业中,人工产生的数据规模一般在太字节(TB)级别或以下,但是这些数据是高价值密度的核心业务数据。机器产生的数据规模则可以达到拍字节(PB)级别,是“大”数据的主要贡献者,但是这些数据相对价值密度较低。随着智能制造和物联网技术的进步,产品制造阶段的人工干预越来越少,运维阶段的产品运行状态监测越来越全面,未来人工产生的数据规模占比将下降,机器产生的数据规模将呈指数级增长。
数据速度快不仅是指数据的采集速度快,也指数据的处理速度快。越来越多的制造业信息系统之外的机器数据被纳入大数据系统,特别是针对传感器产生的海量时序数据,数据的写入速度可以达到每秒百万或千万个数据点。数据的处理速度体现在设备自动控制的实时性,更体现在企业业务决策的实时性,也就是工业4.0所强调的基于“纵向、横向、端到端”信息集成的快速响应。
数据类型多是指数据的复杂性和多样性,主要指各种类型的碎片化、多维度工程数据,包括设计制造阶段的概念设计、详细设计、制造工艺、包装运输等各类业务数据及服务保障阶段的运行状态、维修计划、服务评价等各类服务数据,甚至在同一环节,数据类型也是复杂多变的,例如,在运载火箭研制阶段,将涉及气动力学、声学、结构力学、控制理论等多学科、多专业领域。因此,制造大数据的复杂性不仅是数据格式的差异性,也是数据内部结构所呈现出的多模态特征。
数据质量低是指数据的真实性,相对于分析结果的高可靠性要求,制造大数据的真实性和质量比较低。制造业应用中由于技术路线缺乏可行性,实施成本居高不下,项目在放大、中试阶段易夭折等原因,很多关键参数没有被测量、没有被充分测量或者没有被精确测量(数值精度),同时某些参数具有固有的不可预测性,如人为错误、天气变化、经济波动等,这些情况往往导致数据质量不高,是数据分析和利用*大的障碍,对数据进行预处理以提高数据质量也常是耗时*多的工作。
制造大数据作为对制造业相关要素的数字化描述和在赛博空间的映射,除了具备大数据的4V特征,相对于其他类型大数据,还具有反映制造业逻辑和特点的新特征。这些特征可以归纳为多模态、强关联、高通量等特征。
(1)多模态。制造大数据是制造业系统在赛博空间的映射,必须反映制造业系统的系统化特征,必须反映制造业系统的各方面要素。所以,数据记录必须追求完整,往往需要用超级复杂的结构来反映系统要素,这就导致单体数据文件结构复杂。例如,三维产品模型文件不仅包含几何造型信息,而且包含尺寸、工差、定位、物性等其他信息;同时,飞机、风机、机车等复杂产品的数据又涉及机械、电磁、流体、声学、热学等多学科、多专业。因此,制造大数据的复杂性不仅是数据格式的差异性,也是数据内生结构所呈现出的多模态特征。
(2)强关联。制造业数据之间的关联并不是数据字段的关联,其本质是物理对象之间和过程的语义关联。包括:①产品零部件之间的关联关系,即零部件组成关系,零部件借用、版本及其有效性关系;②生产过程的数据关联关系,如跨工序大量工艺参数关联关系、生产过程与产品质量的关系、运行环境与设备状态的关系等;③产品生命周期的设计、制造、服务等不同环节的数据之间的关联关系,如仿真过程与产品实际工况之间的关系;④在产品生命周期的同一阶段所涉及不同学科不同专业的数据关联关系,例如,民用飞机预研过程中会涉及总体设计方案数据、总体需求数据、气动设计及气动力学分析数据、声学模型数据、声学分析数据、飞机结构设计数据、零部件及组装体强度分析数据、系统及零部件可靠性分析数据等的关系。数据之间的强关联反映的就是制造业的系统性及其复杂性的动态关系。
(3)高通量。嵌入了传感器的智能互联产品已成为工业互联网时代的重要标志,用机器产生的数据来代替人所产生的数据,实现实时的感知。从制造大数据的组成体量上来看,物联网数据已成为制造大数据的主体。以风机装备为例,根据IEC?61400-25标准,持续运转风机的故障状态数据采样频率为50Hz,单台风机每秒产生225KB的传感器数据,按2万台风机计算,若全量采集则写入速度为4.3GB/s。具体来说,机器设备所产生的时序数据可以总结为以下几个特点:海量的设备与测点,数据采集频度高(产生速度快),数据总吞吐量大,7×24h持续不断,呈现出高通量的特征。
1.3 制造大数据建模方法研究现状
以大数据、云计算和移动互联网为代表的新一代信息技术与先进自动化技术、传感技术、控制技术和数字制造技术深度结合,对生产方式和控制系统产生了深远变革。为了抢占制造业新一轮竞争的制高点,各国都进行了重大调整。
德国工业4.0参考架构的核心内容是“一个网络、两大主题、三大集成”。其中,“一个网络”是构建信息网络与物理生产系统融合的信息物理系统;“两大主题”是实现网络化、分布式生产的智能工厂与基于人机互动、智能制造管理的智能生产;“三大集成”是通过价值网络实现的横向集成,贯穿整个价值链的端到端集成,将融合不同层级的信息技术(information technology,IT)系统的纵向集成。它从信息技术、价值流和产业链三个层面构建架构关注智能工厂和智能制造本身。
美国以通用电气(General Electric,GE)公司为*的企业联盟提出工业互联网参考架构。该体系架构是通过数据采集、互联网、大数据、云计算等技术,来打造稳定、可靠、安全、实时、高效的工业互联网,并通过工业互联网将智能化机器与人类互联起来,从而实现工业系统产业链与价值链的整合。其核心内容是结合软件和大数据分析,通过智能机器间的连接*终实现人机连接,从而重构跨行业参考框架,因此它更注重制造企业的服务。
中国智能制造系统架构提出坚持“创新驱动、质量为先、绿色发展、结构优化、人才为本”的基本方针,坚持“市场主导、政府引导,立足当前、着眼长远,整体推进、重点突破,自主发展、开放合作”的基本原则。其核心内容是从产业链、系统层级、智能功能三个层面构建架构,将新一代信息技术和制造技术的发展结合起来,
展开