文章快速检索  
  高级检索
基于关联规则的MBD数据集定义研究与实现
王宏1, 于勇1, 印璞2, 赵罡1,3, 王伟1    
1. 北京航空航天大学 机械工程及自动化学院, 北京100191;2. 中国空间技术研究院 通信卫星事业部, 北京 100094;3. 北京航空航天大学 北京市高效绿色数控加工工艺及装备工程技术研究中心, 北京 100191
摘要: 针对产品全三维数字化研制需求,提出了一种基于关联规则的基于模型定义(MBD)数据集定义方法.首先,对产品研制过程中所有设计、制造和检验的标准进行细化分解,并对所有这些标准的工作方法、指令、要求即工程注释项进行统一编码,并由计算机管理和发布;其次,对MBD数据集创建过程的历史记录进行关联规则挖掘,发现工程注释项间潜在的关联关系;最终,根据工程注释项间关联关系,实现MBD创建过程中相关工程注释项的推荐.该方法以数据挖掘中关联规则理论为基础,从MBD数据集构建历史数据中获取有用的知识和经验,通过相关工程注释项推荐,进而提高MBD数据集创建效率.
关键词: 关联规则     基于模型定义(MBD)数据集     工程注释项     数据挖掘     推荐    
Research and implementation of MBD dataset definition based on association rules
WANG Hong1, YU Yong1 , YIN Pu2, ZHAO Gang1,3, WANG Wei1     
1. School of Mechanical Engineering and Automation, Beijing University of Aeronautics and Astronautics, Beijing 100191, China;2. Institute of Telecommunication Satellite, China Academy of Space Technology, Beijing 100094, China;3. Beijing Engineering Technological Research Center of High-efficient & Green CNC Machining Process and Equipment, Beijing University of Aeronautics and Astronautics, Beijing 100191, China
Abstract: A model based definition (MBD) dataset definition method based on the association rules was proposed to meet the requirement of product full three dimensional digitalization development. Firstly, this method thoroughly decomposed all the design, manufacturing and inspection standards used in the product's development process. All the standard operation method, order and requirement (engineering note items) of all the standards were uniformly encoded, managed and released by the computer. Secondly, the association rule was utilized to mine the MBD dataset's creation history records, by which the potential association relationships among engineering note items can be revealed. Finally, based on the association relationships among engineering note items, the proper engineering note items can be pushed out as needed in the process of MBD creation. The proposed method uses the association rule theory in data mining as its basis, exploiting the helpful knowledge and experiences obtained from MBD dataset's creation history, thus is capable of improving the MBD dataset's creation efficiency by engineering note items recommendation.
Key words: association rules     model based definition (MBD) dataset     engineering note items     data mining     recommendation    

随着数字化技术水平的不断提高,以航空航天为代表的大型装备制造业逐渐采用了基于模型定义(MBD)的全三维数字化设计制造方法[1].国内外针对MBD技术的应用进行大量研究,文献[2]在波音MBD应用技术基础上,详细阐述了基于模型定义的技术体系框架以及基本的定义方法和数据组织原则,文献[3]则对MBD标注信息表达及多视图过滤做了大量研究.这些研究为MBD技术的应用和推广起到了重要的作用,MBD数据集也逐渐成为产品研制过程中数据传递的唯一依据[2].然而,在实际应用过程中,随着时间积累,企业构建的MBD数据集数目呈爆炸性增长,这些数据集是大量的设计人员智慧和知识的结晶,如何获取历史数据集中有用的知识和经验是每一个企业迫切需要解决的问题.

对于产品研制过程中知识的发现、存储、共享和推荐过程有很多专家和学者进行了大量的研究.在MBD定义过程中,也引入了相关的理论,其中,文献[4]阐述一种通过构建本体知识库对MBD数据集进行分类管理方法.文献[5]则进一步提出了基于模型定义的工艺知识表示方法及工艺决策方法.然而这些知识的获取方法大多是针对已知的、显式的知识进行处理,而针对隐含的、先前未知的经验和规则的获取大多通过专家系统通过集成研讨厅的方式进行提取[6],并且大多停留在理论阶段,工程的可用性不好.本文则针对MBD数据集中工程注释信息进行结构化管理,通过统一编码,利用关联规则挖掘的方法分析MBD构建历史记录中工程注释信息,从而得到工程注释间隐含的、对决策有潜在价值的关联关系,实现对MBD数据集定义过程中工程注释信息的推荐.

1 基本概念 1.1 基于模型定义

基于模型定义是指用集成的三维实体模型来完整表达产品定义的方法,是将原来定义在二维图纸上的几何形状、尺寸与公差以及工艺等产品信息,集成定义在三维实体模型中[7].由于MBD技术要求使用三维实体模型作为生产制造过程中的唯一依据,这样就要求产品数字化定义信息必须按照MBD技术标准进行分类组织和管理,来满足产品研制过程中的各个阶段对数据的需求.一个完整的MBD数据集应该包括产品的三维几何信息、设计参考、尺寸、公差和工艺等信息,图 1所示为完整MBD数据集应包含的信息及其组织结构.

图 1 MBD数据集组成元素 Fig. 1 Components of MBD dataset

MBD数据集中包含了产品研制过程中大量的工艺、制造和检验信息,因此,MBD数据集中相关的非几何信息必须按照一定的格式编辑,并进行合理的存储管理,以便后续的数字化制造系统无需人工干预就能够有效读取和识别这些工程注释信息[8].因此,由计算机对所有工程注释项统一编码和发布.经计算机发布的单条工程注释被称为工程注释项.如表 1所示,工程注释项主要由“编码”、“标注内容”和“URL”构成.其中,“编码”具有唯一性,以便工程注释项被不同的数字化系统识别;“标注内容”则是对工程注释项的简要描述信息;“URL”则连接产品研制过程中相关标准和规范,或者该工程注释项的详细要求信息,表明工程注释项来源和依据.

表 1 工程注释项 Table 1 Engineering note item
编码标注内容URL
5SN07996提供随炉试件的拉伸模量及拉伸强度数据http://standards.web.CASC.com/hlgw.cgi?app=BA
1.2 关联规则基本原理

Agrawal等[9]于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题,此后人们对关联规则的挖掘进行了大量研究,其核心都是基于频集理论的递推方法.设I={i1,i2,…,in}是所有项的集合.给定一个事务数据库D,其中的每一个事务T是项集I中一些元素的集合,在事务数据库中相当于历史数据记录,即TI.一条关联规则就是形如AB的蕴含式,其中AI,BI,并且AB=∅,其支持度Ssup和置信度Cconf表示为:Ssup(A)=P(A);Cconf(A⇒B)=P(BA).对于同时满足最小支持度(Smin_sup)和最小置信度(Cmin_conf)的关联规则,就是可以作为知识输出的强关联规则[10].

生成频繁项集是关联规则挖掘的第一步,在很大程度上决定着整体的挖掘效率[11].它通过计算事务数据库中各种项集组合的最小支持度,判断是否为频繁项集.一旦从数据库中找出所有频繁项集,则可以从频繁项集中提取关联规则,通过设置最小置信度的约束,进而获取强关联规则.

在MBD数据集定义过程中,所有项的集合I对应于企业标准管理系统中所有的工程注释项.事务数据库D对应产品研制过程中MBD数据集创建的所有历史记录,记录了MBD数据集代号及引用的工程注释项编码,如表 2所示,每一条历史记录都构成事务数据库中的一个事务,MBD数据集代号作为该事务的唯一事务码.

表 2 MBD数据集构建历史记录 Table 2 Created history record of MBD dataset
MBD数据集代号工程注释编码项集合
FDHZ1008-4B_5-13{5SN00791,5SN01282,5PN01365}
FDHZ1008-4B_6-14{5SN01282,5DN00214}
FDHZ1008-4B_3-11{5SN01282,5SN00323}
FDHZ1008-5E_5-07{5SN00791,5SN01282,5DN00214}
FDHZ1008-5E_5-03{5SN00791,5SN00323}
FDHZ1008-4B_7-13{5SN01282,5SN00323}
FDHZ1008-4D_6-14{5SN00791,5SN00323}
FDHZ1008-5E_6-11{5SN00791,5SN01282,5SN00323,5PN01365}
FDHZ1008-4B_5-13{5SN00791,5SN01282,5SN00323}
2 标准注释项关联规则挖掘 2.1 频繁项集的生成

挖掘频繁项集的经典算法是Apriori算法和Frequent Pattern-growth(FP-growth)算法.由于Apriori算法在生成频繁项集前需要对数据库进行多次扫描,同时产生大量的候选频繁集,导致Apriori算法时间和空间复杂度较大[12].由此,Han[13]提出了FP-Growth算法.FP-Growth算法只需要扫描2次数据库:第1次扫描数据库,得到一维频繁项集;第2次扫描数据库,利用一维频繁项集过滤数据库中的非频繁项,同时生成FP树.由于FP树蕴涵了所有的频繁项集,其后的频繁项集的挖掘只需要在FP树上进行.本文采用FP-growth算法,其基本思路[14]为:

1) 对事务数据库进行第1遍扫描,利用数据库中的事务集构造一棵频繁模式树(Frequent Pattern-tree,FP-tree).

2) 将FP-tree分化成一些条件模式基,即包含FP-Tree中与后缀模式一起出现的前缀路径的集合,然后在对这些条件模式基重复以上过程,直到构造的新FP-tree为空,或者只包含一条路径.

3) 枚举所有可能组合并与此树的前缀连接即可得到频繁项集. 以表 2的MBD数据集构建历史记录表为例使用FP-growth算法进行关联规则挖掘.首先,对事务数据进行第1次扫描,导出频繁1项集和支持度计数,假设最小支持度计数为2.然后将频繁1项集按支持度计数递减顺序排序,结果集记为L.于是,就有L={{5SN01282:7},{5SN00791:6},{5SN00323:6},{5DN00214:2},{5PN01365:2}}.

然后,创建频繁模式树FP-tree.首先创建树的根节点,用“Null”标记.接着第2次扫描事务数据库.每个事务数据中的项按L中支持度计数排列次序进行重新排序,然后并对每一个事务创建一个分支.例如扫描第1条事务数据“FDHZ1008-4B_5-13:{5SN00791,5SN01282,5PN01365}”按L中支持度计数排序后可表示为“{5SN01282,5SN00791,5PN01365}”,使FP-tree包含3个节点的第1个分支<5SN01282>,<5SN00791>,<5PN01365>,其中“5SN01282”作为根的子女链接到根,“5SN00791”链接到“5SN01282”,“5PN01365”链接到“5SN00791”,依次类推,最终构建频繁模式树FP-tree,如图 2所示,左边表示表头项,树中相同项的节点要链接起来,其中每个节点数字代表对应项在该节点支持度计数.

图 2 频繁模式树

Fig. 2 Frequent pattern-tree

最后可通过对FP-tree的挖掘获得频繁项集.首先在构造的整个事务数据库的频繁模式树上进行条件模式基的挖掘,纵向沿着表头向上,也就是按照表头中频繁1项集支持度计数的升序方向,优先遍历头表,同时横向遍历其所对应的链表域,并对该链表域节点纵向向上遍历直到根结点停止,即得到一个序列,这个序列就是条件模式基.接着,对条件模式基继续建立局部FP-tree.直到生成只包含单个分支的FP-tree,通过枚举所有可能组合并与此树的前缀连接即可得到频繁项集.表 3给出通过挖掘条件模式基生成频繁项集.

表 3 生成频繁项集 Table 3 Generate frequent item set
工程注释项条件模式基产生的频繁项集
5PN01365{5SN01282,5SN00791}{5SN01282,5SN00791,5SN00323}{5SN01282,5PN01365}{5SN00791,5PN01365}{5SN01282,5SN00791,5PN01365}
5DN00214{5SN01282,5SN00791}{5SN01282}{5SN01282,5DN00214}
5SN00323{5SN01282,5SN00791}{5SN01282}{5SN00791}{5SN01282,5SN00323}{5SN00791,5SN00323}{5SN01282,5SN00791,5SN00323}
5SN00791{5SN01282}{5SN01282,5SN00791}
2.2 提取强关联规则

当在事务数据中找出所有频繁项集,可通过最小置信度过滤出强关联规则.置信度可用式(1)[15]计算:

条件概率用项集支持度计数表示,其中,Ssup_count(AB)是包含项集AB的事务数,而Ssup_count(A)是包含项集A的事务数.

设定最小置信度,关联规则的生成为:

1) 对于每个频繁项集L,产生L的所有非空子集

2) 对于L每个非空子集S,如果$\frac{{{S}_{\sup \_count}}(L)}{{{S}_{\sup \_count}}(S)}$≥Cmin_conf,则关联规则(L-S)⇒S为强关联规则.

根据规则包含工程注释项的数目,对于关联规则A⇒B可以是一对一、一对多、多对一和多对多的关系,由于在MBD数据集工程注释项推荐中,各工程注释项相比电子商务商品项之间具有更强的逻辑性和规律性,为了提高推荐准确性和推荐效率,本文仅保留一对一和多对一的关联规则.对于表 3中的频繁项集{5SN01282,5SN00791,5PN01365},提取关联规则如表 4所示.

表 4 关联规则提取 Table 4 Extraction of association rules
关联规则置信度
{5SN01282,5SN00791}⇒{5PN01365}0.5
{5PN01365,5SN00791}⇒{5SN01282}1.0
{5PN01365,5SN01282}⇒{5SN00791}1.0

若设定最小置信度为0.7,则关联规则{5PN01365,5SN00791}{5SN01282},{5PN01365,5SN01282}{5SN00791}为强关联规则.

2.3 推荐序列的生成

推荐是系统根据当前MBD数据集已经添加的工程注释项,与规则库中规则前项进行匹配,推荐规则后项过程.对于关联规则AB,关联规则前项为当前已经添加到MBD数据集中的工程注释项的非空子集,关联规则后项为系统推荐工程注释项.因此,工程注释项推荐为根据当前MBD数据集已经添加的工程注释项的非空子集作为规则前项提取规则后项,进而根据规则置信度大小产生top-n推荐序列的过程,算法步骤为:①对每个当前MBD数据集u,设置一个候选推荐集Pu,并将候选推荐集Pu初始化为空.②对每个当前MBD数据集u,搜索规则数据库,找出该MBD数据集支持的所有关联规则集合Ru,且关联规则前项的所有工程注释项出现在当前MBD数据集u已经添加的工程注释项中.③将关联规则集合Ru右部的所有工程注释项加入候选推荐集Pu.④从候选推荐集Pu删除当前MBD数据集已经添加的工程注释项.⑤对候选推荐集Pu中所有候选项根据置信度值进行排序,如果一个项在多条关联规则中出现,则选择置信度值最高的关联规则作为排序标准.⑥从候选推荐集Pu中选择置信度最高的前N个项作为推荐结果返回.

3 系统实现与应用 3.1 系统功能框架

基于关联规则的MBD数据集定义系统主要由对工程注释进行管理的集成标准管理模块,离线关联规则挖掘模块、在线MBD数据集定义模块组成.图 3为系统功能框架.

图 3 MBD数据集定义系统框架

Fig. 3 Frame of MBD dataset definition system

1) 集成标准管理模块.

集成标准管理模块管理产品研制过程中所有设计、工艺、制造和检验的技术要求及相关标准,以及相关工程注释项,任何授权的单位和研制人员都能够进行检索,进而保证产品研制过程中不同研制单位生成MBD数据集可以被数字化设备有效的读取和识别,也为实现工程注释项挖掘和推荐的前提.同时,在CATIA中开发与集成标准管理模块的接口,使得设计人员在CATIA可以调用集成标准管理模块中工程注释项,完成工程注释项编辑.集成标准管理模块主界面如图 4所示.

图 4 集成标准管理模块主界面

Fig. 4 Main interface of integrated standard management module

2) 关联规则挖掘模块

由于关联规则是以大量MBD创建历史记录数据为基础进行分析,并且采用关联规则挖掘生成频繁项集的过程非常耗时,因此采用离线处理方法对历史记录进行挖掘.在长期使用过程中,企业会根据自身实际情况会对自己的产品研制体系进行变更、废止或更新一部分工程注释项,因此首先要对MBD创建历史记录中数据进行清洗,去除一些无意义和噪声数据.然后再对清洗后的数据采用关联规则算法对处理过的数据进行挖掘,进而生成强关联规则.最后将获取的强关联规则导入关联规则数据库中.关联规则挖掘模块用户界面如图 5所示.

图 5 关联规则挖掘模块

Fig. 5 Association rule mining module

对于关联规则存储一般包含5个部分:规则前项、规则后项、支持度、置信度和规则生成时间.工程注释项推荐过程,也是MBD数据集中当前工程注释项与规则前项匹配,获取规则后项过程.表 5为关联规则表结构.

表 5 关联规则表结构 Table 5 Structure of association rules table
字段名描述
Lcondition规则的前项
Lconclusion规则的后项
Lsupport规则的支持度
Lconfidence规则的置信度
Ltime规则生成时间

3) MBD数据集定义模块.

MBD数据集定义模块包含MBD数据集工程注释项编辑及推荐功能.工程注释项编辑功能可以通过添加或删除相关工程注释信息完成MBD数据集构建.工程注释项推荐功能通过读取当前MBD数据集已经添加的工程注释项,以当前MBD数据集中工程注释项非空子集作为规则前项,以规则库中关联规则后项为推荐内容,生成推荐序列,进而显示在工程注释项编辑界面中.图 6为系统工程注释项的推荐界面.

图 6 工程注释项的推荐

Fig. 6 Recommendation of engineering note items
3.2 应用验证

本文将系统部署某航天企业,利用该企业现有MBD构建历史记录为数据源,进行关联规则挖掘,获取强关联规则,并以某型号支架体MBD数据集构建为例,对系统有效性进行验证.

1) 关联规则挖掘.

统计该企业于此相关工程注释项共计134条,在MBD数据集构建历史记录中选择相关历史数据记录1000条,设置支持度为0.1,置信度为0.3,并以此1000条数据为基础进行关联规则挖掘.图 7为系统关联规则挖掘的结果报告.

图 7 关联规则挖掘结果报告

Fig. 7 Result report of association rule mining

2) 工程注释项推荐.

该支架体主要由4块蜂窝夹层复合材料板,2根支撑杆以及若干连接件组成.以该支架体为验证对象,对系统推荐有效性进行评价.设完成当前编辑中MBD数据集一共需添加n项工程注释项,在系统当前刷新中,数据集中已包含工程注释项数目为m,推荐给用户的工程注释项数目为a,其中包含有效推荐项数目为b,则当前系统推荐效率即有效推荐项占系统给出推荐项百分比η=a/b×100%,推荐准确率即系统当前刷新推荐有效项占数据集仍然缺少工程注释项百分比R=b/(n-m)×100%.该支架体零件MBD数据集所包含工程注释项均在7~10之间,取1~8为数据统计区间,计算工程注释项推荐效率及其准确率,求平均值,分析结果统计如图 8所示.

图 8可知,系统推荐的准确性随当前所编辑的MBD数据集中包含的工程注释项的增加而增加.而当MBD数据集的编辑即将完成,在系统每次推荐工程注释项数目不变条件下,包含有效项随之减少,推荐效率降低.

图 8 推荐效率及准确率统计

Fig. 8 Statistics of recommendation efficiency and

accuracy rate
4 结 论

本文从应用角度出发,通过对MBD数据集创建过程的历史记录进行关联规则挖掘,获取工程注释项间潜在的关联关系,从而实现MBD创建过程中相关工程注释项的推荐,实际应用中表明:

1) 其相较于传统的MBD定义方法,在选择注释项准确性及其效率上都有所提高,具有很好的工程可操作性.

2) 本文所采用的单维单层次挖掘方法在准确性和效率上还有待于改善和提高,后续的研究工作可以尝试采用分层多维度关联挖掘的方法,以提高挖掘质量和效率.

此外,该方法不仅可以用于MBD数据集的定义过程,也可以利用关联规则库中工程注释项间关联关系及其关联强度实现MBD数据集正确性和完整性检查,为提高MBD建模质量提供了另一种解决思路.

参考文献
[1] Alemanni M,Destefanis F,Vezzetti E.Model-based definition design in the product lifecycle management scenario[J].The International Journal of Advanced Manufacturing Technology,2011,52(1-4):1-14
Click to display the text
[2] 范玉青.基于模型定义技术及其实施[J].航空制造技术,2012(6):42-47. Fan Y Q.Model based definition technology and its practices[J].Aeronautical Manufacturing Technology,2012(6):42-47(in Chinese)
Cited By in Cnki (24) | Click to display the text
[3] Camba J,Contero M,Johnson M,et al.Extended 3D annotations as a new mechanism to explicitly communicate geometric design intent and increase CAD model reusability[J].Computer-Aided Design,2014,57(1):61-73
Click to display the text
[4] Zhang H J,Zhang S,Yan Q.Study on the archives management system of aviation products based on MBD[J].Applied Mechanics and Materials,2013,321-324:2396-2399
Click to display the text
[5] Wan N,Mo R,Liu L,et al.New methods of creating MBD process model:On the basis of machining knowledge[J].Computers in Industry,2014,65(4):537-549
Click to display the text
[6] Park D H,Kim H K,Choi I Y,et al.A literature review and classification of recommender systems research[J].Expert Systems with Applications,2012,39(11):10059-10072
Click to display the text
[7] Clark B,Gerald B,David S,et al.Model based definition,AIAA-2010-3138[R].Reston:AIAA,2010
Click to display the text
[8] 冯国成,梁艳,于勇,等.基于模型定义的数据组织与系统实现[J].航空制造技术,2011(9):62-66. Feng G C,Liang Y,Yu Y,et al.Dataorganization and system implementation of model based definition[J].Aeronautical Manufacturing Technology,2011(9):62-66(in Chinese)
Cited By in Cnki (28) | Click to display the text
[9] Agrawal R,Imieliński T,Swami A.Mining association rules between sets of items in large databases[C]//Proceedings of the 1993 ACM SIGMOD.Washington,D.C.:ACM Press,1993:207-216
Click to display the text
[10] Bobadilla J,Ortega F,Hernando A,et al.Recommender systems survey[J].Knowledge-Based Systems,2013,46(1):109-132
Click to display the text
[11] 高建煌.个性化推荐系统技术与应用[D].合肥:中国科学技术大学,2010. Gao J H.Technology and application of personalized recommender systems[D].Hefei:University of Science and Technology of China,2010(in Chinese)
Cited By in Cnki (39)
[12] 鲍玉斌,王大玲,于戈.关联规则和聚类分析在个性化推荐中的应用[J].东北大学学报:自然科学版,2008,24(12):1149-1152. Bao Y B,Wang D L,Yu G.Application of association rules and clustering analysis to personalized recommendation[J].Journal of Northeastern University:Natural Scienee,2008,24(12):1149-1152(in Chinese)
Cited By in Cnki (62) | Click to display the text
[13] Han J W.Miniing frequent patterns without candidate generation[C]//Proceedings of the 2000 ACM SIGMOD Internal Conference on Management of Data.Washington,D.C.:ACM Press,2000:1-12
Click to display the text
[14] 莫同,褚伟杰,李伟平,等.一种基于扩展FP-TREE的服务推荐方法[J].华中科技大学学报:自然科学版,2013,41(增刊Ⅱ):81-87. Mo T,Zhu W J,Li W P,et al.A service recommended method based on extended FP-TREE[J].Journal of Huazhong University of Science and Technology:Natural Science Edition,2013,41(Supp1.Ⅱ):81-87(in Chinese)
Click to display the text
[15] Lin W,Alvarez S A,Ruiz C.Efficient adaptive-support association rule mining for recommender systems[J].Data Mining and Knowledge Discovery,2002,6(1):83-105
Click to display the text
http://dx.doi.org/10.13700/j.bh.1001-5965.2014.0819
北京航空航天大学主办。
0

文章信息

王宏, 于勇, 印璞, 赵罡, 王伟
WANG Hong, YU Yong, YIN Pu, ZHAO Gang, WANG Wei
基于关联规则的MBD数据集定义研究与实现
Research and implementation of MBD dataset definition based on association rules
北京航空航天大学学报, 2015, 41(12): 2377-2383
Journal of Beijing University of Aeronautics and Astronsutics, 2015, 41(12): 2377-2383.
http://dx.doi.org/10.13700/j.bh.1001-5965.2014.0819

文章历史

收稿日期: 2014-12-25
录用日期:2015-01-30
网络出版日期: 2015-05-22 15:31

相关文章

工作空间