探索中国CIO人才现状 | 第三季调研报告
商业智能在压缩机产量控制中的应用研究
2014-03-04  作者:万方数据 

  1.前言


  目前,学术界对商业智能的定义并不统一。商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。为了将数据转化为知识,需要利用数据仓库、联机分析处理(OLAP)工具和数据挖掘等技术。因此,从技术层面上讲,商业智能就是数据仓库、OLAP和数据挖掘等技术的综合运用。


  粗糙集理论作为一种分析不确定性数据的数学工具,与经典集合理论是不同的。粗糙集理论认为知识即是将对象进行分类的依据,通过这些知识可以将其划分为不同的类别,对于知识可以用属性和相应的值来描述。


  本文将基于粗糙集理论的的数据挖掘技术,应用于制造业的压缩机生产线数据分析中,主要是因为整个生产线数据的处理量非常大,人工处理非常困难,但随着电子信息技术的发展,可以通过先进计算机对大量的数据进行技术处理,而粗糙集理论则可以简洁高效地预测该压缩机生产线的生产率和成品率。同时,当生产过程中突然出现产量异常变化时,用统计学相关的分析方法依托数据库可以迅速找出主要原因。


  2.问题的提出


  缩短工件生产流动的循环时间、提高产品质量、降低次品率、降低生产成本,同时获得尽可能多的经济效益,是生产企业共同追求的目标。图1是本课题组在黄石某压缩机生产企业调研时统计的该厂每年生产100万台合格的压缩机在各个次品率阶段下所需的成本。由图中可以看出,所需的成本随着次品率的增加成正比。因此,要保证生产中获得较高的成品率,必须在产量降低的时候,快速找出主要原因在那里,进而提出对症的措施。但该压缩机企业规模不断扩大,产品越来越丰富,要分析的数据变得巨大且维数较高,很难较好地进行人工分析。为此,必须借助更加高效率的数据挖掘技术。


 

  3.建立压缩机生产数据库


  为了对该企业生产线进行有效的数据挖掘,首先要建立较完善的数据库。首先,必须及时准确地了解整个企业的生产状况,以便建立合适的数据库,做出正确的决策。


  本文使用图2所示的数据库模型,主要包括以下数据化的信息:


  第一,生产类数据。包括生产机床(类型,数量)以及压缩机生产必须的一些机器设备;


  第二,加工类数据。指每一零部件通过整个生产线的过程,包括加工的时间、用量以及每一个加工操作或加工的步骤;


  第三,产品类数据。指产品的主要属性,如每一压缩机所含部件数量、每一部件加工完毕所需的时间等,同时,也包括制成品数据和需求数据等;


  第四,设备类数据。主要指设备的状态性数据(如运行和损坏的时间)、切换的时间及闲置时间等等。


  4.使用基于粗糙集的数据挖掘技术生产线数据


  4.1预测生产率和成品率的主要步骤


  主要运用的方法是,从抽样的数据中分析并导出规则,再用导出的规则去预测生产率和成品率。因条件的局限,获得数据资源有限,本文主要介绍使用粗糙集预测成品率和生产率的过程步骤。


  4.1.1对生产数据进行预处理


  一般来说,初步建立的数据库因为比较冗繁,并不一定很适用于用来数据挖掘,往往需要对数据进行一定的预处理后才能用于数据挖掘。数据库的预处理一般是从分析初始数据库中可能存在的问题入手,通过分析出问题,选择合适的算法。这个步骤中一般使用数据校验分析、连续值离散化分析、概念泛化和数据转换等。


  4.1.2对知识进行约简并提炼规则


  把生产数据预处理后,可以得到一个较完备的决策表系统,一般来说可以进行数据挖掘了。但是为了实现简洁迅速的决策,还必须进行知识的约简,提炼规则。知识的约简主要包括属性的约简和值的约简。属性的约简可以找出制约成品率和生产率提高的“瓶颈”;而值的约简能删除掉冗余的属性值,最后形成的决策表是一个完善而简洁的数据库,同时也是决策规则集合。再根据给定的正常阈值,在规则中使用高正确率和高覆盖率的作为主要的预测规则。


  4.2分析出现产量突然下降时的流程和方法


  我们要达到的目的是,当产量突然下降或出现异常时,能迅速产生合适的数据集来解释原因。具体的方法主要采用统计学的相关方法,主要流程是:


  第一,对产量的统计数据进行识别信号对比,对次品率高低不同的批次分别分批列表。


  第二,在取得不同次品率的信号对比表之后,用统计学方法对这些表自动进行假想性测试,找出制约产量的所有线索。


  第三,运用统计方法对线索进行分析,找出关键的线索并排序。


  第四,按照线索通过工作站的记录和实验,按照顺序对各个步骤的相关设备、程序、零部件等进行详细地调查。


  这种预测方法必须使用统计方法,不然会可能会产生很多错误。同时,在找出了关键的线索后,要对各种出现问题的加工过程所相关的设备进行严格地调查,以确定是否在此处出现问题或者是否与其相关。同时,如果实际问题与线索不一致,则要反推复查线索,看是否数据库或规则有不完善的地方,并迅速修正。这种方法不仅可以在发生产量出现异常变化的时候迅速检查原因,还可以对生产过程进行监控,自动对潜在问题进行检测,保障生产率始终处于较高的水平。产品出现次品率高的情况,必然有一些因素是制约合格率的瓶颈。例如:将这种方法用于黄石某压缩机生产企业的仿真应用模型中。该模型的生产序号最大到43步。仿真过程发现标号为12,22,43,54,等批的次品率较高,列出这些批次的加工路径,如标号12的批加工路径为1→5→6→7→9→…→54→60。将这些次品率高的加工过程纪录下来,与正常生产的纪录利用统计方法进行分析比较,发现编号为4,8,11和21号设备可能出现了问题,再将得到的信息反馈给设备运行工程师。工程师进行检测,发现11号设备出现故障,立即着手维修。据厂方模拟统计,使用这种方法找出产量下降的原因比常规方法所需的时间缩短80%以上。


  5.总结


  在产量突然发生异常的变化时,使用基于粗糙集的数据挖掘技术分析数据,可以得到合适的分析规则,再使用统计分析的方法可以迅速找出主要原因,进而及时采取对症的措施,无状况发生时还可以有效监控生产线状况,保障生产线的稳定生产。该方法还存在不足的地方,主要体现在线索与线索之间可能存在连锁关系,还需进一步完善。