以下是演讲的主要内容(现场笔录):
我的报告分为以下三个部分:首先是我们对风电机组运行大数据的概述和我们对运行大数据的一些自己的理解。
首先大数据是一个目前在各行各业都非常流行的,也是应用非常广泛的一个概念,就定义上来说它是一种海量的、高增长率,并且是多样化的一个信息资产。一般认为大数据有着一个5个V的特征,也就是大量、多样、真实性、高速和价值,特别是大数据价值和传统数据有一些不同的地方,它的价值不是一个密集的价值,而是比较稀疏的,需要我们不断发觉和发现,在这里需要我们使用一些新技术对大数据进行处理,其中比较重要的是数据挖掘技术、分布式处理技术、云存储、云计算以及虚拟化技术,这样对我们对数据的加工能力提出了一个更高的要求。
具体到风电大数据上,风电大数据当前利用有四个方面:在资源评估、状态监控、故障诊断和运维管理这四个大类。随着风电的不断发展和风电装机容量的不断增加,风电大数据也是非常明显的有着量大、多源、易购、复杂的特点,风电机组的设计数据、风电机组的运行数据以及一些其它来源的公共气象数据,这其中最为重要,数据量最大,也是业务最广泛的是风电机组的运行数据,这下面又可以具体的分为几类,比较主要的有风电机组SCADA的运行数据、CMS系统采集数据、管理运行数据、检测及气象数据。这些数据现在都或多或少的分散在一些风机制造商、风电厂业主以及第三方运营商多个环节中,如何将这些数据汇集起来加以合理有效的应用,是目前在数据这个层面主要存在的问题。
就风电机组和风电厂的维修方式来说,从传统的比较落后的方式一直到最新的比较好的方式,大体上可以分为事后维修、预防性的维修和改善性维修这三个方面,当然我们是希望尽量不要有事后尾后,或者尽量减少事后维修的方式,怎么样加大云放性维修和改善性维修的比例,这里就需要风电运行大数据对我们的维护和检修做出一个支持,风电运行大数据在风电运维方面的运用分为三个阶段,首先最为基础的现象上面的利用是对风电的运行数据有一个基本的采集和存储。第二个步骤是要对这些运行数据进行一个状态的监测,通过对它们进行一些初步的梳理统计分析,可以初步触及到数据本质,最终发展故障预警系数,深层挖掘出其中的价值,也就是使用数据挖掘技术,把有效的新颖而且潜在的有很大价值的知识,从一个大数据挖掘出来,并且表现出一个比较浅显的运营模式。我们从数据残酷中提取这些大量的数据进行挖掘和处理,最终实现一个对风电机组运行模式评估,再接入可视化运行接口,来进行诊断。
我们认为就风电运行大数据在风电机组运维这个领域应用上来说,最最重要是以下三大类数据,CMS数据、SCADA数据、和载荷测试数据,当然都离不开检修运维支持,CMS毫秒级数据故障早期辨识和定位上面,SCADA数据蕴含分钟及数据,运行状态评估故障中短期预警,载荷测试数据是全寿命周期监测数据长期性能与寿命预测。基于这几种数据方式我们会形成一个多数据形式的风电机组故障诊断及智能预警技术,最大程度上避免事故的损失。
接下来要介绍的一部分是风电机组的在线监测系统,在线监测和故障诊断是密不可分的两个方面,一方面在线监测是故障诊断的一个基础,另一方面一个好的监测系统是需要包括故障诊断的模块和故障诊断的功能,一般来讲一个故障监测系统从底层到最上层,大致分为硬件层、操作系统层和应用层。
具体到功能上面来说,在线监测系统面向用户种类基本分为现场工作人员和数据分析人员,现场工作人员进行风电机组操作,风电厂、风电机组的实施信息和历史信息的存储和调用,完成对风电厂现场的计划安排我最终实现一个表格打印和总结工作。数据分析人员要额外的进行统计分析和预警分析工作。
我们利用风电机组在线监测系统监测到的数据首先可以对风电机组的故障做出一个初步的预警和判断,其中最简单的是单预测,这个其实SCADA本身就可以完成,下面是对数据的分时分析,也就是说随着风电机组或者是风电厂的运行,随着时间的退役,风电机组的运行参数或者是某些方面的表现,随着时间的变化会有一个降级,比如说这个例子是我们最关心的一个功率曲线和风速的关系,随着时间的增加功率有一个明显的降低,这个时候就要检查风机部件或者是控制系统出现了什么样的故障。三是是进行集群分析方式,对两个参数之间的关系进行监测,如果某一台风电机组出现了明显偏离其他风机的运行状态的话,我们就认为它是有一个故障,这个例子是相轴承温度的报警分析。
以上的这些内容不管是对一个数据趋势的展示,或者是分时统计和集群分析的方式,都是包括在一个状态监测的内容里面,也就是通过测试设备的某些比较单一的参数,来确定当前这个风电机组所处的运行状态,更进一步的如果我们需要对故障诊断或者故障预警的时效性、可靠性、和准确性做出一个要求,我们就需要对数据进行进一步的处理。测取很多的故障信号,对这些信号进行综合利用和特征提取,来预测这台风机将来的运行状态。
我报告的第三部分,风电机组的故障预警技术。不光是风电机组的故障预警技术,任何机械的故障预警和故障诊断技术都是一个多学科的综合的技术,是以信号处理技术、应用力学和物理学的知识为基础,在这个之上可能综合了机械工程、建模基础等等不同类别来对机械的运行参数进行辨识,最终实现故障诊断的工作。
从监测到状态再到诊断,这三者之间的逻辑关系也是比较清晰的,首先我们进行了在线的连续监测之后,可以得到当前的这台机械是属于一个正常还是异常的状态,如果是属于异常的状态它是有什么样的症状或者是表现,它的表现可能会体现在SCADA或者是CMS系统采集到的震动信号、温度或者压力等等这些异常信号上面,并且依据一些逻辑推理,之后我们可以得到这台机械它当前是处于什么样的故障状态,对于故障的诊断也是有着不同的层次,首先可能是一个从无到有的关系,也就是判断它有没有故障,接下来我们可能做一些预测,就是说将来故障会向什么样的方向发展,并且对故障进行定位,这个故障发生在什么样的部件上面,它的类别是属于磨损还是属于腐蚀,还是变形,它的故障程度是暂时的,通过一些重新启动或者是一些小的干预就可以恢复的还是永久的,是要严重到立刻进行处置,还是说我们可以暂时对它做出一个特定的监测。所有的这些诊断的结果都可以对我们的不风电运维检修做出一个指导。
当前在故障预警里面应用比较多的还是训练方式,也就是历史监测数据我们获得之后,可以对这些数据进行分类模型或者数学模型的训练,通过对故障样本的学习,不仅可以得到训练模型,还可以得到故障的概率举证和故障特征举证,或者是得到一个故障预警的预值,所以训练得到的这些内容都可以拿到最新的监测数据里面去,最终可以得到故障预警或者是故障诊断的结果。
就我们应用比较多的SCADA数据,具体来谈一下SCADA数据在风电机组预警方面的流程,SCADA答题可以分为参数量、控制量和状态量的部分,参数量比较重要的都是一些数值量我,控制量和状态量是作为模型建立和辅助参考,或者是对故障特征的一个分类的依据,参数量可能会有非常多的参数,几百条或者是上千条,我们要从中选择出和我们需要研究的故障状态密切相关的参数,在这里有人工选择的相关性分析两种方式。人工选择是依赖于工程师的经验,对和我们需要研究的这些故障有逻辑的参数进行一个选择。模型的输入和输出关系确定之后,我们把能够表示风电机组稳定运行状态的训练数据和代表风电机组未知的需要判断的这样一个状态的测试数据同时进入这个模型中,进行一个模型的应用,最终就可以得到代表风电机组运行特征的特征值,来进行特征的分析。
在这整个流程中,我们认为比较重要的几个步骤做出一个重点的说明,首先是对原始数据的清洗工作,数据清洗是整个大项目一个成败得基础,同时一个大数据项目也可能甚至有70%-80%的时间都是用在数据的清洗上面,由于这个大数据的量非常大,其中难免有各种各样重复、缺失的数据,采集的错误或者是传感器的错误,针对每个项目制定一个清洗的策略和规则,同时对这些异常数据进行重复检测和重复处理,最终才能取得满足我们要求的数据。对于数据清洗的处理上面我这里简单的列了一下,可能有数值化、标准化、参数降维,对数据完整的合理性检测,以及最后对离群的处理,这是主要的几种方法。
在对原始数据进行清洗之后,我们还需要对数据进行其它的预处理工作,这里我列了几个主要的方式,首先是主成份分析工作,也就是说我们之前所选择的那些参数还需要把它进一步降维,在能够保证它们参数之间所蕴含的信息尽量大的被保存的前提下,尽量的降低参数的类型以提高这个模型的运算效率。抽样的方式不是在所有大数据项目中都会运用,这个需要我们在具体项目中考虑所要面对的具体故障种类,以及和这些种类相关的参数性质,一个合理的抽样能够达到一个比较好的结果。聚类是针对风机运行中的某一个特定参数,镇定风机运行的不同的工况来使用一些算子进行的一个对风机运行自动分类过程,合理选择聚类的方式以及聚类的个数,也是在提高运算效率的同时,能够很明显的降低这个模型的误差。
在数据的预处理之后,我们运用对运用数据类别工作,在当前所有文献和应用中,我们应用比较多的大体上有这四个大类的模型,回归模型、支持向量机模型、自回归移动模型、神经网络模型。所以这个类型的模型它比较适合于和其它的模型联合应用,来达到一个比较好的效果,神经网络模型实际在应用中是一个比较均衡的模型,不论是在对大量的数据样本的处理,对复杂系统的计算,还是说它的效率上面表现的都是比较好的,也是我们现在应用的比较多、比较成熟的一种方法。
在实际的模型训练中,我们这个例子是采用了风电厂,神经网络是要高于回归分析,它的均分误差是最小的,很明显的当历史数据采用的训练集的时间越长,它的均方也会越低,但是这个误差降低的趋势是趋缓的,所以我们最终可以找到一个经济性和准确性的数据平衡,我们试验了20秒的数据,一分钟和十分钟平均数据,在一些常见的故障分析和处理中,表现最好的是一分钟的数据,这里主要考虑到计算的效率,但是我们大部分采用的是十分钟的效率进行计算。
模型确定之后根据刚才的流程,我们需要有最新的监测数据进入这个模型里面去,得到一个风电机组运行状态的一个特征值,在很多模型中这个特征值就体现了一个参差的形式,对大量的残差我们进行统计决策的方面,可以得到风电机组故障预警的预值,这个预值可以是简单的单一的预值,也可以是一个随着风电机组变化的预值。
这个是我们利用上面所说的那些风电机组的故障预警技术搭建的风电机组故脏预警和故障诊断的计算平台,是使用实际的历史监测数据进行训练之后,得到一个固定的模型训练的结果,现在如果有新的检测数据进来,我们就可以对主要零部件的一些常见的故障状态进行一个持续的在线的也是时间序列上面的监测,右边的这一列就是时间上面监测的结果。下面这张图片是一个发电机轴承故障的例子,我们是提前20天给出了发电机轴承故障的预警,方便现场做一些备品备件的管理,或者是运维检修的安排。
最终我们是要建立一个风电机组故障预警和故障诊断的一个完整的软硬件平台,包括数据采集、数据存储、数据计算、数据应用等完整的几大模块,我们持续不断地工作,致力于对整个软硬件平台进行不断地改善,一方面是扩展数据的来源,提高数据的准确度,可以把数据存储和数据采集的效率进行一个提高,并且探索数据计算的方法,提高数据计算的速度。接下来可以对模型进行一个模型准确度的提升,最终经过不断地运算,完善风电机组的故障知识库,以达到对风电机组的故障准确的判断。希望经过我们不断地工作和研究,能够为风电机组的运维和管理提供一个支撑,能为整个行业发展贡献一份力量,谢谢大家!