电网技术
    主页 > 期刊导读 >

基于大数据分析的电网流量资源挖掘模型构建

智能电网的发展给电力行业带来全新的发展方向,也带来前所未有的挑战。随着信息化技术快速发展,在电网资源管理要求下,产生大量电网信息。智能电网通过使用先进的信息通信技术,促进电网集成、安全运行[1]。然而,由于我国电网公司根据各个业务种类需求,在不同时期分别具有不同功能,使得数据模型和信息都不一致。海量电网流量资源信息在电力企业范围内难以灵活实现信息共享,难以为智能电网发展提供所需的电网流量资源信息,这一问题已经成为制约电力自动化水平快速提高的瓶颈[2]。

近几年,在电网流量资源基础数据集成方向上,研发了电网流量资源挖掘模型,该模型包含大量电力应用系统中所涉及的信息,迅速成为电力领域中实现数据共享的基础模型。当前对于模型的构建,采用统计学方法,在实际挖掘过程中,容易受到电网损耗影响出现较大误差,导致挖掘结果精准度降低;采用概率方法分析电网流量资源,对智能电网网损波动情况进行分析,虽然该方法能够获取精准网损波动数据,但模型挖掘精准度不够理想,仍然达不到电网所需资源挖掘精准度的要求[3]。为了解决当前模型中存在的问题,构建基于大数据分析的电网流量资源挖掘模型,在大数据背景下分析智能电网网损,提高电网流量资源挖掘精准度。

1 电网流量资源分析

电网流量资源分析主要是对电网历史数据进行多维关联性分析,采用基于关系型存储的多维流量仓库存储方式完成[4]。电网流量资源体系结构如图1所示。

图1 电网流量资源体系结构

电网流量资源库采用SQL Server2005数据库,用于存储大量电网历史数据。通过对电网数据库中的数据进行清洗、整理,提高数据质量。经过概化处理数据,可将连续属性值划分为几个离散区域,减少属性值数量,方便数据挖掘以及结果可视化显示[5-7]。

电网流量资源体系的表结构主要分为两部分,分别是业务数据库和数据仓库,分别如表1和表2所示。

表1 业务数据库名称 数据种类代码序号名称日期出力负荷率峰谷差numeric varchar datetime decimal decimal decimal FPID PN D Max/Min LR S

表2 数据仓库名称序号地区名称用电量火力发电量负荷负荷率代码DOLAPID DName UP FP PL/LL LR数据种类numeric varchar decimal decimal decimal decimal

汇总业务数据库和数据仓库使用表,对相应数据进行多维关联预测,以此对电网流量资源进行预处理[8-10]。

2 电网流量资源预处理

原始电网数据库中的数据存在严重质量问题,比如资源缺失、资源冗余、资源噪声等,会降低电网流量资源挖掘的效率。在保证资源完整的情况下,合理有效预处理资源是提高电网流量资源挖掘效率的基础[11]。

2.1 资源清洗

电网流量资源清洗就是剔除和修补资源中不完整、含有噪声的资源。在原始资源库中,通常使用平均值填充不完整数据,该过程需要采用移动平均法来实现[12]。移动平均法是将某一阶段的资源数据平均值,作为将来某个时期预测值的一种关键性方法,并将该数据作为后期挖掘数据[13]。

移动平均值的计算公式如式(1)所示:

式(1)中,g为移动值;m表示移动长度;n表示移动平均值所使用的总数目。

为了使资源库中所有数据都具有相同属性,需定义其转换规则,并在挖掘前统一格式。由于噪声数据是不符合逻辑的偏差数据,往往影响资源挖掘精准度,因此,采用数据平滑技术消除噪声数据[14]。

2.2 资源转换

资源转换主要包括资源规范化和连续数据离散化,通过压缩原始数据、离散连续数据,减少输入输出。将连续数据性值划分为几个离散区域,并依次从中取值,减少属性值数量,提高数据挖掘效率[15]。

1)不一致资源转换

资源转换过程是为了使不同数据格式得到统一,使其形成统一的转换编码。

2)资源粒度转换

电力系统中通常会存在明细资源数据,而资源仓库中的数据是用作分析的,不需要详细数据就可将数据按照数据库粒度进行聚合处理。

3)规则计算

不同存储资源具有不同的存储规则,这些规则不是简单数学运算就能实现的,需要将这些数据计算好后存储到数据库之中,供后续挖掘分析与使用[16]。

3 基于大数据分析的资源挖掘模型构建

采用非序贯蒙特卡罗模拟抽样方法构建电网网损概率评估模型,具体过程如下所示: