基于大数据分析的电网流量资源挖掘模型构建

来源：电网技术 【在线投稿】栏目：期刊导读时间：2021-01-25

智能电网的发展给电力行业带来全新的发展方向，也带来前所未有的挑战。随着信息化技术快速发展，在电网资源管理要求下，产生大量电网信息。智能电网通过使用先进的信息通信技术，促进电网集成、安全运行[1]。然而，由于我国电网公司根据各个业务种类需求，在不同时期分别具有不同功能，使得数据模型和信息都不一致。海量电网流量资源信息在电力企业范围内难以灵活实现信息共享，难以为智能电网发展提供所需的电网流量资源信息，这一问题已经成为制约电力自动化水平快速提高的瓶颈[2]。

近几年，在电网流量资源基础数据集成方向上，研发了电网流量资源挖掘模型，该模型包含大量电力应用系统中所涉及的信息，迅速成为电力领域中实现数据共享的基础模型。当前对于模型的构建，采用统计学方法，在实际挖掘过程中，容易受到电网损耗影响出现较大误差，导致挖掘结果精准度降低；采用概率方法分析电网流量资源，对智能电网网损波动情况进行分析，虽然该方法能够获取精准网损波动数据，但模型挖掘精准度不够理想，仍然达不到电网所需资源挖掘精准度的要求[3]。为了解决当前模型中存在的问题，构建基于大数据分析的电网流量资源挖掘模型，在大数据背景下分析智能电网网损，提高电网流量资源挖掘精准度。

1 电网流量资源分析

电网流量资源分析主要是对电网历史数据进行多维关联性分析，采用基于关系型存储的多维流量仓库存储方式完成[4]。电网流量资源体系结构如图1所示。

图1 电网流量资源体系结构

电网流量资源库采用SQL Server2005数据库，用于存储大量电网历史数据。通过对电网数据库中的数据进行清洗、整理，提高数据质量。经过概化处理数据，可将连续属性值划分为几个离散区域，减少属性值数量，方便数据挖掘以及结果可视化显示[5-7]。

电网流量资源体系的表结构主要分为两部分，分别是业务数据库和数据仓库，分别如表1和表2所示。

表1 业务数据库名称数据种类代码序号名称日期出力负荷率峰谷差numeric varchar datetime decimal decimal decimal FPID PN D Max/Min LR S

表2 数据仓库名称序号地区名称用电量火力发电量负荷负荷率代码DOLAPID DName UP FP PL/LL LR数据种类numeric varchar decimal decimal decimal decimal

汇总业务数据库和数据仓库使用表，对相应数据进行多维关联预测，以此对电网流量资源进行预处理[8-10]。

2 电网流量资源预处理

原始电网数据库中的数据存在严重质量问题，比如资源缺失、资源冗余、资源噪声等，会降低电网流量资源挖掘的效率。在保证资源完整的情况下，合理有效预处理资源是提高电网流量资源挖掘效率的基础[11]。

2.1 资源清洗

电网流量资源清洗就是剔除和修补资源中不完整、含有噪声的资源。在原始资源库中，通常使用平均值填充不完整数据，该过程需要采用移动平均法来实现[12]。移动平均法是将某一阶段的资源数据平均值，作为将来某个时期预测值的一种关键性方法，并将该数据作为后期挖掘数据[13]。

移动平均值的计算公式如式（1）所示：

式（1）中，g为移动值；m表示移动长度；n表示移动平均值所使用的总数目。

为了使资源库中所有数据都具有相同属性，需定义其转换规则，并在挖掘前统一格式。由于噪声数据是不符合逻辑的偏差数据，往往影响资源挖掘精准度，因此，采用数据平滑技术消除噪声数据[14]。

2.2 资源转换

资源转换主要包括资源规范化和连续数据离散化，通过压缩原始数据、离散连续数据，减少输入输出。将连续数据性值划分为几个离散区域，并依次从中取值，减少属性值数量，提高数据挖掘效率[15]。

1）不一致资源转换

资源转换过程是为了使不同数据格式得到统一，使其形成统一的转换编码。

2）资源粒度转换

电力系统中通常会存在明细资源数据，而资源仓库中的数据是用作分析的，不需要详细数据就可将数据按照数据库粒度进行聚合处理。

3）规则计算

不同存储资源具有不同的存储规则，这些规则不是简单数学运算就能实现的，需要将这些数据计算好后存储到数据库之中，供后续挖掘分析与使用[16]。

3 基于大数据分析的资源挖掘模型构建

采用非序贯蒙特卡罗模拟抽样方法构建电网网损概率评估模型，具体过程如下所示：