电力工业论文_面向知识图谱构建的设备故障文本
文章摘要:电力设备在运行维护中积累了大量包含重要实体信息的故障文本,然而文本实体边界模糊、术语较多等特点导致传统实体识别方法训练效率低下,效果难以提升。为此,本文提出一种新的实体识别方法I-BRC (integrated algorithm of BERT based BiRNN with CRF)。该方法采用字嵌入模型将文本逐字转化为字向量序列以避免分词处理带来的误差累积;利用循环神经网络与概率图模型对文本的序列特征信息进行抽取;集成多个单一类型实体识别器分别独立学习不同类型实体的特征并采用并行预训练机制提升算法训练效率;最后利用多类型识别器对识别结果进行整合。此外,通过调整单一类型实体识别器可以灵活机动地应对不同电力设备的实体识别任务,避免重复训练,节省计算资源。实验表明,所提出的I-BRC仅需3次迭代就可收敛,训练效率大幅度提升;且该模型的F1值、精确率、召回率分别达到了88.0%、86.8%与89.2%,相比传统模型性能提升了7.5%~29.3%,验证了本文所提模型的有效性与可行性。
文章关键词: