基于Bert 融合词汇的中文命名实体识别
    点此下载全文
引用本文:宋煜,李可丰.基于Bert 融合词汇的中文命名实体识别[J].上海第二工业大学(中文版),2024,41(2):203-207
摘要点击次数: 683
全文下载次数: 104
作者单位
宋煜 上海第二工业大学计算机与信息工程学院, 上海201209 
李可丰 上海第二工业大学计算机与信息工程学院, 上海201209 
中文摘要:命名实体识别是自然语言处理中一项非常重要的任务, 一句话中可以正确理解其中的实体, 对于是否能正确理解这句话至关重要, 而中文的命名实体识别相比英文更有难度, 原因在于中文没有英文中类似空格的边界标示词, 且存在复杂的嵌套现象。针对现有的中文命名实体识别方法中大多只利用单一层次的特征这一问题, 利用Bert中文预训练集和额外的词汇数据集的融合模型增强词意和中文上下文联系, 采用BiGRU 网络获取序列特征矩阵,通过条件随机场模型生成全局最优序列, 从而提升实体识别准确率。实验结果表明该方法在公开数据集上的效果优于现有模型。
中文关键词:自然语言处理  命名实体识别  字词结合  深度学习
 
Chinese Named Entity Recognition Based on Bert Fusion Vocabulary
Abstract:Named entity recognition is a very important task in natural language processing. It is crucial to correctly understand the entities in a sentence, and Chinese named entity recognition is more difficult than English because Chinese does not have boundary markers like spaces in English, and there is a complex nesting phenomenon. In response to the problem that most existing Chinese named entity recognition methods only use single level features, a fusion model of Bert Chinese pre training set and additional vocabulary dataset is used to enhance word meaning and Chinese context connection. BiGRU network is used to obtain sequence feature matrix, and a conditional random field model is used to generate the global optimal sequence, thereby improving the accuracy of entity recognition. The experimental results show that this method outperforms existing models on public datasets.
keywords:natural language processing  named entity recognition  word combination  deep learning
查看全文  查看/发表评论  下载PDF阅读器
上海第二工业大学学报编辑部 版权所有
地址:中国 上海市 浦东新区金海路2360号 邮编:201209
电话:021-50216814,传真:021-50216005  京ICP备09084417号