信IB与电腐
China Computer&Communication
2021年第5期
基于BERT模型和双通道注意力的短文本情感分析方法
金华涛
爱新觉罗启笛(任子行网络技术股份有限公司,北京100029)
摘要:语篇情绪分析是自然语言处理的热门研究内容之一,已广泛应用在很多领域.因为主题建模能够发现隐含的语义结构,所以很多学者提出了基于主题模型的情感分析模型,虽然都考虑了语篇语境,但是还缺乏对情感语境的考虑和整合.针对情感分析任务和短文的特殊性,本文首先分析了BERT模型的发展历程和研究现状,进而分析了短文本情感分析网络设计,最后结合情感语境提出了基于词汇和主题的情感分类模型,希望能够为相关研究提供借鉴.
关键词:BERT模型;双通道注意力;短文本情感分析
中图分类号:TP183文献标识码:A文章编号:1003-9767(2021)05-041-03
Short Text Sentiment Analysis Method Based on BERT and Dual Channel Attention
JIN Huatao
(Surfilter Network Technology Co.,Ltd.,Beijing100029,China)
Abstract:Discourse sentiment analysis is one of the popular research contents of natural language processing,and it has been widely used in many fields.Because topic modeling can discover the implicit semantic structure,many scholars have proposed emotional analysis models based on topic models.Although they all consider the context of the text,they still lack consideration and integration of the emotional context.Aiming at the particularity of sentiment analysis tasks and short texts,this article first analyzes the development process and research status of the BERT model,and then analyzes the short text sentiment analysis network design,and finally proposes a vocabulary and topic-based sentiment classification model based on sentiment context,hoping to provide reference for related research.
刘思慕扮演上气
Keywords:Bert Model;Two Channel Attention;Short Text Sentiment Analysis
0引言
交互式网络改变了用户和网络之间的关系,用户已经成为内容的重要来源。随着Web2.0的迅速发展,越来越多的人在互联网上表达自己的观点,包含用户意见的短文(如微博、简短评论等)正变得越来越普遍。这些短文不仅能表达作者的情感,也能唤起读者的情感。例如,SemEval-2007中的“情感文本”要求参与者预测读者对新闻标题的看法。
1BERT模型的发展历程和研究现状
1.1发展历程
情绪分析也被称为意见挖掘,是自然语言处理(NLP)中的一个领域,能够自动识别文本的情亀通常分为消极、中性和积极3类2〕。越来越多的用户会在互联网上发布社交媒体和产品评论,已经成为当前研究的重点。对于公司、组织和研究人员来说,了解用户对某个品牌、产品、想法或主题的感受是一个有价值的信息来源,但可能是一项具有挑战性的任务。自然语言往往包含歧义和比喻表达,使得信息提取变得非常复杂。传统的情感分析侧重于对文本中所表达的整体情感进行分类,而不指明情感的内容。识别文本中与特定方面相关的情感是一项更复杂的任务,称为基于方面的情感分析(Aspect-Based Sentiment Analysis,ABSA)。这些语言模型对大量未注释的文本进行了预先训练,使用这些语言模型可以降低对标记数据的要求,并且训练速度更快。BERT的模型结构如图1所示,ELMo的模型结构如图2所示。
(T'1"[-][K]
%
图1BERT的模型结构
作者简介:金华涛(1990—),男,河南信阳人,硕士研究生在读。研究方向:信息资源管理。
信is 与电ifi
China  Computer  & Communication
算倣语咅
2021年第5期
T,
1.2研究现状
近年来,情感分类的相关研究成果越来越多。该分类模
型以情感词汇为基础,利用情感词汇中的词汇情感来判断句
子的过度情感[6'7]o 有学者通过结合主题关键词的个体情感, 为给定的句子分配一个情感类别,并从句子结构中提取新闻
主题,将语法规则和拼写风格(词汇除外)结合起来,以识 别情绪和情绪强度。但是“情感”这个词通常会随着语境的 不同而改变冏。对于不同的领域分类任务,静态情感词典过
于笼统。此外,社交媒体上的简短文本更加灵活,可以采用 机器学习方法进行分析。
在社交媒体领域,监督模型和非监督模型都得到了广泛 应用。赵晓铮是第一位使用监督模型对情绪进行分类的研究人
员,同时还比较了朴素贝叶斯(NB )、最大爛模型(ME )和
支持向量机分类(SVM )的有效性叫 另外,本研究还证明 了情感分类比一般的分类任务更加困难。为了提高情感分类任
务的有效性,研究者尝试在监督模型中加入不同的特征。然而, 监督分类需要大量标记数据,由于获取标记数据的成本较高,
而且容易获取非标记数据,研究人员采用半监督或非监督的方 法对情感进行分类,以减少对标记数据的依赖,如标记传播、 协同训练、主动学习和交互式学习等。针对单一的社会网络,
链接关系可分为正链接和负链接两种情感链接。他们将明确 的情绪信号以文本的形式表达出来,并将来自单个社交网络
的情绪信号编译成一个连贯的模型,用于无监督的情绪分析。 实验验证了该方法的有效性,但在实际网络中,大多数网络是 无符号的,这给实际应用带来了困难。
2短文本情感分析网络设计也只是怕错过 什么歌
2.1网络设计
为了更好地解决中文短文本在实体消歧中的困难,本文 提出了一种结合两种模型的双通道混合网络模型,首先从外 部知识库中获取候选实体集,然后将提及的文本和候选实体
集逐一拼接,使其拥有足够的上下文信息,最后利用胶囊网 络获取BERT 产生的语义特征[1°-16]0该方法利用实体的唯一 标识同时生成分类标签,并将训练好的特征作为最大池和均
值池CNN 模型的输入。对上述学习语义知识进行组合,通 过完全连接层完成分类。
首先,本文将样本分成一个符合分类模型特征的单词列
表。在这里,本文使用NLTK 包中的tokenize 函数来切割样
turbosun微博
本(在中文数据集中使用了 jiba 包),同时,词干提取也是 必不可少的。在分词的基础上,本文去除了一些低频和高频 词,这些词对特征的贡献很小。在过滤词之后,使用剩余的
词建立模型。本文用矩X 表示样本词矩阵,行定义为单个样 本,列表示词表示,例如,表示i -也样本的班词,如果
X j =\ ,表示i-th 样本有词-Wj,否则i-th 样本不包括词Wj 。在 建立模型的过程中,不同的参数会导致不同的分类结果,因 此设置适当的参数值非常重要,而且最佳参数会因数据集的
不同而不同,本文设置a=1.0和0=0.4,将产生最好的结果。
2.2网络分析结果分析
在实验中,本文使用5个数据集来验证模型的有效性,
包括3个英文数据集和2个中文数据集本文。英语数据集包 括康奈尔大学收集的电影评论和2016年美国大选的评论。这 些评论来自Facebook ,与2016年的美国候选人希拉里-克林
顿和唐纳德•特朗普有关,笔者从中随机抽取了 1000个正面 评论和1000个负面评论。本文中的数据集来自COAE2013
年会议的情感分类数据集和酒店评论集合,这些评论是随机 选择的。笔者共收集了 1000个阳性样本和1000个阴性样本。
笔者将本文提出的方法与基线方法进行对比分析。基线 方法包括DT  (决策树)、SVM  (支持向量机)和LR  (Logit
模型)。本文提出的方法被称为CR-LR,在实验过程中使用
5-flod 交叉验证进行分析。此外,本文使用卡方检验法进行
特征选择,特征维数为300,可以得到更好的结果。从结果
可以看出,本文提出的方法在每个数据集上都有最好的表现, 明显优于基线方法。这可能是由于选举数据集包含了选举期
间产生的新词,用户习惯用一些变体来表达他们的感情,所 以评论在语法和句子结构上更加灵活。为了计算这些词的语 境知识,可以更深入地挖掘评论的语义,从而为模型提供更 多的信息。
3结语
随着互联网的快速发展,越来越多的人喜欢在互联网上 发表自己的观点。近年来,用户的表达方式及其对社会产生 的影响越来越受到关注。一般来说,用户在社交媒体上发表 的言论有两个重要特征:第一,由于社会媒体平台的限制,
这些表达往往很短;第二,由于互联网具有开放性,人们可
以更真实地表达自己的真实情感。因此,短文本交际模式能 够反映了用户的真实情感和观点。本文提出了情感语境的概
念和提取方法,并结合情感语境提出了两种短文本情感分类 模型。实验结果表明,情感语境有助于提高情感分类的性能。
参考文献
[1]谢润忠,李烬.基于BERT 和双通道注意力的文本情感分
类模型[J].数据采集与处理,2020,35(4):642-652.
信IB与电腐
China Computer&Communication 2021年第5期
[2]孙雪峰.面向中文产品评论的情感分析研究[D].重庆:西
南大学,2020.
⑶刘广峰.基于深度学习的关联目标方面级情感分析研
究[D].重庆:重庆理工大学,2020.
[4]郑荐中.基于BERT的微博文本情感引导[D],成都:西华
大学,2020.
[5]王旭.网络媒体的用户兴趣识别方法研究[D].成都:电子
科技大学,2020.
白狐简谱[6]任咪咪.金融社交网络中用户的情感分类和影响力研
究[D],杭州:浙江工商大学,2019.
[7]刘程波•基于实体识别和情感分析的商品评论主体观点挖
掘[D],上海:东华大学,2020.
[8]彭子军.社交网络热点话题情感分析系统的设计与实
现[D].哈尔滨:哈尔滨工业大学,2019.
[9]赵晓铮.基于Attention机制的短文本情感分类方法研
究[D].北京:北京工业大学,2019.
[10]王玮玮.基于深度学习的财经新闻情感分类方法研究[D],
厦门:厦门大学,2019.
[11]许宋烁,张梓光,张小芳,等.基于BERT和方面注意力的
方面情感分析方法[J].无线互联科技,2020,188(16):159-160,16&
[12]刘文秀,李艳梅,罗建,等.基于BERT与BiLSTM的
中文短文本情感分析[J].太原师范学院学报(自然科学版),2020,74(4):56-62.
[13]李宁健,方睿.融合BERT多层特征的方面级情感分析[J],
计算机科学与应用,2020,10(12):12.
[14]李妍慧,郑超美,王炜立,等.一种混合语种文本的多
维度多情感分析方法[J].计算机工程,2020,521(12):119-125.
[15]蔡国永,林强,任凯琪.基于域对抗网络和BERT的跨
领域文本情感分析[J].山东大学学报(工学版),2020, 50(1):67.
[16]陈佳伟,韩芳,王直杰.基于自注意力门控图卷积网络的
特定目标情感分析[J].计算机应用,2020,360(8):38-42.
wolf exo mv