A Survey on Aspect-Based Sentiment Classification

Abstract

Aspect-based sentiment classification (ABSC) - 自动从文本提取高细粒度情感信息

ABSC 分为三类:knowledge-based, machine learning, and hybrid models.

讨论 ABSC 模型性能,和解释, ex: Transformer, hybrid dl models

Introduction

情感分析(Sentiment Analysis)

情感分析的任务是从文本中提取并分析人们对特定实体的情感,通常涉及情感极性(e.g., “positive”, “neutral”, or “negative”)的分类。

情感分析任务的粒度可以用三个独立的特征来描述:情感类型、任务级别和目标。

情感分析可以在多个层次上进行,包括文档层次(document-level)(整个文档的情感)、句子层次(sentence-level)(每个句子的情感)、以及词语、段落或文本块等更细粒度的层次。

可能没有情感目标(target of the sentiment),任务需要为文本本身分配情感分数(sentiment score)或标签(label),也可以是针对特定主题、实体或文本中的方面进行分析,这被称为基于方面的情感分析(Aspect-Based Sentiment Analysis, ABSA)。

ABSA 通过识别文本中的特定方面(如产品的不同特性)来分析相关情感,提供更细致的信息。

意见挖掘(Opinion Mining)

意见指对特定问题的看法。

ABSA 可以在文档层次和句子层次上进行,文档层次关注总体方面的情感,句子层次则逐句处理各个方面的情感。ABSA 的主要任务分为方面提取、情感分类和情感汇总,本文主要集中讨论情感分类步骤,即基于方面的情感分类(ABSC)。

尽管已有多篇关于ABSA的综述,专注于ABSC的综述更能深入评估其模型。当前唯一专注于ABSC的综述集中于深度学习技术,但忽略了一些如Transformer模型等重要技术。为此,本文提出了一个新的ABSC模型分类法,将模型分为基于知识、机器学习和混合模型三类,并系统比较了这些模型的架构和性能,探讨了未来的研究方向。

Input Representation

ABSA定义为每条记录 $R$ 找到的四元组$(y,a,h,t)$,y是情感,a代表情感的目标方面,h是持有者,或表达情感的个体,t代表表达情感的时间。
一条记录 $R$ 代表语料库的一个单独文本片段,短语、句子或大段文本。大多数方法的重点是找到(y, a)——即方面和相应的情感。

e.g.餐厅评论:“气氛很棒,但食物很淡”。这句话包含了两个方面:“气氛”和“食物”。最终目标是使用ABSC模型为这些方面确定情感分类。

在实际应用中,文本和方面不能直接输入分类模型,必须通过预处理将它们转换成数值形式(如特征向量)。这些特征的选择和表示对模型的分类性能至关重要。

输入表示的三大特征

上下文(Context):表示文本中的哪些单词与方面相关,如何定义上下文。

维度(Dimensionality):文本表示的维度取决于模型所需的输入,比如可以是单个特征向量或特征矩阵。

特征类型(Feature Types):包括词袋模型(BoW)、词嵌入等不同特征表示方法。

ABSC模型在进行情感分类前,需要对文本的方面和情感进行预处理和数值表示,而这个表示过程决定了模型的输入质量,从而影响分类结果的准确性。