什么是情感分析?

情感分析的定义

情感分析会应用 NLP、计算机语言学和 Machine Learning 来识别数字文本的情绪基调。这能够让组织确定针对其品牌、产品、服务或理念的积极、中立或消极情感。最终,它会支持企业更好地理解自身客户,进而向企业给出行之有效的见解。

情感分析的一个例子是,流媒体平台可以通过对社交媒体帖子进行文本分析来确定剧集的热门程度。针对这个例子,情感分析能够帮助流媒体平台了解公众对内容持有积极、中立还是消极的情感。情感分析的结果能够为平台提供行之有效的见解:取消剧集、续拍剧集,或者做出不同的选角决策和/或创意人员招聘决策。

情感分析与自然语言处理 (NLP) 的区别
情感分析是自然语言处理的一个子类,也就是说它仅仅是 NLP 完成的很多任务中的一项。自然语言处理让计算机能够理解人类的书面或口头语言。NLP 任务包括命名实体识别、回答问题、文本摘要、语言识别以及自然语言生成。

情感分析与 Machine Learning (ML) 的区别
情感分析会利用 Machine Learning 对任何给定文本开展分析。Machine Learning 会使用算法。这些算法可基于所提供的训练数据进行“学习”。通过使用 Machine Learning,情感分析在不断进步,能够更好地解读其分析的语言。

情感分析与人工智能 (AI) 的区别
不能将情感分析和人工智能弄混。AI 的含义更广泛,指的是机器模仿人类学习和解决问题能力的能力。Machine Learning 是 AI 的一个子领域,所以 Machine Learning 情感分析也是 AI 的一个子领域。尽管三者相互关联,但并不相同。

情感分析与数据挖掘的区别
情感分析是数据挖掘的一种形式,专注于挖掘文本数据以进行分析。数据挖掘的意思很简单,指的就是提取和分析大型数据集以发现多种类型的信息和模式。

情感分析的类型

有多种不同类型的情感分析,无论是基于规则的分析,使用 Machine Learning 完成的分析,还是混合分析。这些类型包括:

  • 细粒度分析
  • 基于方面的分析
  • 情绪检测
  • 基于意向的分析

细粒度情感分析,又称作分级情感分析,允许企业研究客户在评价中给出的评级。细粒度分析还会将极性细化成十分积极、积极、中立、消极和非常消极五个类别。所以,举个例子来说明,1 星评价会被视作非常消极,3 星评价是中立,5 星评价是十分积极。

基于方面的情感分析,又称作 ABSA,专注于针对服务或产品某个单一方面的情感。例如,一家技术公司推出了一系列新无线耳机。需要予以考虑的一些方面可能是连接性、设计美观性和音质。通过所请求的分析分类,基于方面的分析能够让企业了解客户对其产品或服务的特定部分感觉如何。“这副耳机真性感”表示这是针对耳机美学设计的情感。“我喜欢它的外观,但音量控制是个问题”可能警示存在实际设计缺陷。

情绪检测情感分析不再局限于极性检测,而是将客户感觉划分为高兴、伤心或愤怒。这类分析会使用词典来评估主观语言。诸如糟糕和丢人等词汇表示愤怒。悲催和崩溃表示悲伤。兴奋或炫酷表示高兴。当然,词典不会考虑上下文,而且人们会以不同方式表达情绪。想一下这个例子:

“呆住”和“沮丧”表示负面情绪,而“慷慨”则表示积极情绪。这样的情感比较微妙,所以很难对情绪进行分类。

基于意向的分析让企业得以确定客户的意向和兴趣水平。不同的意向类型包括购买、升级、降级、取消或退订。基于意向的分析要求使用相关文本(例如客户电邮或查询)进行分类训练。例如,“我没有存储空间了,应该怎么做?”就可归类为升级机会。“我不喜欢收到的样本,我不想继续购买眼线膏了”传达的意向则可被归类为取消,但也警示企业存在服务改善机会。这种分析能够帮助企业管理和维护他们的客户群并最大程度扩大销售机会。

如何应用情感分析

如要完成情感分析,您需要:

  1. 对文本进行预处理,包括切分句子、将单词还原到原形,以及删除停用词。
  2. 提取特征,包括将还原后的词元转换为数字表示,或者生成嵌入。
  3. 向您的数据应用情感分类器。

可以通过三种方法来开展情感分析:

  • 基于规则
  • Machine Learning
  • 混合

基于规则的情感分析会使用手动编写的算法(或规则)来评估语言。这些规则会使用计算机语言学方法,例如词汇切分、词形还原、词干提取和词性标注。还可能包括使用词典(词库)。

这种分析会解析句子中的具体词汇,并评估它们的极性和主观性,以确定情感和意向。一旦将极性(积极、消极)分配给了词汇,基于规则的方法就会数给定文本中出现了多少个消极或积极词汇,以确定整体情感。

明显劣势是这一体系需要完成大量工作来创建所有规则。而且,这些规则不会考虑单词在句子中的使用方式(即词汇的上下文)。尽管可以编写新规则以应对复杂性,但这会影响分析的整体复杂性。要让这种方法保持结果准确,团队需要定期进行评估和微调。

Machine Learning 情感分析是基于规则的情感分析的自动化版本,会依赖于 Machine Learning (ML) 功能。这一模型要求向 ML 情感分析工具提供训练数据,以便它能学习哪个单词对应哪个极性。常见的训练数据示例包括电影评价、Amazon 产品评价或者具有 Yelp 评级的商业场所。Hugging Face(一个 AI 社区)提供可帮助构建和训练情感分析工具的库、数据集和模型。

Machine Learning 情感分析工具训练完毕后,就需要进行特征提取和分类流程了。为了生成结果,Machine Learning 情感分析方法将会依赖不同的分类方法,例如深度学习、朴素贝叶斯、线性回归或者支持向量机。

混合情感分析结合了基于规则的情感分析方法和 Machine Learning 情感分析方法。针对公司或用户的具体需求进行微调后,这种方法可能是最准确的工具。这种方法尤其适用于情感很微妙的场景,例如企业对企业 (B2B) 通信,因为在这种场景下负面情绪会以更加专业的方式表达出来。

情感分析的用例

情感分析通过确定下列方面为企业提供行之有效的见解:

  • 所用语言的极性(它是积极、中立还是消极?)
  • 客户回答的情绪基调(他们是愤怒、高兴还是伤心?)
  • 语气是否紧急
  • 消费者的意向或兴趣水平如何

作为自动化意见挖掘工具,情感分析能够满足多个业务目的。

评价
通过使用情感分析工具,企业能够收集和分析来自社交媒体平台、博客文章以及众多讨论或评价论坛的意见、评价和提及。这是很宝贵的信息,能够帮助企业评估其品牌的认知度。

发现积极情感能够帮助公司明确应该继续做什么,而负面情感则能帮助公司确定应该停止哪些做法并开始哪些做法。在这一用例中,情感分析是营销和品牌推广团队的实用工具。基于通过分析得出的洞察,团队可以调整策略来保持并提升品牌认知度和声誉。

社交媒体监测
客户有关产品或服务的反馈可能会出现在互联网上的很多地方。手动并单独收集和分析这些评价的话,效率十分低下。

情感分析工具能够立即检测到任何提及并马上向客户服务团队发送告警。这让公司能够跟踪客户态度,进而更有效地管理其客户的体验。情感分析工具还可用于监测。作为品牌认知度监测的延伸,情感分析是一个宝贵的危机预防工具。这让团队能够仔细监测软件更新和新品发布是否有任何问题,并在出现任何问题时缩短响应时间。

市场趋势
开展市场研究时情感分析是一个很实用的工具,因为它让组织得以对整个市场、利基市场和具体产品/服务进行广泛审视,获得有关态度的洞察,从而更好地评估客户需求和期望。

情感分析的常见挑战

语言是一种复杂、不完美而且不断发展的人类沟通工具。由于情感分析依靠的是语言解读,所以它本质上就具有挑战性。

企业对企业评价
理解竞争对手的评价是情感分析所面临的一个挑战。如果公司设定规则将关于企业的描述情感的特定语言确定为积极,那么用来描述竞争对手的同样语言也会被视为是积极的。例如:

[您所在公司]发货速度真快,我真的好喜欢。
在[您的竞争对手]购物时,我能够设置收货窗口期,我真的好喜欢。

这两条陈述都是积极的,但是除非经过训练将有关竞争对手的积极陈述看作消极陈述,否则情感分析工具不会区分这家公司和它的竞争对手。

嘲笑、反讽和上下文
察觉并理解面对面交流时的嘲笑和反讽是个难题,这个难题也扩展到了情感分析。反讽会使用积极的词汇来描述消极的感觉,问题是通常没有文本方面的线索来让机器将真诚与反讽/嘲笑区分开。例如,回答问题“你喜欢有果肉的橙汁吗?”时,“天啊,肯定的”就有两种解读,如果说话人发自真心,这就是积极的;如果说话人是反讽,那这就是消极的。

上下文也会歪曲情感。考虑这两个回复:

“只有一点点。”
“很大程度上。”

如果这些评论针对的问题是“您有多大可能推荐这种产品?”,那第一个回复就是消极的,第二个就是积极的。然而,如果问题是“价格调整在多大程度上让您感到心烦?”,那极性就调换过来了。

文化差异
特定文化的语言使用方法是情感分析所面临的主要挑战之一。想一下不同文化对待幽默的态度差别有多大。即使都使用英语,方言差异也让区分意思变得十分复杂。例如:

“Pants”在美式英语中指裤子。但在英式英语中,“pants”则指内裤。

这样的差异会影响分析准确性。不同文化所使用的俗语也不同。如何分析俗语也是一个巨大挑战。

主观性
语言具有主观性是情感分析所面临的主要挑战之一。这使得将陈述分类为整齐划一的类别、方面或极性的过程变得很复杂。想一下这个例子:

“这个手机真棒”很明显透露出积极情感。
“这个手机很小”就比较难以分类。取决于说话人对尺寸的喜好,这可能是积极、中立或消极的陈述。

由于上下文不同、使用嘲笑或反讽,或者存在其他的语言特异性,特定词汇的意思具有主观性。

情感分析的优点

情感分析能让用户受益,为他们提供行之有效的见解。作为一个工具,它有多重优势:

能够实时针对客户情绪提供可行见解
情感分析能够预防客户不满意和客户流失,甚至能够找出愿意充当您产品/服务的倡导者的客户。此工具能够分析调查和客户服务互动,找出哪些客户是推荐者或倡导者。与之相反,情感分析还可以帮助找出不满意的客户,这些客户有关产品和服务的回复能够提供宝贵洞察,让您找出改进领域。

大规模挖掘文本以掌握客户情绪
情感分析工具可提供实时分析,这对于管理和预防危机是不可或缺的。在出现问题时收到告警,并在危机酝酿期就提前采取行动。作为一个意见挖掘工具,情感分析也为公关团队提供了宝贵洞察,以便他们制定策略并管理持续的危机。

改善客户服务
情感分析工具会同时从诸多来源收集广泛的数据集,包括:电子邮件、推文、评论、调查问卷、民意调查和评价。文本分析工具有助于更好地管理客户服务运营、确定问询的优先级并自动跟踪不良互动,因为它可为经理赋能,让他们对与难处理客户打交道的客户服务专责人员进行培训。

情感分析常见方法

有多种情感分析方法。您可以自行构建,购买云服务提供商的附加产品,或者投资购买即时可用的情感分析工具。市面上有很多软件即服务 (SaaS) 情感分析工具,而且您还可以使用诸如 Python 或 Java 等开源库自行构建工具。此外,云服务提供商也提供他们自己的 AI 套件。

构建自有情感模型
您可以使用 NLP 库(例如 spaCy 或 NLTK)构建自有情感模型。如果您在这一领域拥有雄心壮志,甚至可以从零开始进行构建!如果使用 Python 或 Javascript 进行情感分析,您会获得更多自定义控制功能。尽管自定义的优势很明显,但是在进行决策时,您也应该将构建自有工具所需的成本和精力考虑进去。

使用一站式情感分析工具
您还可以购买解决方案,例如标准云服务提供商提供的 SaaS 产品。这包括 Amazon 的 Comprehend、Google 的 AI 和 Machine Learning 产品,或 Azure 的 Cognitive Services。SaaS 情感分析工具的优势是部署速度非常快,而且通常成本只有自定义构建工具的几分之一。训练工具的流程特别精简,不需要配备整个工程师和专员团队进行设置。

集成第三方情感分析
借助第三方解决方案,例如 Elastic,您可以将自有或面向公众开放的情感模型上传到 Elastic 平台。然后您可以实施应用程序,来分析存储在 Elastic 中的文本数据的情感。

云服务提供商的 AI 套件
云服务提供商还可以将情感分析工具包含在其 AI 套件中。您的选择包括 Google 的 AI 和 Machine Learning 产品,或者 Azure 的 Cognitive Services。

随着 AI 技术在不断学习和进步,情感分析方法也在持续发展。成功的情感分析方法要求持续对训练模型进行调整,或者对所购软件进行频繁更新。

使用 Elastic 开始进行情感分析

借助 Elastic 启动您的情感分析工具,以便您能自行完成意见挖掘并获得所需的行之有效的见解。

情感分析术语表

算法:计算机遵循的一个流程或一套规则。

人工智能:机器和计算机系统模拟人类智能。

计算机语言学:语言学的一个分支,会使用计算机科学理论来分析并合成语言和对话。

共指消解:识别文本中属于某个命名实体的所有单词的过程。

词形还原:将同一单词的不同变体分组到一起的过程。

词典:一种语言的词汇表单词清单。

Machine Learning:人工智能的一个子领域,通过使用数据和算法让计算机无需提示便能学习。

命名实体识别:将单词识别为专有名词或实体的过程。

自然语言处理:计算机科学的一个分支,作为人工智能的一个子领域,关注如何帮助计算机系统理解人类语言。

词性标注:为文本中的词汇添加标注,将其分类到它所属的词性(例如,苹果 = 名词;缓慢地 = 副词;闭合的 = 形容词)。

词干提取:将单词还原到其词干(或词根)形式的过程。

词汇切分:将一段文本切分成更小单位(称做词元)的过程。

词义消歧:根据词汇在上下文中的使用确定词汇意义的过程。