邓莎莎:让计算机更懂网络发言，当人工智能遇见语言学

发布者：陈英发布时间：2018-11-08浏览次数：1962

移动互联网和大数据技术的普及，改变了人们的日常和工作交流方式，每个人都成为了网络信息的发布者和传播者。因此，网络上的文本数据实际上可以视为“人”作为一个主观、智能的“传感器”所产生的数据，包含了人对这个世界观察、消化后产生的看法和观点。因此，文本数据的分析可以很好的挖掘人对某个事物的观点以及其背后的行为。

就目前而言，文本数据分析应用的最大挑战是：如何利用现有并不完善的自然语言处理技术（包括：信息技术、机器学习、数据化技术），为企业和社会产生并创造价值。图1给出了文本分析技术成熟度与上商业价值的关系。相对于主题分析和情感分析等这些面向一般文本分析技术，言语行为与交互、用户建模以及新兴的用户实例给企业带来了更多的商业价值。意义构建挖掘网络发言彼此之间关系和发言背后行为意图，能够有效地支持企业最大化挖掘社交媒体的商业价值。

图1 文本分析能力成熟度与商业价值关系

当人工智能遇见语言学

从意义构建的观点来看，在线发言是一系列与他人交互的沟通行为，人们对他人发言内容的理解实际上是外界研讨语境和内在知识意义构建的过程。然而，网络发言文本中存在发言之间结构紊乱以及发言者真实意图获取困难，这使得意义构建过程变得更加的困难。因此，提高网络发言文本的连贯性以及更好的理解发言者发言的真实目的行为对于理解研讨语境和意图以及促进研讨的意义构建都是至关重要的(Te'eni 2006)。

从应用语言学角度来说，语言最重要的三个方面是语义、语法和实用性(Winograd et al. 1986)。之前支持CMC（Computer-mediated Communication）文本内容分析工具大多强调语言的语义分析，尤其主题分析和文本情感分析。这些研究主要解决 “人们说了什么”的问题(Abbasi et al. 2008a)。与之不同的是，言语行为视角则是关注于语言的实用性，它不仅想了解“人们说了什么”，更主要的是想知道“人们说这句话其实是想干什么”(Winograd et al. 1986)。言语行为理论认为人们说话的目的是为实施某种行为，在这其中，语言本身只是人类行为的一部分。在人与人之间的相互交流和沟通方面，语言一个非常重要的作用是提高意义构建(Kuo et al. 2011; Lyytinen 1985)。

让计算机更懂网络发言

已有的文本数据分析方法大多关注于对语言语义维度的分析，而语言行为视角（Language-Action Perspective, LAP）则是强调语言实用性，即不仅研究人们说了什么，更主要的是在语言背后人们是要做什么。

本研究提出了基于LAP的在线研讨文本分析框架（如图2所示）。该框架涵盖了三个适用于文本分析的模块（1）会话主题拆解；（2）连贯性分析；（3）言语行为分类。通过这三个模块有机地组合，最终将线性结构的线研讨文本转换为一棵言语行为树（Speech Act Trees, SATrees）。SATrees是一个可以提供发言之间回复关系描述和言语行为标注的树形结构，并且可以有效地提高研讨群体的意义构建能力。

图2 基于LAP的文本分析框架

实验验证与企业实践

根据言语行为相关理论指导，本研究提出了文本拆解算法、连贯性分析算法以及言语行为分类算法。与其他现有各个算法的比较实验显示，本研究提出的算法明显优于基准算法。

优于系统性能并不总是与用户感受关联在一起，尤其是对于复杂任务，这种关联并不是绝对的(Turpin et al. 2006)。因此，研究设计了用户实验用以评估由系统产生的SATrees辅助用户完成意义构建任务的效果。根据意义构建的实用主义理论以及实验语料内容，研究设计了测量用户意义构建的开放型问题。结果证实的那样，相对于其他基准方法，LTAS系统使得用户更加容易并且方便地完成意义构建任务，它能够辅助人们能好地理解群体研讨中内在的行为、情景行为和符号行为。

最后，该系统在企业做了4个月的现场试验。从用户感知，系统使用、分析有效产出以及企业量化价值四个方面进行测量，实验结果表明，该系统比企业的当前使用现有系统更为用户接受，并能获得更高的效益。