企业怎样通过文本分析与NLP获取洞见？-妙盈研究院

企业怎样通过文本分析与NLP获取洞见？

在本文中，我们采访到了Lexalytics的首席执行官Jeff Caitlin，与我们探讨了如何将NLP应用到不同行业进行情绪分析与预测。

Jeff Caitlin2019-07-22

请简单介绍一下Lexalytics以及公司的发展历程

Lexalytics在人工智能驱动的文本分析和NLP领域已经有超过15年的历史。每天，我们为全球的数据分析公司和企业数据分析师团队处理数十亿份文档。公司成立于2003年，我们在2004年推出了世界上第一个商业情绪分析引擎，在2010年推出了世界上第一个用于Twitter /微博的文本分析工具，于2011年推出了世界上第一个基于维基百科的语义理解工具，并于2014年推出了世界上第一个，用于语法分析的无监督机器学习模型。目前，我们能够以20多种语言分析文本，并为包括制药，酒店，航空公司和电子商务在内的多个行业开发了特定行业的软件。我们不断推动创新，为客户创造价值。

除了上述专业服务外，Lexalytics还于2017年1月与马萨诸塞州阿默斯特大学数据科学中心和西北大学媒体和整合营销传播学院合作推出了Magic Machines AI Labs计划，以推动人工智能以及机器学习的创新。

为什么进行文本数据的分析以及进行大量文本分析背后的具体挑战是什么？

文本数据在任何组织中无处不在：电子邮件，员工调查，申请人简历，合同，社交媒体内容，客户评论等等。有了这么多的内容要处理，除非利用机器，否则就需要雇用大量的人力来处理和分析这些程序。但是，如果不分析这些内容，企业就不知道客户的想法，员工的感受，产品在市场中的表现如何等等。这就是文本分析对组织如此重要的原因。

分析文本的最大挑战是准确理解数据中的基本见解。 “自然语言”文本文档（如推文或Facebook评论）可能包含含糊不清，俚语，拼写错误和语法，语义和语法不一致的情况，也会有一些行业专用术语或讽刺等等机器难以理解的情况。许多文本分析系统需要大型、昂贵的数据集和复杂的机器学习技术来正确分类和标记数据，以及不断调整以跟上一些随着时间发生的语言变化。

您如何确保文本分析的可靠性和准确性？一个好的NLP引擎背后需要以什么为支撑？

在NLP中非常需要精确度的领域是命名实体提取（NER），即系统自动提取专有名词（人，地点，产品，公司，职称，工作等）。情感分析——确定一段内容是否为正，消极或中立 - 也要求高精度。 Lexalytics系统预先安装了实体列表和预先培训的机器学习模型，以便客户随时开始自动检测相关实体，包括人员，地点，日期，公司，产品，工作和职称等。利用Lexalytics机器学习模型，客户可以发现刚进入市场的新竞争者，跟踪竞争对手和客户的发言人活动，并在发布时抓住新产品。客户还可以自己建立自定义实体列表以进行跟踪。如木材的削减，癌症的类型，立体模型的变体等- 企业认为是“实体“的任何东西 - 都可以被识别和标记。

在评估给定文本文档的情绪（正面，负面，中立）时，研究表明人类分析师倾向于同意其中80-85％。这就是所谓的评估者之间的协议。这一80-85％的分数是Lexalytics在培训情绪评分系统时试图达到或超过的标准，不过这具体取决于具体的客户问题。通常情况下，总会有一些文本文档甚至两个人都无法达成一致。例如，如果有人说“我们正在转向DirecTV”，对于DirecTV来说，这是一个正得分的文本，但对与竞争对手来说，可能就是负面了。因此具体语境是关键。 Lexalytics目前已经达到了开箱即用具有接近峰值的精度，但根据使用情况，可能需要进行一些额外的调整以满足客户的目标。

Lexalytics提到了通过文本分析进行预测，这是如何实现的？可以量化吗？

从历史上看，文本挖掘一直是一个追溯过程：分析文本以查看过去已经表达过的内容。 Lexalytics可以根据他们所说的内容帮助预测客户的行为。通过意图提取，我们可以确定客户和审阅者的表达意图，即，是否会购买、退出、出售或推荐产品。

假设在您的客户评论中，一群客户发布：“我昨天买了新笔记本电脑，但我不喜欢它，一直在崩溃，我认为这是一个硬件问题，我明天就去退货。”普通文本分析将很容易提取基本信息，包括情绪是”负面的“，对象是”笔记本电脑“，并归类为类似”配置错误“。 Lexalytics可以通过对客户购买笔记本电脑，但打算“退回”进行进一步分析。我们就会发现，由于程序崩溃，他们将失去一个客户。通过这种观察，客户就可以挖掘问题到根源并以新的方式分析他们的数据。

意图分析也很有意思，因为它们可以直接用于开发新的收入流，寻找潜在客户，保护当前的收入流（通过快速识别潜在的客户流失），或者社交媒体支持请求以及许多其他可能性。

在分析意图时，Lexalytics NLP引擎与传统方法有何不同？

其他文本挖掘系统使用简单的关键字分析来找出意图 - 诸如“购买”之类的单词。 Lexalytics专有的Syntax Matrix™能够让我们了解句子的结构并识别意图，不受限于关键字列表。更重要的是，我们提取客户在该意图上做出业务决策所需的所有上下文信息，以便他们可以立即计划并采取行动。

回到上面的笔记本电脑评论示例，一个普通的文本分析系统将提取基本信息，如情绪（负面）和对象/实体（“笔记本电脑”），并将内容分类为一个类别喜欢“错误”。 Lexalytics的意图提取通过揭示客户购买笔记本电脑进一步分析，但现在打算退货。其他文本挖掘系统仅仅使用简单的关键字分析来基于诸如“购买”之类的单词的存在来指示意图的存在。

能否使用一些例子说明文本分析是如何为客户提供服务？

与Lexalytics合作的其中一个例子是微软的客户市场研究团队（CMR），该团队主要用于进行客户调查的设计，部署和分析。该团队与我们合作开发了一套新的最佳实践系统，将社交媒体上不同类型的客户数据进行整合。 Microsoft使用了Lexalytics Intelligence Platform分析社交媒体内容，并生成有关人们对公司数千种产品的感知，并且包含上下文语境丰富的见解。团队使用我们的报告工具验证了这些结果，然后将净情绪分数与定量的Likert™量表调查数据进行了比较。使用此解决方案，微软的客户市场研究团队可以比较人们在社交媒体上谈论产品和品牌的方式，以及他们在调查回复中所说的内容。一旦他们确定了讨论主题和主题，该团队就会汇总这些信息，作为传统调查问卷的替代信息。这些信息帮助微软通过在可能的情况下替换社交信号来减少调查支出，通过识别差距来进行更好的调查，并帮助其他营销和产品团队做出更明智的决策。

另一个例子来自制药领域：

世界各地的药品营销团队依靠AlternativesPharma提供专家见解和建议，来解决医药品牌经理每天都必须面对的问题，增加市场份额，展示产品价值，提高患者的品牌依赖性和改善医疗保健专业人员购买习惯。 AlternativesPharma从有价值但却尚未被开发的定性来源中，例如患者在社交媒体，博客和论坛上撰写的消息，评论和帖子获取这些见解和建议。Alternatives Pharma与Lexalytics合作，对其数以万计的数据点进行了渐进式分析。 Lexalytics随后被用于将数据分类为主题和情感，并允许创建“专题地图”。这些地图为公司的客户提供有关特定疾病和药品的患者情绪和行为的宝贵，可操作的见解。分析中提出的建议为制药公司与监管机构以及患者的沟通提供了改进和新方法。例如，在推出一种新的癌症治疗方法时，Alternative Pharma的一位客户决定彻底改变与患者沟通的主题和基调，制定一项与患者的需求和期望产生深刻共鸣的运动，确保消费者的买入动作。

在金融领域，您对情绪分析有何看法？

通过与汤森路透的合作，Lexalytics在该领域开展了许多早期工作。我们学到的是，舆情的确可以用来预测金融回报。最好的情况是，我们能够在算法交易系统中看到30到40个基点的优势，尽管通常增益较小，例如10到20个基点，但它们的确就在那里。

有趣的是，情绪信号通常是交易系统的负面指标。公司的一些小道消息通常表明公司的股价会短暂但快速下跌。但是由于我们不是交易员，这对我们来说似乎是违反直觉的，但汤森路透的交易专家表示，许多交易系统的确会在出利好消息的时候卖出股票。

最终的结果是，有充分的证据表明情绪可以用作交易系统中的信号，但回报并不是很大，因此它还没有成为每个对冲基金算法交易系统的标准组成部分。

我们对NLP真正感兴趣的另一个领域是合规领域。即确保财务顾问进行必要的披露，提供适当的建议来降低违规风险。金融服务公司必须证明其员工的工作符合客户的最佳利益。这些披露要求可能包括佣金披露，信用披露成本或自有产品披露。

每一种公开报告可以包含十几个或更多个子组件。这给服务提供商带来了沉重的负担。平均而言，金融公司每年投入10-15％的劳动力，总计2700亿美元用于监管合规。

Lexalytics正致力于通过将AI和机器学习模型应用于金融服务领域来实现这一过程的自动化。我们将半结构化数据解析器与文本分析相结合，以快速分析长财务文档并提取所有组件：法律披露，资产分配表，建议声明，客户角色等。因为自然语言处理技术使我们能够真正理解基础信息，所以我们可以在数据点之间进行复杂的连接，无论它们出现在文档中。然后我们使用人工智能来构建这些数据并为进一步分析做好准备。我们授权财务审计师几乎同时审查所有文件，而不是对100个文件中的1个进行抽查。这大大降低了金融服务公司和银行的违规风险。

创业过程中最具挑战性的时刻是什么？它是如何迫使您重新思考业务？

Lexalytics在其历史上经历了两次重大转变。首先是云计算的出现，这使得大量新厂商进入市场，这迫使我们为NLP创建基于云的产品。虽然这是一个挑战，但将其称为对业务的威胁是不公平的，因为我们比其他人更容易应对这一市场发展。第二个是谷歌创建免费和近乎免费的产品，亚马逊已经取消了文本分析市场的进入门槛，我们不得不重新审视业务，加速企业功能技术的开发，从而更加重视业务。

你如何看待未来的技术发展，Lexalytics的未来发展计划是什么？

从技术角度来看，毫无疑问，我们的AI框架（AI Assembler）与我们的NLP引擎（Salience）之间的紧密集成为我们提供了独特能力，这不仅可以自动构建解决新问题的机器学习模型，而且通过将这些模型部署到我们的NLP堆栈中，我们的AI堆栈和NLP堆栈之间的集成工作就是无缝的了，这意味着我们可以解决以前无法解决的难题，并且只需要很一小部分时间内部署解决方案。

许多企业都在使用尖端的机器学习算法，可以编写必要的程序来集成内容并构建可行的模型，但这需要时间和精力。此外，更重要的是我们要认识到，构建一个可行的模型并不等同于将其部署到一个操作环境中，这同样需要时间和精力。通过AI Assembler和Salience，我们可以使用组件解决问题的每一部分，我们只需要竞争对手四分之一的时间就能完成培训，测试和部署新的AI。