企業怎樣通過文本分析與NLP獲取洞見?

在本文中,我們采訪到了Lexalytics的首席執行官Jeff Caitlin,與我們探討了如何將NLP應用到不同行業進行情緒分析與預測。

Jeff Caitlin2019-07-22

請簡單介紹一下Lexalytics以及公司的發展歷程

Lexalytics在人工智能驅動的文本分析和NLP領域已經有超過15年的歷史。每天,我們為全球的數據分析公司和企業數據分析師團隊處理數十億份文檔。公司成立於2003年,我們在2004年推出了世界上第一個商業情緒分析引擎,在2010年推出了世界上第一個用於Twitter /微博的文本分析工具,於2011年推出了世界上第一個基於維基百科的語義理解工具,並於2014年推出了世界上第一個,用於語法分析的無監督機器學習模型。目前,我們能夠以20多種語言分析文本,並為包括制藥,酒店,航空公司和電子商務在內的多個行業開發了特定行業的軟件。我們不斷推動創新,為客戶創造價值。

除了上述專業服務外,Lexalytics還於2017年1月與馬薩諸塞州阿默斯特大學數據科學中心和西北大學媒體和整合營銷傳播學院合作推出了Magic Machines AI Labs計劃,以推動人工智能以及機器學習的創新。

為什麼進行文本數據的分析以及進行大量文本分析背後的具體挑戰是什麼?

文本數據在任何組織中無處不在:電子郵件,員工調查,申請人簡歷,合同,社交媒體內容,客戶評論等等。有了這麼多的內容要處理,除非利用機器,否則就需要雇用大量的人力來處理和分析這些程序。但是,如果不分析這些內容,企業就不知道客戶的想法,員工的感受,產品在市場中的表現如何等等。這就是文本分析對組織如此重要的原因。

分析文本的最大挑戰是准確理解數據中的基本見解。 「自然語言」文本文檔(如推文或Facebook評論)可能包含含糊不清,俚語,拼寫錯誤和語法,語義和語法不一致的情況,也會有一些行業專用術語或諷刺等等機器難以理解的情況。許多文本分析系統需要大型、昂貴的數據集和復雜的機器學習技術來正確分類和標記數據,以及不斷調整以跟上一些隨著時間發生的語言變化。

您如何確保文本分析的可靠性和准確性?一個好的NLP引擎背後需要以什麼為支撐?

在NLP中非常需要精確度的領域是命名實體提取(NER),即系統自動提取專有名詞(人,地點,產品,公司,職稱,工作等)。情感分析——確定一段內容是否為正,消極或中立 - 也要求高精度。 Lexalytics系統預先安裝了實體列表和預先培訓的機器學習模型,以便客戶隨時開始自動檢測相關實體,包括人員,地點,日期,公司,產品,工作和職稱等。利用Lexalytics機器學習模型,客戶可以發現剛進入市場的新競爭者,跟蹤競爭對手和客戶的發言人活動,並在發布時抓住新產品。客戶還可以自己建立自定義實體列表以進行跟蹤。如木材的削減,癌症的類型,立體模型的變體等- 企業認為是「實體「的任何東西 - 都可以被識別和標記。

在評估給定文本文檔的情緒(正面,負面,中立)時,研究表明人類分析師傾向於同意其中80-85%。這就是所謂的評估者之間的協議。這一80-85%的分數是Lexalytics在培訓情緒評分系統時試圖達到或超過的標准,不過這具體取決於具體的客戶問題。通常情況下,總會有一些文本文檔甚至兩個人都無法達成一致。例如,如果有人說「我們正在轉向DirecTV」,對於DirecTV來說,這是一個正得分的文本,但對與競爭對手來說,可能就是負面了。因此具體語境是關鍵。 Lexalytics目前已經達到了開箱即用具有接近峰值的精度,但根據使用情況,可能需要進行一些額外的調整以滿足客戶的目標。

Lexalytics提到了通過文本分析進行預測,這是如何實現的?可以量化嗎?

從歷史上看,文本挖掘一直是一個追溯過程:分析文本以查看過去已經表達過的內容。 Lexalytics可以根據他們所說的內容幫助預測客戶的行為。通過意圖提取,我們可以確定客戶和審閱者的表達意圖,即,是否會購買、退出、出售或推薦產品。

假設在您的客戶評論中,一群客戶發布:「我昨天買了新筆記本電腦,但我不喜歡它,一直在崩潰,我認為這是一個硬件問題,我明天就去退貨。」普通文本分析將很容易提取基本信息,包括情緒是」負面的「,對象是」筆記本電腦「,並歸類為類似」配置錯誤「。 Lexalytics可以通過對客戶購買筆記本電腦,但打算「退回」進行進一步分析。我們就會發現,由於程序崩潰,他們將失去一個客戶。通過這種觀察,客戶就可以挖掘問題到根源並以新的方式分析他們的數據。

意圖分析也很有意思,因為它們可以直接用於開發新的收入流,尋找潛在客戶,保護當前的收入流(通過快速識別潛在的客戶流失),或者社交媒體支持請求以及許多其他可能性。

在分析意圖時,Lexalytics NLP引擎與傳統方法有何不同?

其他文本挖掘系統使用簡單的關鍵字分析來找出意圖 - 諸如「購買」之類的單詞。 Lexalytics專有的Syntax Matrix™能夠讓我們了解句子的結構並識別意圖,不受限於關鍵字列表。更重要的是,我們提取客戶在該意圖上做出業務決策所需的所有上下文信息,以便他們可以立即計劃並采取行動。

回到上面的筆記本電腦評論示例,一個普通的文本分析系統將提取基本信息,如情緒(負面)和對象/實體(「筆記本電腦」),並將內容分類為一個類別喜歡「錯誤」。 Lexalytics的意圖提取通過揭示客戶購買筆記本電腦進一步分析,但現在打算退貨。其他文本挖掘系統僅僅使用簡單的關鍵字分析來基於諸如「購買」之類的單詞的存在來指示意圖的存在。

能否使用一些例子說明文本分析是如何為客戶提供服務?

與Lexalytics合作的其中一個例子是微軟的客戶市場研究團隊(CMR),該團隊主要用於進行客戶調查的設計,部署和分析。該團隊與我們合作開發了一套新的最佳實踐系統,將社交媒體上不同類型的客戶數據進行整合。 Microsoft使用了Lexalytics Intelligence Platform分析社交媒體內容,並生成有關人們對公司數千種產品的感知,並且包含上下文語境豐富的見解。團隊使用我們的報告工具驗證了這些結果,然後將淨情緒分數與定量的Likert™量表調查數據進行了比較。使用此解決方案,微軟的客戶市場研究團隊可以比較人們在社交媒體上談論產品和品牌的方式,以及他們在調查回復中所說的內容。一旦他們確定了討論主題和主題,該團隊就會匯總這些信息,作為傳統調查問卷的替代信息。這些信息幫助微軟通過在可能的情況下替換社交信號來減少調查支出,通過識別差距來進行更好的調查,並幫助其他營銷和產品團隊做出更明智的決策。

另一個例子來自制藥領域:

世界各地的藥品營銷團隊依靠AlternativesPharma提供專家見解和建議,來解決醫藥品牌經理每天都必須面對的問題,增加市場份額,展示產品價值,提高患者的品牌依賴性和改善醫療保健專業人員購買習慣。 AlternativesPharma從有價值但卻尚未被開發的定性來源中,例如患者在社交媒體,博客和論壇上撰寫的消息,評論和帖子獲取這些見解和建議。Alternatives Pharma與Lexalytics合作,對其數以萬計的數據點進行了漸進式分析。 Lexalytics隨後被用於將數據分類為主題和情感,並允許創建「專題地圖」。這些地圖為公司的客戶提供有關特定疾病和藥品的患者情緒和行為的寶貴,可操作的見解。分析中提出的建議為制藥公司與監管機構以及患者的溝通提供了改進和新方法。例如,在推出一種新的癌症治療方法時,Alternative Pharma的一位客戶決定徹底改變與患者溝通的主題和基調,制定一項與患者的需求和期望產生深刻共鳴的運動,確保消費者的買入動作。

在金融領域,您對情緒分析有何看法?

通過與湯森路透的合作,Lexalytics在該領域開展了許多早期工作。我們學到的是,輿情的確可以用來預測金融回報。最好的情況是,我們能夠在算法交易系統中看到30到40個基點的優勢,盡管通常增益較小,例如10到20個基點,但它們的確就在那裡。

有趣的是,情緒信號通常是交易系統的負面指標。公司的一些小道消息通常表明公司的股價會短暫但快速下跌。但是由於我們不是交易員,這對我們來說似乎是違反直覺的,但湯森路透的交易專家表示,許多交易系統的確會在出利好消息的時候賣出股票。

最終的結果是,有充分的證據表明情緒可以用作交易系統中的信號,但回報並不是很大,因此它還沒有成為每個對沖基金算法交易系統的標准組成部分。

我們對NLP真正感興趣的另一個領域是合規領域。即確保財務顧問進行必要的披露,提供適當的建議來降低違規風險。金融服務公司必須證明其員工的工作符合客戶的最佳利益。這些披露要求可能包括傭金披露,信用披露成本或自有產品披露。

每一種公開報告可以包含十幾個或更多個子組件。這給服務提供商帶來了沉重的負擔。平均而言,金融公司每年投入10-15%的勞動力,總計2700億美元用於監管合規。

Lexalytics正致力於通過將AI和機器學習模型應用於金融服務領域來實現這一過程的自動化。我們將半結構化數據解析器與文本分析相結合,以快速分析長財務文檔並提取所有組件:法律披露,資產分配表,建議聲明,客戶角色等。因為自然語言處理技術使我們能夠真正理解基礎信息,所以我們可以在數據點之間進行復雜的連接,無論它們出現在文檔中。然後我們使用人工智能來構建這些數據並為進一步分析做好准備。我們授權財務審計師幾乎同時審查所有文件,而不是對100個文件中的1個進行抽查。這大大降低了金融服務公司和銀行的違規風險。

創業過程中最具挑戰性的時刻是什麼?它是如何迫使您重新思考業務?

Lexalytics在其歷史上經歷了兩次重大轉變。首先是雲計算的出現,這使得大量新廠商進入市場,這迫使我們為NLP創建基於雲的產品。雖然這是一個挑戰,但將其稱為對業務的威脅是不公平的,因為我們比其他人更容易應對這一市場發展。第二個是谷歌創建免費和近乎免費的產品,亞馬遜已經取消了文本分析市場的進入門檻,我們不得不重新審視業務,加速企業功能技術的開發,從而更加重視業務。

你如何看待未來的技術發展,Lexalytics的未來發展計劃是什麼?

從技術角度來看,毫無疑問,我們的AI框架(AI Assembler)與我們的NLP引擎(Salience)之間的緊密集成為我們提供了獨特能力,這不僅可以自動構建解決新問題的機器學習模型,而且通過將這些模型部署到我們的NLP堆棧中,我們的AI堆棧和NLP堆棧之間的集成工作就是無縫的了,這意味著我們可以解決以前無法解決的難題,並且只需要很一小部分時間內部署解決方案。

許多企業都在使用尖端的機器學習算法,可以編寫必要的程序來集成內容並構建可行的模型,但這需要時間和精力。此外,更重要的是我們要認識到,構建一個可行的模型並不等同於將其部署到一個操作環境中,這同樣需要時間和精力。通過AI Assembler和Salience,我們可以使用組件解決問題的每一部分,我們只需要競爭對手四分之一的時間就能完成培訓,測試和部署新的AI。