Auto Byte

專注未來出行及智能汽車科技

微信掃一掃獲取更多資訊

Science AI

關注人工智能與其他前沿技術、基礎學科的交叉研究與融合發展

微信掃一掃獲取更多資訊

陳江捷、徐銳作者

ACL 2022|復旦、字節等推出首個可解釋類比推理數據集,中英雙語

來自復旦大學、字節跳動人工智能實驗室等機構的研究者提出E-KAR 數據集,這是首個可解釋的知識密集型類比推理數據集,相關工作已經被 ACL 2022 Findings 接收。

類比在人類認知中占有重要地位,通過類比可以發現新的見解和證明日常的推理,比如老師在課堂上用煮熟的雞蛋類比地球的構造,使得學生很快理解了不能親自體驗的知識。由于在多個領域有著獨特價值,類比成為了人工智能研究領域的重要問題。

在 NLP 中,我們比較熟悉的是以多選題形式出現的詞類比識別問題,然而現有的詞類比數據集關注簡單的二元類比關系,并且缺乏用于屆時類比推理過程的標注信息。因此,解答這一類問題并不能揭示神經網絡模型類比推理的內在過程,這對探究類比的內部性質來說是不利的[6]。我們亟需一類更困難的、可解釋的類比推理數據集。

本文介紹來自復旦大學、字節跳動人工智能實驗室等機構研究者的最新工作 E-KAR,相關工作已經被 ACL 2022 Findings 接收。E-KAR 是首個可解釋的知識密集型類比推理數據集,由 1,655 個(中文)和 1,251 個(英文)來自中國公務員考試的問題組成,并提出了類比推理問題的兩個基準任務,用于教會和驗證模型學習類比的能力。


• 論文鏈接:https://arxiv.org/abs/2203.08480
• 項目主頁:https://ekar-leaderboard.github.io

研究背景

簡單類比

現有的類比推理數據集,多以選擇題的形式出現,下圖是來自 BATS 數據集 [3] 的一個例子,選項分別是 “馬克思” 比“德國人”、“孔子”比 “俄羅斯人”、“凱撒” 比“美國人”和 “柏拉圖” 比“加拿大人”,需要選擇的是與問題:“牛頓”比 “英國人” 相同對應關系的選項。

 圖 1 BATS 數據集中的示例

解決這種簡單的類比問題,一種有效的方法是使用像 Word2Vec[2]這樣靜態的詞嵌入,例如我們都很熟悉的這個方程式:

圖 2 著名的詞嵌入方程式(國王 - 男人 + 女人 = 王后)

這一類方法通常認為兩個詞語之間的關系可以通過詞嵌入的向量運算來估計,這被稱為線性類比(Linear Analogy)[4]。這種方法行之有效的原因之一是,目前的類比推理數據集通常被設計為評估線性類比屬性。這類數據集富含簡單的二元關系,如詞匯、形態和簡單的語義關系,像前面 “牛頓” 比“英國人”的例子,揭示的是 “人物” 和“國籍”的關系。此外,它們也是不可解釋的,因此無法揭示實際的類似人類的類比推理過程。

復雜類比

比起這種相對簡單的線性類比,該研究專注于更加復雜的類比推理問題(Complex Analogy),這需要理解更多復雜的詞語之間的關系。針對于此,本文提出了 E-KAR 數據集,參考一些類比相關的權威書籍和其他定義,完成這些問題還需要有一系列推理過程和背景知識,下圖是其中的一個例子(讀者可以嘗試完成):

圖 3 E-KAR 數據集中的示例

E-KAR 數據集

E-KAR 數據集是首個可解釋的類比推理數據集,它有三個特點:挑戰性、可解釋性和雙語性。

挑戰性

E-KAR 具有挑戰性,因為它來源于中國的公務員考試,這是一項對考生的批判性思維和解決問題能力的綜合測試,想要解決其中的類比推理問題,需要考生理解選項中的關系,這要求一定的推理能力和背景知識,特別是常識、事實和文化知識,以及知道為什么一個事實被否定,例如汽車不是由輪胎制造的,因為汽車是由輪胎組成的。

可解釋性

E-KAR 的第二個特點是可解釋性,每條數據的問題和選項都有對應的人工注釋的自由文本解釋。但首先我們需要搞清楚:如何使類比推理可解釋?

為了回答這個問題,首先需要明白人類是如何進行類比推理的。根據一些認知心理學的研究[1],類比推理遵循一個結構映射 (structure-mapping) 過程。這個過程包含歸納,映射與檢驗三個步驟。我們以 E-KAR 中的一組數據為例(見圖 4):

1. 歸納 (Abduction):對于源域 (source domain) 與目標域 (target domain) 來說,首先設想出一個源結構 (source structure) ,這個結構也可能適用于目標域,在該數據集中,源域是問題,而目標域是每個選項,源結構是問題詞之間的隱含關系,在例子中則是茶壺和茶杯都是盛放茶葉的容器,茶壺將茶葉輸送到茶杯中;
2. 映射 (Mapping):接著將這種結構映射到目標域,也就是說,將每個選項的詞映射到查詢中的源結構中;
3. 檢驗 (Validation):最后,檢查映射的有效性,并解釋映射是否正確。在示例中,只有選項 C :"人才:學校:企業" 滿足問題中的源結構。因為學校和企業是人才的組織,學校將人才運送到企業。

圖 4 類比推理中的結構映射

因此,該研究將結構映射的過程改寫為自然語言文本,從而使類比推理的過程可解釋,也就是 E-KAR 的可解釋性。

雙語性

該研究利用機翻加人工后編輯的方式,將中文版的 E-KAR 翻譯為了英文版本。在英文數據中,研究者手動刪除了那些具有中文特征的數據(成語、典故等),以更好的方便非中文背景的研究者。由于這些數據具有高度的中國文化背景,研究者在中文數據集中保留了這部分數據以促進中文 NLP 的發展。最后,得到了 1655 條中文數據集和 1251 條英文數據集,各自有 8275 句和 6255 句自然語言形式的解釋文本。

任務設置

E-KAR 的最終目標是使得模型能夠做出正確的選擇,同時產生合理的解釋。為此,該研究在 E-KAR 中定義了兩個共享任務:類比推理問答任務(Question Answering, QA)和類比解釋生成任務(Explanation Generation, EG):

  • 類比推理問答任務 (QA):即讓模型去完成 E-KAR 中的問題,輸入為問題和四個選項,輸出為正確的答案,最終結果用準確率進行評估。

  • 類比解釋生成任務 (EG):即生成問題和每個候選答案的相應解釋,除了基礎的文本生成指標外,該研究主要使用一種間接的指標進行評估:加入生成解釋后的類比回答任務準確率,即將生成的解釋作為類比推理問答任務 (QA) 額外的輸入時后者準確率的變化情況。


實驗與結論

該研究基于 E-KAR 在這兩個任務上進行了一些初步實驗,發現:

1. 詞嵌入與語言模型在復雜類比上的表現都不好

該研究首先基于詞嵌入和預訓練語言模型 (BERT、RoBERTa) 進行了類比推理問答任務 (QA) 的實驗,結果如圖 5 所示,這表明無論是靜態詞嵌入還是目前最先進的語言模型,要想完成 E-KAR 這種復雜和知識密集型的類比推理任務都很困難。

圖 5 詞嵌入在 E-KAR 和簡單類比數據集上的準確率

作為對比,人類能夠達到 78% 的準確率,而表現最好的語言模型 (RoBERTa large) 只能達到 50%(圖 6)。

圖 6 詞嵌入、語言模型和人類在簡單類比與復雜類比上的準確率對比

類比問答錯誤分析

該研究對結果進行了錯誤分析(圖 7),發現大多數錯誤發生在語義關系上,如 is_a、part_of、juxtaposition_of 等。這些類型的關系通常需要大量的常識和事實知識的參與。

圖 7 類比推理問答任務 (QA) 錯誤分析

2. 語言模型在可解釋的類比推理上表現不好

該研究的類比解釋生成可以生成每個問題和選項的對應解釋,再將這些解釋用于類比推理問答任務 (QA),這也是體現可解釋性的關鍵步驟,然而一系列實驗表明,語言模型并不能生成對類比推理問答任務(QA) 很有幫助的解釋。

首先,用該研究事先標注好的解釋去作為額外的輸入,能幫助類比推理問答任務 (QA) 達到接近完美準確率。然而替換成生成的解釋時,結果卻差很多(圖 8)。

圖 8 事先標注的解釋與模型生成的解釋對 QA 任務的幫助對比

解釋生成錯誤分析

該研究也對類比解釋生成任務 (EG) 進行了錯誤分析(圖 9),發現問題主要出現在這三個方面:

1. 無法生成否定的事實;
2. 生成的是與事實不符的句子;
3. 生成結果偏向于常見的模式。

其中,該研究對否定詞的生成特別感興趣。結果顯示約有 90% 的錯誤選項的人工標注解釋,包含了否定詞 "不",而在生成的解釋中,這一數字則下降到約 20%。這似乎表明目前的生成模型不知道如何生成一個被否定但卻是正確的事實。由于許多解釋含有否定詞,研究者探討否定詞的生成是否影響了模型的判斷,為此該研究刪除了測試集中含有否定詞 NOT 的句子,結果發現準確率只下降了一點。因此,另一個結論是,當給出人工標注的解釋時,類比推理問答 (QA) 任務的模型似乎并不偏向于否定詞。

圖 9 展示了一個基本涵蓋了上述幾乎所有錯誤類型的例子。代表問題的解釋,代表選項 A 的解釋,表示為模型 (BART large) 生成的,不帶的是事先標注好的,可以看到,對于否定句,模型不知道鹽和氯化鈉都不是只由一種元素組成的,生成的解釋偏向于 “A 是 B” 的模式。

圖 9 E-KAR 數據集中的示例 2

總結

在這篇文章中,研究者提出了一個新的類比推理數據集 E-KAR,它具有挑戰性,雙語性和可解釋性,同時研究者定義了兩個該數據集的共享任務:類比推理問答任務 (QA) 和類比解釋生成任務 (EG) ,用于教會模型如何學會類比的能力。該研究希望這項工作能補充現有的自然語言推理研究,特別是類比推理和可解釋的 NLP 的相關研究。

E-KAR 數據集中很多題目依賴于外部知識,需要對常識、百科和文化知識有一定理解,因此如何注入外部知識提升推理能力是未來的一大方向。注入外部知識可以通過自由文本、知識圖譜等形式,代替解釋作為輸入的一部分,模型可以分為檢索部分和問答部分。檢索部分負責在外部知識庫中搜索相關詞組,并重構其相關知識的表示,問答部分負責融合檢索到的外部知識與原輸入,提升模型推理能力。

參考文獻

1.Gerhard Minnameier. 2010. Abduction, induction, and analogy. In Model-based reasoning in science and technology, pages 107–119. Springer.
2.Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[J]. arXiv preprint arXiv:1301.3781, 2013.
3.Gladkova A, Drozd A, Matsuoka S. Analogy-based detection of morphological and semantic relations with word embeddings: what works and what doesn’t[C]//Proceedings of the NAACL Student Research Workshop. 2016: 8-15.
4.Ethayarajh K, Duvenaud D, Hirst G. Towards understanding linear word analogies[J]. arXiv preprint arXiv:1810.04882, 2018.
5.Ushio A, Espinosa-Anke L, Schockaert S, et al. BERT is to NLP what AlexNet is to CV: can pre-trained language models identify analogies?[J]. arXiv preprint arXiv:2105.04949, 2021.
理論
暫無評論
暫無評論~
塔城颂嫌租售有限公司 济宁市九众机械设备有限公司| 广州光纳文化传媒明星经纪有限公司| 茄阳(上海)展览有限公司| 测量仪器有限公司| 福建优善品餐具有限公| 玻璃上海有限公司| 广东新科炬机械制造有限公司| 汽车举升机北京有限公司| 沧州海康药用包装有限公司| 监测仪器有限公司| 383 312 764 639 948