Auto Byte

專注未來出行及智能汽車科技

微信掃一掃獲取更多資訊

Science AI

關注人工智能與其他前沿技術、基礎學科的交叉研究與融合發展

微信掃一掃獲取更多資訊

澤南、小舟報道

斯坦福教授曼寧AAAS特刊發文:大模型已成突破,展望通用人工智能

NLP 正在推動人工智能進入激動人心的新時代。

當前人工智能領域熱度最高的方向就是預訓練大模型了,很多人相信,這項研究已在通用人工智能領域初顯成效。

自然語言處理領域著名學者,斯坦福大學教授克里斯托弗 · 曼寧(Christopher Manning)近期在美國人文與科學學院(AAAS)期刊的 AI & Society 特刊上發表了題為《Human Language Understanding & Reasoning》的文章,探討了語義、語言理解的本質,展望了大模型的未來。

曼寧認為,隨著 NLP 領域的技術突破,我們或許已在通用人工智能(Artificial general intelligence, AGI)方向上邁出了堅定的一步。


摘要

在過去十年中,簡單的神經網絡計算方式在自然語言處理方面取得了巨大而令人驚訝的突破,人們在超大規模情況下復制了成功,并在大量數據上進行了訓練。由此產生的預訓練語言模型,如 BERT 和 GPT-3,提供了強大的通用語言理解和生成基礎,可以輕松適應許多理解、寫作和推理任務。

這些模型展示了一種更為通用的人工智能形式的初步跡象,這可能會在感知體驗領域產生強大的基礎模型,而不僅僅局限于語言。

NLP 領域的四個時代

當科學家思考人工智能時,大多會首先想到建?;蛑亟▎蝹€人腦的能力。不過,現代人類智慧遠不止單個大腦的智能。

人類的語言很強大,并且對我們的物種產生了深遠影響,因為它為人群整體提供了一種將大腦聯網的方式。一個人可能并不比我們的黑猩猩或倭黑猩猩的近親聰明太多。這些猿類已被證明擁有人類智能的許多標志性技能,例如使用工具和計劃。此外,它們的短期記憶力甚至比我們強。

人類發明語言的時間也許永遠是個謎,但可以相對肯定的是,在地球生命漫長的進化史中,人類直到最近才發展出語言。原猴、猴子和猿類的共同祖先可以追溯到大約 6500 萬年前。人類大約在 600 萬年前與黑猩猩分離,而人類語言的歷史通常被認為只有幾十萬年。

人類發展了語言后,交流的力量讓智人迅速超越其他生物,盡管我們沒有大象那么強壯,也沒有獵豹那么快。直到最近,人類才發明了文字(可能僅在五千多年前),讓知識可以跨越時空界限進行交流。在短短幾千年時間里,這種信息共享機制將我們從青銅時代帶到了今天的智能手機。允許人類之間進行理性討論和信息分發的高保真代碼,允許復雜社會的文化演變,催生著現代技術背后的知識。語言的力量是人類社會智能的基礎,在人工智能工具增強人類能力的未來世界中,語言將繼續發揮重要作用。

由于這些原因,自然語言處理(NLP)領域與人工智能的最早發展同步出現。事實上,機器翻譯 NLP 問題的初步工作,包括 1954 年著名的 Georgetown-IBM 實驗,實現了史上首例機器翻譯,略早于 1956 年人工智能」一詞的創造。在本文中,我簡要概述了自然語言的歷史加工。然后,我描述了 NLP 最近的戲劇性發展,這些發展來自使用在大量數據上訓練的大型人工神經網絡模型。我追溯了使用這些技術構建有效 NLP 系統所取得的巨大進步,并總結了一些關于這些模型實現了什么,以及下一步將走向何方的想法。

迄今為止,自然語言處理的歷史大致可以分為四個時代。

第一個時代從 1950 年到 1969 年。NLP 研究始于機器翻譯研究。人們想象,翻譯可以迅速建立在計算機在二戰期間破譯密碼巨大成功的基礎上。冷戰時期的雙方研究人員都在尋求開發能夠轉化其他國家科研成果的系統。然而在這個時代的開始,人們對人類語言、人工智能或機器學習的結構幾乎一無所知?;叵肫饋?,可用的計算量和數據量小得可憐。盡管最初的系統被大肆宣傳,但這些系統僅提供了詞級翻譯查找和一些簡單的,不是很有原則的基于規則的機制來處理詞的屈折形式(詞形變化)和詞序。

第二個時代,從 1970 年到 1992 年,我們見證了一系列 NLP 演示系統的發展,這些演示系統在處理人類語言中的句法和引用等現象方面表現出復雜性和深度。這些系統包括 Terry Winograd 的 SHRDLU、Bill Woods 的 LUNAR、Roger Schank 的系統,如 SAM、Gary Hendrix 的 LIFER 和 Danny Bobrow 的 GUS。這些都是人們手工構建的基于規則的系統,但他們開始建模和使用人類語言理解的一些復雜性。一些系統甚至被部署用于數據庫查詢等任務。語言學和基于知識的人工智能正在迅速發展,在這個時代的第二個十年里出現了新一代的手工構建系統,它與聲明性和語言知識及其程序處理區分開來,并受益于一系列更現代的語言理論的發展。

然而我們的工作方向在 1993 年到 2012 年間的第三個時代發生了顯著變化。在此期間,數字文本變得豐富,最適用的方向是開發能夠在大量自然語言內容上實現某種程度語言理解的算法,并利用文本的存在來幫助獲得這種能力。這導致該領域圍繞 NLP 的經驗機器學習模型在根本上被重新定位,這一方向至今仍占主導地位。

在這個時期初期,我們主要的方法是掌握合理數量的在線文本——當時的文本集合一般在幾千萬字以下——并從中提取某種模型數據,主要是通過計算特定事實。例如,你可能發現人識別的事物類型在人的位置(如城市、城鎮或堡壘)和隱喻概念(如想象力、注意力或本質)之間相當均衡。但是對單詞的計數僅能提供語言理解設備,早期從文本集合中學習語言結構的經驗嘗試相當不成功。這導致該領域的大部分人專注于構建帶注釋的語言資源,例如標記單詞、文本中的人名或公司名稱的實例,或樹庫中句子的語法結構,然后使用監督機器學習技術構建模型,該模型可以在運行時在新文本片段上生成類似的標簽。

自 2013 年至今,我們擴展了第三個時代的經驗方向,但由于引入了深度學習 / 人工神經網絡方法,工作已經發生了巨大的變化。

在新方法中,單詞和句子由(數十或千維)實值向量空間中的位置表示,含義或句法的相似性由該空間中的接近度表示。從 2013 年到 2018 年,深度學習為構建高性能模型提供了一種更強大的方法,其更容易對更遠距離的上下文進行建模,并且模型可以更好地泛化到具有相似含義的單詞或短語上,因為它們可以利用向量空間中的鄰近性,而不是依賴于符號的同一性(例如詞形或詞性)。然而,該方法在構建監督機器學習模型以執行特定分析任務方面沒有改變。 

在 2018 年,一切都發生了變化,超大規模自監督(self-supervised)神經網絡學習的第一個重大成功就在 NLP 上。在這種方法中,系統可以通過接觸大量文本(現在通常是數十億字)來學習大量的語言和世界知識。實現這一點的自監督方法是讓 AI 系統從文本中自行創建預測挑戰,例如在給定先前單詞的情況下連續識別文本中的每個「下一單詞」,或填充文本中遮掩的單詞或短語。通過數十億次重復這樣的預測任務并從錯誤中學習,模型在下一次給定類似的文本上下文時會做得更好,積累了對語言和世界的一般知識,然后可以將這些知識部署到更多人們感興趣的任務中,例如問答或文本分類。

為什么大模型是突破

事后看來,大規模自監督學習方法的發展很可能被視為一次革命,第三個時代可能會延長到 2017 年。預訓練自監督方法的影響是一個突破:現在我們可以在大量未標記的人類語言材料上訓練,生成一個大型預訓練模型,其可以很容易地通過微調或提示進行調整,在各種自然語言理解和生成任務上提供強大的結果?,F在,人們對 NLP 的進步和關注爆發了。出現了一種樂觀的感覺,我們開始看到具有一定程度通用智能的知識灌輸系統的出現。

我無法在此完整描述目前占主導地位的人類語言神經網絡模型。大體上,這些模型通過實數向量表示一切,并且能夠在接觸到許多數據后通過從某些預測任務到單詞表示的錯誤(歸結為進行微積分)的反向傳播來學習很好地表示一段文字。

自 2018 年以來,NLP 應用的主要神經網絡模型一直是 Transformer 架構神經網絡。Transformer 是一個比幾十年前人類探索的用于單詞序列的簡單神經網絡更復雜的模型,主要思想之一是注意力機制——通過它,一個位置的表示被計算為來自其他位置的表示的加權組合。Transformer 模型中一個常見的自監督目標是屏蔽文本中的偶爾出現的單詞,該模型要計算空位上曾經存在的單詞。它通過從每個單詞位置(包括掩碼位置)計算表示該位置的查詢、鍵和值的向量來做到這一點。將某個位置的查詢與每個位置的值進行比較,算法計算出每個位置的注意力?;诖?,計算所有位置的值的加權平均值。

這種操作在 Transformer 神經網絡的每一層重復多次,結果值通過一個全連接的神經網絡層進一步操作,并通過使用歸一化層和殘差連接為每個單詞生成一個新的向量。整個過程重復多次,為 Transformer 神經網絡提供了額外的深度層。最后,掩碼位置上方的表示應捕獲原始文本中的單詞:例如,如圖 1 所示的 committee。



通過 Transformer 神經網絡的簡單計算可以實現或學習什么并不明顯,起初它更像是某種復雜的統計關聯學習器。然而,利用像 Transformer 這樣非常強大、靈活的超參數模型和大量數據來練習預測,模型發現并表征了人類語言的大部分結構。研究表明這些模型學習和表征句子的句法結構,并學習記憶許多事實,這些有助于模型成功預測自然語言中被掩碼的詞。

此外,雖然預測一個被掩碼的詞最初似乎是一項相當簡單和低級的任務,但這個任務的結果卻有著強大和普遍的作用。這些模型匯集了它們所接觸的語言和廣泛的現實知識。

只需要再給出進一步的指令,這樣的大型預訓練模型 (LPLM) 就可以部署于許多特定的 NLP 任務。從 2018 年到 2020 年,領域內的標準方法是通過少量額外的監督學習來微調模型,在感興趣的確切任務上對其進行訓練。但最近,研究人員驚訝地發現,這些模型中最大的模型,例如 GPT-3(生成式預訓練 Transformer),只需提示(prompt)即可很好地執行新任務。給模型一個人類語言描述或幾個例子,說明人們希望模型做什么,模型就可以執行許多它們從未接受過訓練的任務。

大模型帶來的 NLP 新范式

傳統的自然語言處理模型通常由幾個獨立開發的組件組合而成,通常構建成一個 pipeline,其中首先嘗試捕獲文本的句子結構和低級實體,然后是高級含義的詞匯,這也是饋入一些特定領域的執行組件。在過去的幾年里,業內已經用 LPLM 取代了這種傳統的 NLP 解決方案,通常經過微調來執行特定的任務。我們可以期待一下 LPLM 在 2020 年代能夠完成哪些目標。

早期的機器翻譯系統涵蓋了有限領域中的有限語言結構。從廣泛的翻譯文本的平行語料庫(parallel corpora)構建大型統計模型,這種方法是可以覆蓋機器翻譯的,這也成就了 2006 年首次推出的 Google 翻譯。

十年后,即 2016 年底,當人們轉向使用神經機器翻譯時,Google 的機器翻譯性能獲得了顯著提高。但新型系統的更新換代越來越快,2020 年基于 Transformer 的神經翻譯系統用不同的神經架構和方法進行了改進。

新系統不是在兩種語言之間進行翻譯的大型系統,而是利用一個巨大的神經網絡,同時在谷歌翻譯涵蓋的所有語言上進行訓練,僅用一個簡單的 token 標記不同的語言。雖然這個系統仍會出錯,但機器翻譯不斷在發展,今天的自動翻譯的質量已經非常出色。

例如,將法語翻譯成英語:

Il avait été surnommé, au milieu des années 1930, le ? Fou chantant ?, alors qu’il faisait ses débuts d’artiste soliste après avoir créé, en 1933, un duo à succès avec le pianiste Johnny Hess.
Pour son dynamisme sur scène, silhouette agile, ses yeux écarquillés et rieurs, ses cheveux en bataille, surtout pour le rythme qu’il donnait aux mots dans ses interprétations et l’écriture de ses textes.


He was nicknamed the Singing Madman in the mid-1930s when he was making his debut as a solo artist after creating a successful duet with pianist Johnny Hess in 1933.
For his dynamism on stage, his agile figure, his wide, laughing eyes, his messy hair, especially for the rhythm he gave to the words in his interpretations and the writing of his texts.


在問答系統中,系統在一組文本中查找相關信息,然后提供特定問題的答案(而不是像早期的 Web 搜索那樣僅返回建議相關信息的頁面)。問答系統有許多直接的商業應用,包括售前和售后客戶咨詢?,F代神經網絡問答系統在提取文本中存在的答案方面具有很高的準確性,甚至可以很好地找出不存在的答案。

例如,從以下英文文本中找到問題的答案:

Samsung saved its best features for the Galaxy Note 20 Ultra, including a more refined design than the Galaxy S20 Ultra–a phone I don’t recommend. You’ll find an exceptional 6.9-inch screen, sharp 5x optical zoom camera and a swifter stylus for annotating screenshots and taking notes.
The Note 20 Ultra also makes small but significant enhancements over the Note 10 Plus, especially in the camera realm. Do these features justify the Note 20 Ultra’s price? It begins at $1,300 for the 128GB version.
The retail price is a steep ask, especially when you combine a climate of deep global recession and mounting unemployment.


三星 Galaxy Note 20 Ultra 的價格是多少?
 128GB 版本 1300 美元
Galaxy Note 20 Ultra 有 20 倍光學變焦嗎?
 沒有
Galaxy Note 20 Ultra 的光學變焦是多少?
 5x
Galaxy Note 20 Ultra 的屏幕有多大?
 6.9 英寸


對于常見的傳統 NLP 任務,例如在一段文本中標記人或組織名稱或對文本進行情感傾向分類(正面或負面),當前最好的系統還是基于 LPLM 的,對于特定任務通過提供一組以所需方式標記的樣本進行微調。盡管這些任務在大型語言模型出現之前就可以很好地完成,但大型模型中語言和世界知識的廣度進一步提高了在這些任務上的性能。

最后,LPLM 引發了在生成流暢和連續文本的能力方面的一場革命。除了許多創造性用途之外,此類系統還具有工具性質的用途,例如編寫公式化的新聞文章、自動生成摘要。此外,這樣的系統可以根據放射科醫生的發現提出(或總結)要點來幫助放射科醫生診斷病情。

這些 NLP 系統在許多任務上都表現得非常好。事實上,給出一個特定的任務,它們通??梢员挥柧毘上袢祟愐粯訄绦羞@些任務。盡管如此,仍有理由懷疑這些系統是否真的理解它們在做什么,或者它們是否只是單純地重復一些操作,沒有意義。

以較復雜的編程語言理解為例,編程語言中描述單詞意義主要借助指稱語義學:單詞、短語或句子的含義是對象或情況的集合,用這種方法描述世界或其數學抽象。這與 NLP 中現代實驗研究的簡單分布語義(或使用意義理論)形成鮮明對比,單詞的含義不再只是對上下文的描述。

大模型真的理解人類語言嗎?

我認為語言的意義源于理解語言形式與其他事物之間的關聯網絡。如果我們擁有一個密集的關聯網絡,那么我們就可以很好地理解語言形式的含義。例如,如果我已知「shehnai」是個印度語詞匯,那么我對這個詞的含義就能夠有一個合理的概念,它是印度嗩吶;如果我能聽到這種樂器演奏的聲音,那么我對 shehnai 這個詞會有更豐富的含義理解。

反過來,如果我從未見過或聽過 shehnai 的聲音,但有人告訴我它就像傳統的印度雙簧管,那么這個詞對我來說也有一些意義:它與印度有關,與管樂器有關,并用來演奏音樂。

如果有人補充說 shehnai 有孔,有多個簧片和像雙簧管一樣的喇叭形末端,那么我就有更多連接到 shehnai 這個對象的屬性網絡。相反,我可能沒有這些信息,只有幾段使用該詞的上下文,例如:

從一周前開始,有人坐在房子入口處的竹林里吹奏著 shehnai;Bikash Babu 不喜歡 shehnai 的哀號,但決心滿足新郎家人的所有傳統期望。


盡管在某些方面,我對 shehnai 這個詞的含義理解會較少,但我仍然知道它是一種管狀樂器,這也基于我知道一些額外的文化關聯。

因此,理解語言的含義包括理解語言形式的關聯網絡,預訓練語言模型能夠學習語言的含義。除了詞匯本身的含義,預訓練語言模型也掌握了很多實際的知識。很多模型都經過了在百科全書上的訓練,它們知道亞伯拉罕 · 林肯于 1809 年出生于肯塔基州;知道《Destiny’s Child》的主唱是碧昂絲。

就像人類一樣,機器也可以從人類知識存儲庫中受益匪淺。然而,模型對詞義和世界知識的理解往往非常不完整,需要用其他感官數據(sensory data)和知識來增強。大量文本數據首先為探索和構建這些模型提供了一種非常容易訪問的方法,但擴展到其他類型的數據也是非常有必要的。

LPLM 在語言理解任務上的成功,以及將大規模自監督學習擴展到其他數據模式(如視覺、機器人技術、知識圖譜、生物信息學和多模態數據)令人興奮的前景表明了更通用方向的希望。我們提出了通用類模型的術語基礎模型,通過自監督在大量數據上訓練了數百萬個參數,然后可以輕松地適應執行廣泛的下游任務。例如 BERT(來自 Transformers 的雙向編碼器表示) 和 GPT-3 是這種基礎模型的早期示例,但現在正在進行更廣泛的工作。

一個方向是將語言模型與更加結構化的知識存儲連接起來,這些知識存儲表示為知識圖神經網絡或運行時要查閱的大量文本。不過最令人興奮和有希望的方向是建立基礎模型(foundation model),使其還可以吸收來自世界的其他感官數據,以實現集成的多模態學習。

這方面的一個例子是最近的 DALL-E 模型,在對成對的圖像和文本的語料庫進行自監督學習后,該算法可以通過生成相應的圖片來表達新文本的含義。


我們現在還處于基礎模型時代的早期,但在這里,讓我勾勒出一個可能的未來:大多數信息處理和分析任務,甚至可能像機器人控制這樣的事情,都將由少數幾個基礎模型之一的特化版接手。這些模型訓練起來既昂貴又耗時,但讓它們適應不同的任務將非常容易。事實上,人們也許可以簡單地使用自然語言指令來做到這一點。

這種在少數模型上的收斂帶來了幾個風險:能夠構建這些模型的機構可能擁有過多的權力和影響力,許多最終用戶可能會受到這些模型中存在偏見的影響,且很難判斷模型是否正確。另外,在特定環境中使用的安全性也存疑,因為模型及其訓練數據非常大。

不論如何,這些模型把大量訓練數據中獲得的知識部署到許多不同任務的能力,將使其變得非常強大,它們還將成為首批在執行許多特定任務時,只需要人類下指示,告訴它如何做就能做到的人工智能。雖然這些模型最終可能只是模糊地了解一些知識,它們的可能性或許仍然有限,缺乏人類水平的精細邏輯或因果推理能力。但基礎模型的通用有效性意味著它們將得到非常廣泛的部署,它們將在未來十年讓人們第一次看到更普遍的人工智能形式。

原文鏈接:
https://www.amacad.org/publication/human-language-understanding-reasoning
理論預訓練大模型克里斯托弗·曼寧
暫無評論
暫無評論~
塔城颂嫌租售有限公司 上海励优展览服务有限公司| 整流器上海有限公司| 轮胎挖掘机北京有限公司| 角阀有限公司| 东莞市唐胜金属材料有限公司| 深圳市宏盛高科电子有限公司| 广州中际展览策划有限公司| 活性炭北京有限公司| 刮板输送机有限公司| 排污泵有限公司| 201 951 955 797 797