Auto Byte

專注未來出行及智能汽車科技

微信掃一掃獲取更多資訊

Science AI

關注人工智能與其他前沿技術、基礎學科的交叉研究與融合發展

微信掃一掃獲取更多資訊

Alberto Romero作者

不會太大、密集的純文本模型,GPT-4的新一波預測來了

分析師 Alberto Romero 對 GPT-4 作出了有理有據的推測。

2020 年 5 月,在 GPT-2 發布一年后 GPT-3 正式發布,而 GPT-2 也是在原始 GPT 論文發表一年后發布的。按照這種趨勢, GPT-4 早在一年前就該發布了,但至今尚未面世。

OpenAI 的首席執行官 Sam Altman 幾個月前表示即將推出 GPT-4 ,預計將在 2022 年 7 月至 8 月發布。

GPT-3 的強大性能讓人們對 GPT-4 的期望頗高。然而關于 GPT-4 的公開信息甚少,Altman 在去年的一次 Q&A 中就 OpenAI 對 GPT-4 的想法給出了一些提示。他明確表示 GPT-4 不會有 100T 參數。

圖片

正因為 GPT-4 的公開信息很少,人們對其做出諸多預測?,F在,一位名為 Alberto Romero 分析師基于其 OpenAI 和 Sam Altman 透露的信息,以及當前趨勢和語言 AI 的最新技術,對 GPT-4 作出了一番新的預測,以下是他的預測原文。

模型大?。篏PT-4 不會非常大

GPT-4 不會成為最大的語言模型,Altman 曾說它不會比 GPT-3 大多少。它的大小可能在 GPT-3 和 Gopher 之間 (175B -280B)。

這個推測有充分的理由。

Nvidia 和微軟去年聯合創建的威震天 - 圖靈 NLG( MT-NLG)號稱是擁有 530B 參數的最大密集神經網絡,參數量已經是 GPT-3 的 3 倍,而最近谷歌的 PaLM 已有 540B 參數。但值得注意的是,在 MT-NLG 之后出現的一些較小的模型反而達到了更高的性能水平。

圖片

這意味著:更大不一定更好。

業內很多公司已經意識到模型大小不是性能的決定因素,擴大模型也不是提升性能的最好方法。2020 年,OpenAI 的 Jared Kaplan 及其同事得出結論:當計算預算的增加主要用于根據冪律關系擴展的參數量時,性能提升幅度最大。

然而,以超大規模的 MT-NLG 為例,它在性能方面并不是最好的。事實上,甚至在任何單一類別的基準測試中都不是最好的。較小的模型,如 Gopher (280B) 或 Chinchilla (70B) 在一些任務上比 MT-NLG 好得多。

顯然,模型大小并不是實現更好的語言理解性能的唯一因素。

業內多家公司開始放棄「越大越好」的教條。擁有更多參數也會帶來一些副作用,例如計算成本過高、性能進入瓶頸期。當能夠從較小的模型中獲得相似或更好的結果時,這些公司就會在構建巨大模型之前三思而后行。

Altman 表示,他們不再專注于讓模型變得更大,而是讓更小的模型發揮最大的作用。OpenAI 是擴展假設(scaling hypothesis)的早期倡導者,但現在已經意識到其他未探索的路徑也能改進模型。

因此,GPT-4 不會比 GPT-3 大很多。OpenAI 將把重點轉移到其他方面,例如數據、算法、參數化和價值對齊(alignment)等,這可能會帶來更顯著的改進。關于 100T 參數模型的功能,我們只能等待了。

優化

語言模型在優化方面存在一個關鍵限制,即訓練成本非常高。以至于研發團隊不得不在準確性和成本之間進行權衡。這通常會導致模型明顯欠優化。

GPT-3 只訓練了一次,當在一些用例中出現錯誤時就要重新進行訓練。OpenAI 決定 GPT-4 不采取這種方式,因為成本太高,研究人員無法找到模型的最佳超參數集(例如學習率、批大小、序列長度等)。

高訓練成本的另一個后果是對模型行為的分析要受到限制。Kaplan 的團隊得出模型大小是提高性能最相關的變量時,他們并沒有考慮訓練 token 的數量,這需要大量的計算資源。

不得不承認,一些大型公司依照 Kaplan 團隊的結論,在擴大模型上「浪費」了數百萬美元?,F在,以 DeepMind 和 OpenAI 為首的公司正在探索其他方法。他們試圖找到最佳的模型,而不僅僅是更大的模型。

優化參數

上個月,微軟和 OpenAI 證實用優化后的超參數進行訓練,GPT-3 能夠獲得較大的改進。他們發現 6.7B 版本的 GPT-3 性能大幅提升,可與最初的 13B GPT-3 相媲美。超參數調優帶來的性能提升,相當于參數數量增加了一倍。

他們利用一種稱為μP 的新型參數化方式,其中小模型的最佳超參數對于同系列的較大模型也是最佳的。因此,μP 能夠以一小部分訓練成本優化任意大小的模型,幾乎毫無成本地將超參數遷移到更大的模型中。

優化計算模型

幾周前,DeepMind 重新審視了 Kaplan 等人的發現,并意識到:與人們認為的相反,訓練 token 的數量對性能的影響與模型大小的影響一樣大。DeepMind 得出結論:計算預算應該平均分配給擴展參數和數據。他們用大型語言模型 4 倍的數據量(1.4T token)訓練 Chinchilla(70B)證明了這個假設。

圖片

圖源:DeepMind

結果很明確,Chinchilla 在許多語言基準測試中「顯著」優于 Gopher、GPT-3、MT-NLG 等語言模型,這表明當前的大模型訓練不足且規模過大。

根據 DeepMind 的發現,GPT-4 將比 GPT-3 略大,它達到計算最優所需的訓練 token 數量將約為 5 萬億,比當前數據集高出一個數量級。為了最小化訓練損失,訓練 GPT-4 所需的 FLOP 將是 GPT-3 的約 10-20 倍(參照 Gopher 的計算量)。

Altman 曾在 Q&A 中表示 GPT-4 的計算量將比 GPT-3 更大,他可能指的就是這一點。

可以肯定的是,OpenAI 將致力于優化模型大小以外的其他變量。找到最佳的超參數集以及最佳的計算模型大小和參數數量,這可能會讓模型在所有基準測試中獲得令人難以置信的提升。

多模態:GPT-4 將是純文本模型

人類的大腦是多感官的,因為我們生活在一個多模態的世界中。一次只以一種模態感知世界極大地限制了人工智能理解世界的能力。因此,人們認為深度學習的未來是多模態模型。

然而,良好的多模態模型比良好的純語言或純視覺模型更難構建。將視覺和文本信息組合成單一的表征是一項非常艱巨的任務。我們對大腦如何做到這一點的認知還非常有限,難以在神經網絡中實現它。

大概也是出于此原因,Altman 在 Q&A 中也表示,GPT-4 不會是多模態的,而是純文本模型。我猜測在轉向下一代多模態 AI 之前,他們正試圖通過調整模型和數據集大小等因素達到語言模型的極限。

稀疏性:GPT-4 將是一個密集模型

稀疏模型利用條件計算,使用模型的不同部分來處理不同類型的輸入,近來取得了巨大成功。這些模型可以輕松擴展到超過 1T 的參數 mark 上,而不會導致過高的計算成本,從而在模型大小和計算預算之間構建出正交關系。然而,這種 MoE 方法的優勢在非常大的模型上會減弱。

鑒于 OpenAI 一直專注于密集語言模型,我們有理由預期 GPT-4 也將是一個密集模型。

不過,人類的大腦嚴重依賴于稀疏處理,稀疏性與多模態類似,很可能會主導未來幾代神經網絡。


GPT-4 將比 GPT-3 更加對齊

OpenAI 為解決 AI 價值對齊(alignment)的問題付出了諸多努力:如何讓語言模型遵循我們的意圖并遵守我們的價值觀。這不僅需要數學上讓 AI 實現更準確的理解,而且需要在哲學方面考量不同人類群體之間的價值觀。OpenAI 已嘗試在 InstructGPT 上接受人工反饋訓練以學會遵循指令。

InstructGPT 的主要突破在于,無論其在語言基準上的結果如何,它都被人類評估者一致認為是一比 GPT-3 更好的模型。這表明使用基準測試作為評估 AI 能力的唯一指標是不合適的。人類如何看待模型同樣重要,甚至更重要。

鑒于 Altman 和 OpenAI 對有益 AGI 的承諾,我相信 GPT-4 將基于他們從 InstructGPT 中獲得的發現。

他們將改進對齊模型的方式,因為 GPT-3 只采用了英文語料和注釋。真正的對齊應該包含來自不同性別、種族、國籍、宗教等方面的信息特征。這是一個巨大的挑戰,朝著這個目標邁出一步將是意義重大的。

綜上,我關于 GPT-4 的預測大致包括以下幾個方面:

模型大?。篏PT-4 會比 GPT-3 大,但不會很大。模型大小不會是其顯著特征;
優化:GPT-4 將使用比 GPT-3 更多的計算,它將在參數化(最優超參數)和擴展定律(訓練 token 的數量與模型大小一樣重要)方面做出新的改進;
多模態:GPT-4 將是純文本模型,OpenAI 正試圖將語言模型發揮到極致,然后再轉變成像 DALL·E 這樣的多模態模型;
稀疏性:GPT-4 遵循 GPT-2 和 GPT-3 的趨勢,將是一個密集模型,但稀疏性未來將占據主導地位;
對齊:GPT-4 將比 GPT-3 更符合人們的價值要求,它將應用從 InstructGPT 中學到的經驗。

Alberto Romero 根據 Altman 和 OpenAI 給出的信息作出了有理有據的推測,我們期待這些預測在幾個月后即將面世的 GPT-4 中得到印證。

原文鏈接:https://towardsdatascience.com/gpt-4-is-coming-soon-heres-what-we-know-about-it-64db058cfd45
理論GPT-4
相關數據
DeepMind機構

DeepMind是一家英國的人工智能公司。公司創建于2010年,最初名稱是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收購。在2010年由杰米斯·哈薩比斯,謝恩·列格和穆斯塔法·蘇萊曼成立創業公司。繼AlphaGo之后,Google DeepMind首席執行官杰米斯·哈薩比斯表示將研究用人工智能與人類玩其他游戲,例如即時戰略游戲《星際爭霸II》(StarCraft II)。深度AI如果能直接使用在其他各種不同領域,除了未來能玩不同的游戲外,例如自動駕駛、投資顧問、音樂評論、甚至司法判決等等目前需要人腦才能處理的工作,基本上也可以直接使用相同的神經網上去學而習得與人類相同的思考力。

https://deepmind.com/
深度學習技術

深度學習(deep learning)是機器學習的分支,是一種試圖使用包含復雜結構或由多重非線性變換構成的多個處理層對數據進行高層抽象的算法。 深度學習是機器學習中一種基于對數據進行表征學習的算法,至今已有數種深度學習框架,如卷積神經網絡和深度置信網絡和遞歸神經網絡等已被應用在計算機視覺、語音識別、自然語言處理、音頻識別與生物信息學等領域并獲取了極好的效果。

感知技術

知覺或感知是外界刺激作用于感官時,腦對外界的整體的看法和理解,為我們對外界的感官信息進行組織和解釋。在認知科學中,也可看作一組程序,包括獲取信息、理解信息、篩選信息、組織信息。與感覺不同,知覺反映的是由對象的各樣屬性及關系構成的整體。

人工智能技術

在學術研究領域,人工智能通常指能夠感知周圍環境并采取行動以實現最優的可能結果的智能體(intelligent agent)

基準技術

一種簡單的模型或啟發法,用作比較模型效果時的參考點?;鶞视兄谀P烷_發者針對特定問題量化最低預期效果。

參數技術

在數學和統計學裡,參數(英語:parameter)是使用通用變量來建立函數和變量之間關系(當這種關系很難用方程來闡述時)的一個數量。

學習率技術

在使用不同優化器(例如隨機梯度下降,Adam)神經網絡相關訓練中,學習速率作為一個超參數控制了權重更新的幅度,以及訓練的速度和精度。學習速率太大容易導致目標(代價)函數波動較大從而難以找到最優,而弱學習速率設置太小,則會導致收斂過慢耗時太長

超參數技術

在機器學習中,超參數是在學習過程開始之前設置其值的參數。 相反,其他參數的值是通過訓練得出的。 不同的模型訓練算法需要不同的超參數,一些簡單的算法(如普通最小二乘回歸)不需要。 給定這些超參數,訓練算法從數據中學習參數。相同種類的機器學習模型可能需要不同的超參數來適應不同的數據模式,并且必須對其進行調整以便模型能夠最優地解決機器學習問題。 在實際應用中一般需要對超參數進行優化,以找到一個超參數元組(tuple),由這些超參數元組形成一個最優化模型,該模型可以將在給定的獨立數據上預定義的損失函數最小化。

神經網絡技術

(人工)神經網絡是一種起源于 20 世紀 50 年代的監督式機器學習模型,那時候研究者構想了「感知器(perceptron)」的想法。這一領域的研究者通常被稱為「聯結主義者(Connectionist)」,因為這種模型模擬了人腦的功能。神經網絡模型通常是通過反向傳播算法應用梯度下降訓練的。目前神經網絡有兩大主要類型,它們都是前饋神經網絡:卷積神經網絡(CNN)和循環神經網絡(RNN),其中 RNN 又包含長短期記憶(LSTM)、門控循環單元(GRU)等等。深度學習是一種主要應用于神經網絡幫助其取得更好結果的技術。盡管神經網絡主要用于監督學習,但也有一些為無監督學習設計的變體,比如自動編碼器和生成對抗網絡(GAN)。

參數模型技術

在統計學中,參數模型是可以使用有限數量的參數來描述的分布類型。 這些參數通常被收集在一起以形成單個k維參數矢量θ=(θ1,θ2,...,θk)。

語言模型技術

語言模型經常使用在許多自然語言處理方面的應用,如語音識別,機器翻譯,詞性標注,句法分析和資訊檢索。由于字詞與句子都是任意組合的長度,因此在訓練過的語言模型中會出現未曾出現的字串(資料稀疏的問題),也使得在語料庫中估算字串的機率變得很困難,這也是要使用近似的平滑n元語法(N-gram)模型之原因。

GPT-2技術

GPT-2是OpenAI于2019年2月發布的基于 transformer 的大型語言模型,包含 15 億參數、在一個 800 萬網頁數據集上訓練而成。據介紹,該模型是對 GPT 模型的直接擴展,在超出 10 倍的數據量上進行訓練,參數量也多出了 10 倍。在性能方面,該模型能夠生產連貫的文本段落,在許多語言建?;鶞噬先〉昧?SOTA 表現。而且該模型在沒有任務特定訓練的情況下,能夠做到初步的閱讀理解、機器翻譯、問答和自動摘要。

推薦文章
暫無評論
暫無評論~
塔城颂嫌租售有限公司 贴片机有限公司| 织带机有限公司| 隧道机械北京有限公司| 丝印特印北京有限公司| 襄阳东宇专用汽车有限公司| 广州联世展会| 成形机床有限公司| 中赢华创北京投资管理有限公司| 防冻液北京有限公司| 淄博硕达化工设备有限公司| 333 172 433 625 285