Auto Byte

專注未來出行及智能汽車科技

微信掃一掃獲取更多資訊

Science AI

關注人工智能與其他前沿技術、基礎學科的交叉研究與融合發展

微信掃一掃獲取更多資訊

陳萍報道

發布日志記錄、公開所有代碼,Meta開放1750億參數大模型,媲美GPT-3

OPT-175B,使人工智能更加開放和可復制。

Meta AI 在昨天公布的一篇論文可謂是炸開了鍋,論文網站 paperswithcode 熱搜榜第一,眾多 AI 大佬推薦:
LSTM 提出者和奠基者,奧地利人工智能高級研究所(IARAI)創始人 Sepp Hochreiter 教授就在推特上進行了宣傳:
社交及新聞網站 reddit 討論量也爆表:
有研究者表示這是將大型 LM 研究引入學術界的重大一步。用一句話總結就是:Meta AI 正在開放用于人工智能研究的大型語言模型訪問權限,并表示這個具有 1750 億參數的模型,是第一個可供更廣泛的人工智能研究社區使用的模型。值得注意的是,OpenAI 提出的 GPT-3 也具有 1750 億參數,不知道這一數字是巧合還是其他。

下面我們介紹一下這項研究的主要內容。

Meta AI 開放 1750 億參數的模型

大型語言模型,即具有超過 1000 億個參數自然語言處理 (NLP) 系統,在過去幾年中改變了 NLP 和 AI 研究。這些模型經過大量文本訓練,在生成創意文本、解決數學問題、回答閱讀理解等方面表現出令人驚訝的能力。

雖然在某些情況下,公眾可以通過付費 API 與這些模型進行交互,但完整的研究訪問權限仍然僅限于少數資源豐富的實驗室。這種受限訪問限制了研究人員理解這些大型語言模型如何以及為什么工作的能力,阻礙了提高其魯棒性和減輕偏見等已知問題的進展。

根據 Meta AI 對開放科學的承諾,他們正在共享 Open Pretrained Transformer (OPT-175B),這是一個具有 1750 億參數的模型,在公共數據集上訓練而成,之所以共享這個模型,Meta AI 希望更多的社區參與理解關于大模型的基本技術。
論文地址:https://arxiv.org/pdf/2205.01068.pdf

對于這種規模的語言技術系統,該版本首次包括預訓練模型以及訓練和使用它們所需的代碼。為了保持完整性并防止濫用,Meta AI 將在非商業許可下發布該模型,以專注于研究用例。該模型的訪問權限將授予學術研究人員;隸屬于政府、民間團體和學術界組織的人員;以及世界各地的工業研究實驗室。

Meta AI 希望整個人工智能社區,包括學術研究人員、民間團體、政策制定者等研究者共同努力,圍繞負責任的人工智能,特別是負責任的大型語言模型制定明確的指導方針,因為它們在許多下游語言應用程序中處于中心地位。人工智能社區更需要訪問這些模型,以便進行可重復的研究并共同推動該領域的發展。隨著 OPT-175B 和小規?;€的發布,Meta AI 也希望增加倫理方面的考慮。

公開記錄文檔

根據 AI 合作伙伴關系(Partnership on AI)為研究人員制定的出版指南,以及 NIST 在 2022 年 3 月概述的治理指南(第 3.4 節),Meta AI 將發布開發過程的所有記錄文檔,包括詳細說明日常訓練過程的完整 logbook,因此其他研究人員可以更輕松地在此工作基礎上繼續研究。此外,這些細節還揭示了用于訓練 OPT-175B 的計算量以及當底層基礎設施或訓練過程本身大規模變得不穩定時所需的人力開銷。

對此有研究者表示:研究團隊的 logbook 是一個隱藏的寶石,突出了自 Lua torch 以來就存在且尚未解決的 ML 研究中的痛點 / 更廣泛的問題:
Meta AI 僅使用 16 個 NVIDIA V100 GPU 來訓練和部署模型的代碼庫,以增加這些模型的可訪問性,達到專門用于研究目的。Meta AI 還全面發布了一套更小規模的基線模型,使用的數據集和 OPT-175B 相同 ,設置也和 OPT-175B 類似,這樣一來研究人員能夠單獨研究模型規模的影響。這些小規模模型的參數包括 1.25 億、3.5 億、13 億、27 億、67 億、130 億和 300 億(660 億即將發布)。
人工智能研究的最新發展消耗了大量的計算能力。雖然行業實驗室已經開始報告這些模型的碳足跡,但大多數不包括與實驗研發階段相關的計算成本,在某些情況下,這可能比訓練最終模型更耗費一個數量級的資源。

Meta AI 在開發 OPT-175B 時考慮到了能源效率,其碳足跡僅為 GPT-3 的 1/7。這是通過在 Megatron-LM 中結合 Meta 的開源全分片數據并行 (FSDP) API 和 NVIDIA 的張量并行抽象來實現的。Meta AI 在 NVIDIA 的 80 GB A100 GPU 上實現了約 147 TFLOP/s/GPU 利用率,比 NVIDIA 研究人員在類似硬件上公布的數據高出大約 17%。

通過與代碼庫共享這些基線以有效地訓練 175B 模型,Meta AI 正在減少碳足跡,同時還允許以一致的方式衡量該領域的新成果和進展。

代爾夫特理工大學助理教師 Luís Cruz 表示:很高興看到新的人工智能論文討論他們模型的碳足跡。盡管有非常粗略的估計,但 OPT-175B 是作為 GPT-3 的替代品提出的,其碳足跡是 GPT-3 的 1/7。
Meta AI 希望 OPT-175B 能夠為大語言模型創建的前沿帶來更多聲音,幫助社區集體設計負責任的發布策略,為該領域的大語言模型開發增加前所未有的透明度和開放性。
  • 訪問開源代碼和小規模預訓練模型:https://github.com/facebookresearch/metaseq

  • OPT-175B:https://docs.google.com/forms/d/e/1FAIpQLSe4IP4N6JkCEMpCP-yY71dIUPHngVReuOmQKDEI1oHFUaVg7w/viewform

  • OPT-175B 許可協議:https://github.com/facebookresearch/metaseq/blob/main/projects/OPT/MODEL_LICENSE.md

理論1750億參數大模型Meta AI
相關數據
Sepp Hochreiter人物

Sepp Hochreiter 是一名德國計算機科學家。 1991 年,Sepp Hochreiter 發表了德語論文,探討了循環神經網絡的梯度隨著序列長度增加傾向于消失或爆炸。與 Yoshua Bengio 的相關工作幾乎同時,并且開發了 LSTM 的雛形。

相關技術
人工智能技術

在學術研究領域,人工智能通常指能夠感知周圍環境并采取行動以實現最優的可能結果的智能體(intelligent agent)

參數技術

在數學和統計學裡,參數(英語:parameter)是使用通用變量來建立函數和變量之間關系(當這種關系很難用方程來闡述時)的一個數量。

張量技術

張量是一個可用來表示在一些矢量、標量和其他張量之間的線性關系的多線性函數,這些線性關系的基本例子有內積、外積、線性映射以及笛卡兒積。其坐標在 維空間內,有 個分量的一種量,其中每個分量都是坐標的函數,而在坐標變換時,這些分量也依照某些規則作線性變換。稱為該張量的秩或階(與矩陣的秩和階均無關系)。 在數學里,張量是一種幾何實體,或者說廣義上的“數量”。張量概念包括標量、矢量和線性算子。張量可以用坐標系統來表達,記作標量的數組,但它是定義為“不依賴于參照系的選擇的”。張量在物理和工程學中很重要。例如在擴散張量成像中,表達器官對于水的在各個方向的微分透性的張量可以用來產生大腦的掃描圖。工程上最重要的例子可能就是應力張量和應變張量了,它們都是二階張量,對于一般線性材料他們之間的關系由一個四階彈性張量來決定。

自然語言處理技術

自然語言處理(英語:natural language processing,縮寫作 NLP)是人工智能和語言學領域的分支學科。此領域探討如何處理及運用自然語言;自然語言認知則是指讓電腦“懂”人類的語言。自然語言生成系統把計算機數據轉化為自然語言。自然語言理解系統把自然語言轉化為計算機程序更易于處理的形式。

語言模型技術

語言模型經常使用在許多自然語言處理方面的應用,如語音識別,機器翻譯,詞性標注,句法分析和資訊檢索。由于字詞與句子都是任意組合的長度,因此在訓練過的語言模型中會出現未曾出現的字串(資料稀疏的問題),也使得在語料庫中估算字串的機率變得很困難,這也是要使用近似的平滑n元語法(N-gram)模型之原因。

推薦文章
暫無評論
暫無評論~
塔城颂嫌租售有限公司 天津龙腾盛世生物科技发展有限公司| 二手设备上海有限公司| 江苏安池医疗服务有限公司| 中海德福州工业设备有限公司| 北京恒惠国际展览有限公司| 无锡化木安防科技有限公司| 杭州华丰设备有限公司| 上海屹克商贸有限公司| 染色机有限公司| 电镀设备有限公司| 594 343 97 72 883