Auto Byte

專注未來出行及智能汽車科技

微信掃一掃獲取更多資訊

Science AI

關注人工智能與其他前沿技術、基礎學科的交叉研究與融合發展

微信掃一掃獲取更多資訊

ISSCC 2022 | 兼顧能效、精度和靈活性,可重構數字存算一體架構打開高算力AI芯片新范式

來自清華大學的研究者基于可重構數字存算一體架構,設計了國際首款面向通用云端高算力場景的存算一體AI芯片ReDCIM。

被譽為“集成電路奧林匹克”的國際固態電路會議ISSCC,今年從全球12個領域共錄用論文200篇,中國大陸及港澳地區入圍的論文共30篇,其中清華大學集成電路學院發表的基于可重構數字存算一體架構設計的國際首款面向通用云端高算力場景的存算一體AI芯片ReDCIM(Reconfigurable Digital CIM)成果論文,引起廣泛關注。

論文地址:https://ieeexplore.ieee.org/document/9731762

該論文的第一作者是涂鋒斌博士,尹首一教授是論文的通訊作者,加州大學圣塔芭芭拉分校謝源教授為論文共同作者。

清華大學集成電路學院魏少軍教授、尹首一教授團隊提出的可重構數字存算一體架構(如圖 1所示)可兼顧算力、精度、能效和靈活性,首次在存算一體架構上實現了高精度浮點與高精度整數計算,可滿足數據中心級的云端AI推理和訓練需求。

圖 1:高算力AI芯片新范式:可重構數字存算一體架構,兼顧能效、精度和靈活性。

隨著人工智能(Artificial Intelligence, AI)技術的發展,模型規模不斷增加,帶來巨大的算力和存儲需求。大量頻繁的訪存使得AI芯片的能效嚴重受限于馮諾依曼瓶頸問題。存算一體(Compute-In-Memory,CIM)架構可直接在存儲器內完成計算,消除了計算和存儲間的頻繁訪問,被認為是一種能夠突破馮諾依曼瓶頸的高能效AI計算架構。

然而,目前大多數存算一體AI芯片基于模擬計算原理設計,模擬計算誤差限制了計算精度,固定的存算通路限制了功能靈活性。這使得模擬存算一體架構只適合計算精度要求不高、功能靈活性要求不高、更注重低功耗的邊緣端AI場景,而不適合對算力、能效、精度和靈活性同時具有很高要求的云端AI場景。隨著高精度大規模AI模型不斷涌現,在數據中心等云端AI場景進行訓練和推理的算力需求日益增長。因此云端AI芯片的研究極具前景,亟需革新的AI芯片計算范式。

存算一體架構可突破馮諾依曼瓶頸,提高AI芯片能效

近年來,學術界和工業界推出大量基于數字架構的AI芯片[2-4]以滿足日益增長的AI算力需求。這類AI芯片的典型架構如圖 2 (a)所示,由分離的計算單元和存儲器構成:計算單元主要處理AI算法中核心的乘加計算,存儲器緩存輸入數據、輸出數據和AI模型權重。為滿足越來越復雜的AI任務需求,AI模型尺寸不斷增加。因此在AI計算過程中,計算單元會頻繁訪問存儲器中的數據,使得訪存主導AI芯片整體延遲和能耗,嚴重制約AI芯片的能效。這就是AI芯片的馮諾依曼瓶頸問題。

存算一體架構消除了計算與存儲的界限,直接在存儲器內完成計算,被認為是突破馮諾依曼瓶頸的極具潛力的高能效AI芯片架構。目前大多數存算一體AI芯片基于模擬計算原理設計,其典型架構如圖 2(b)所示。模擬存算一體架構通?;赟RAM[5-7]或非易失存儲器[8, 9],模型權重保持在存儲器中,輸入數據流入存儲器內部基于電流或電壓實現模擬乘加計算,并由外設電路對輸出數據實現模數轉換。由于模擬存算一體架構能夠實現低功耗低位寬的整數乘加計算,它們非常適合邊緣端AI場景。

圖 2:AI芯片架構對比:(a)傳統數字架構,(b)模擬存算一體架構,(c)數字存算一體架構,(d)可重構數字存算一體架構。

模擬存算一體架構難以兼顧能效、精度和靈活性,不適合云端AI芯片

隨著AI任務的復雜性和應用范圍增加,高精度的大規模AI模型(如BERT,GPT-3等)不斷涌現。這些模型需要在數據中心等云端AI場景完成訓練和推理,產生巨大的算力需求,同時馮諾依曼瓶頸問題也更加嚴重。相比于邊緣端AI場景,云端AI場景具有更多樣的任務需求,如圖 3所示,除了需要支持高能效的低位寬整數(INT8)AI推理任務,還需要支持高精度的AI推理和訓練任務。因此,云端AI場景需要更高位寬的整數(如INT16)和浮點計算(如BF16、FP32)能力,以保證各種大規模AI推理和訓練沒有精度損失[4]。綜上,云端AI芯片設計必須兼顧能效、精度和靈活性。

圖 3:云端AI場景的計算需求:高能效、高精度和高靈活性。

盡管存算一體能夠通過突破馮諾依曼訪存瓶頸以實現高能效AI計算,但目前主流的模擬存算一體架構還無法同時兼顧精度和靈活性需求,制約了它們在云端AI場景的使用:1)模擬計算由于工藝偏差、信號噪聲等因素容易產生計算誤差,通常最高只能支持INT8數據格式,難以支持更高位寬計算[5-9];2)由于同時激活整個存儲器陣列會產生較大計算誤差,當前的模擬存算一體AI芯片通常只能同時激活很小部分存儲器陣列[5-9]。這限制了它們單位面積下的計算能力,使得兼顧能效和精度變得更加困難;3)如圖 2(b)所示,模擬數據通路形成了固定的存算架構,限制了它們在功能上只能實現整數乘加計算,難以靈活支持各種浮點和整數計算。

高算力AI芯片新范式:可重構數字存算一體架構

清華大學集成電路學院魏少軍教授、尹首一教授團隊首次探索了存算一體在云端AI場景下的架構設計問題,提出可重構數字存算一體架構AI芯片,將可重構計算與數字存算一體架構融合,兼顧能效、精度和靈活性,設計出國際首款面向通用云端場景的存算一體AI芯片ReDCIM。如圖 1所示,數字存算一體架構是兼顧能效和精度的關鍵,可重構計算架構保障了AI芯片的可編程靈活性。

數字存算一體架構是當下正在興起的一種新型存算一體架構。TSMC連續兩年(2021,2022)在ISSCC上發布基于SRAM的數字存算一體芯片[10, 11]。相比于模擬存算一體架構,數字存算一體架構在存儲器內實現純數字邏輯(如圖 2(c)所示),完全避免模擬計算導致的計算誤差,可同時激活全部存儲器陣列,具有更高的能量效率和面積效率,以及更好的工藝和電壓擴展性[11]。但是,受限于固定的存算通路,TSMC的兩款數字存算一體芯片仍只能支持整數乘加計算。

可重構計算架構是一種兼顧能效和靈活性的計算架構。魏少軍教授、尹首一教授團隊近年推出的Thinker系列AI芯片均基于此架構。Thinker系列芯片具有實時重構能力,能夠在線配置成不同數據通路以滿足多樣的任務需求。

數字存算一體架構不同于模擬存算一體架構,其數字邏輯具備極強的可定制性。將原本固定的數字存內邏輯改造成可重構邏輯,就能融合數字存算一體和可重構計算各自的優點,兼顧能效、精度和靈活性?;谝陨纤悸?,研究團隊提出了可重構數字存算一體架構(如圖 2(d)所示):在SRAM內實現可重構數字邏輯,既避免了模擬計算導致的計算誤差,又能在同一存儲器中靈活支持多種浮點和整數計算。

首款面向通用云端場景的存算一體AI芯片ReDCIM

基于可重構數字存算一體架構的云端AI芯片ReDCIM使用28nm CMOS工藝成功流片,其研究成果發表于ISSCC’2022。如圖 4所示,ReDCIM由16個CIM核,32KB全局緩存,1個SIMD核和頂層控制器構成。它具有以下三大關鍵技術點:

1) ReDCIM采用無存內對齊的浮點乘加流水線架構,來分離浮點乘加計算中的指數對齊和尾數乘加。由于輸入和權重都對齊到了局部最大指數,存儲器內部只需進行乘加計算而不用實現復雜的對齊邏輯。

2) ReDCIM采用比特級存內Booth乘法架構來優化存內乘加計算。相比于傳統的順序比特流存內乘加計算架構,該架構可以把計算周期和比特級乘法量降低近50%。

3) ReDCIM采用層次化可重構存內累加架構,在同一個CIM單元內靈活支持多種浮點(BF16、FP32)和整數(INT8、INT16)計算能力,滿足云端AI計算需求。

ReDCIM在設計上引入了近存和存內兩個層次的可重構計算:技術1中的前置對齊單元屬于近存重構邏輯。它可以改變輸入數據的預處理流程,實現不同的浮點模式和整數模式。技術2中的部分積重編碼和技術3中的部分積累加共同構成了存內重構邏輯。它們可根據具體的數據格式實現存內移位、符號位擴展、有/無符號加減等計算操作。

圖 4:ReDCIM芯片的整體架構。

ReDCIM芯片的顯微照片和硬件指標如圖 5所示。該芯片在ImageNet數據集上分別使用INT8、BF16和FP32數據格式,進行ResNet-50推理、EfficientNet-B0推理和EfficientNet-B0訓練三個實驗,相比于IBM在ISSCC’2021發布的云端AI芯片架構[4]可分別獲得11.61、8.92和9.86倍的能效提升。ReDCIM芯片首次在存算一體架構上支持高精度浮點與整數計算,可達到29.2TFLOPS/W的BF16浮點能效和36.5TOPS/W的INT8整數能效,滿足云端AI推理和訓練等各種任務需求。

圖 5:ReDCIM芯片的顯微照片和硬件指標。

可重構數字存算一體架構開辟了廣闊的AI芯片設計空間

AI芯片發展至今,從數字架構到模擬存算一體,芯片架構更新換代。數字架構受限于馮諾依曼訪存瓶頸,能效存在局限性。模擬存算一體因突破了馮諾依曼訪存瓶頸而具有更高能效,但精度和靈活性欠佳??芍貥嫈底执嫠阋惑w架構融合了兩大流派的優點,兼顧能效、精度和靈活性??芍貥嬘嬎愕囊氪蟠笸卣沽藗鹘y存算一體架構的設計空間,讓存算一體的功能不僅僅局限于整數乘加??芍貥嫈底执嫠阋惑w架構可適應未來更多人工智能計算場景需求,為AI芯片設計開辟了一條新技術路線。


參考文獻

1.Tu, F., et al. A 28nm 29.2TFLOPS/W BF16 and 36.5TOPS/W INT8 Reconfigurable Digital CIM Processor with Unified FP/INT Pipeline and Bitwise In-Memory Booth Multiplication for Cloud Deep Learning Acceleration. in 2022 IEEE International Solid- State Circuits Conference (ISSCC). 2022. IEEE.

2.Yin, S., et al., A High Energy Efficient Reconfigurable Hybrid Neural Network Processor for Deep Learning Applications. IEEE Journal of Solid-State Circuits, 2018. 53(4): p. 968-982.

3.Tu, F., et al., Evolver: A Deep Learning Processor With On-Device Quantization–Voltage–Frequency Tuning. IEEE Journal of Solid-State Circuits, 2021. 56(2): p. 658-673.

4.Agrawal, A., et al. A 7nm 4-Core AI Chip with 25.6TFLOPS Hybrid FP8 Training, 102.4TOPS INT4 Inference and Workload-Aware Throttling. in 2021 IEEE International Solid-State Circuits Conference (ISSCC). 2021. IEEE.

5.Yue, J., et al. A 2.75-to-75.9TOPS/W Computing-in-Memory NN Processor Supporting Set-Associate Block-Wise Zero Skipping and Ping-Pong CIM with Simultaneous Computation and Weight Updating. in 2021 IEEE International Solid-State Circuits Conference (ISSCC). 2021. IEEE.

6.Su, J.-W., et al. A 28nm 384kb 6T-SRAM Computation-in-Memory Macro with 8b Precision for AI Edge Chips. in 2021 IEEE International Solid-State Circuits Conference (ISSCC). 2021. IEEE.

7.Guo, R., et al. A 5.99-to-691.1TOPS/W Tensor-Train In-Memory-Computing Processor Using Bit-Level-Sparsity-Based Optimization and Variable-Precision Quantization. in 2021 IEEE International Solid-State Circuits Conference (ISSCC). 2021. IEEE.

8.Xue, C.-X., et al. A 22nm 4Mb 8b-Precision ReRAM Computing-in-Memory Macro with 11.91 to 195.7TOPS/W for Tiny AI Edge Devices. in 2021 IEEE International Solid-State Circuits Conference (ISSCC). 2021. IEEE.

9.Xue, C.-X., et al. A 22nm 2Mb ReRAM Compute-in-Memory Macro with 121-28TOPS/W for Multibit MAC Computing for Tiny AI Edge Devices. in 2020 IEEE International Solid-State Circuits Conference (ISSCC). 2020. IEEE.

10.Chih, Y.-D., et al. An 89TOPS/W and 16.3TOPS/mm2 All-Digital SRAM-Based Full-Precision Compute-In Memory Macro in 22nm for Machine-Learning Edge Applications. in 2021 IEEE International Solid-State Circuits Conference (ISSCC). 2021. IEEE.

11.Fujiwara, H., et al. A 5-nm 254-TOPS/W 221-TOPS/mm2 Fully-Digital Computing-in-Memory Macro Supporting Wide-Range Dynamic-Voltage-Frequency Scaling and Simultaneous MAC and Write Operations. in 2022 IEEE International Solid-State Circuits Conference (ISSCC). 2022. IEEE.

理論論文ISSCC清華大學
1
暫無評論
暫無評論~
塔城颂嫌租售有限公司 电工电器成套设备北京有限公司| 河南迈通医疗设备有限公司| 北京祥瑞进口贸易有限公司| 点胶设备有限公司| 深圳市金牌地产顾问有限公司| 滤芯光伏产品北京有限公司| 玻璃上海有限公司| 南京市行道电子科技有限公司| 厂家售后维修服务中心有限公司| 汽车发电机北京有限公司| 975 679 766 493 214