來自北京大學 DAIR 實驗室與騰訊機器學習平臺部 Angel Graph 團隊共同完成的研究斬獲WWW 2022 唯一最佳學生論文獎(Best Student Paper Award)。
4 月 29 日晚,國際萬維網頂會 WWW-2022(The Web Conference,簡稱 WWW)公布了本屆會議的最佳論文。以北京大學計算機學院崔斌教授博士生張文濤為第一作者的論文 《可擴展的圖神經結構搜索系統 (PaSca: a Graph Neural Architecture Search System under the Scalable Paradigm) 》斬獲大會唯一的最佳學生論文獎(Best Student Paper Award)。
WWW(現改名為 TheWebConf)會議是計算機和互聯網領域歷史最為悠久同時最為權威的頂級學術會議之一,被中國計算機學會列為 A 類推薦國際學術會議。本次會議共收到 1822 篇論文投稿,最終錄用 323 篇,錄用率為 17.7%。本次會議僅評選出一篇最佳論文獎和一篇最佳學生論文獎,獲獎論文首先被會議 “系統和基礎設施” 方向推薦為最佳論文進入到大會最佳論文候選(共 11 篇),并在最終評比中獲最佳學生論文獎。獲獎論文是北京大學 DAIR 實驗室與騰訊機器學習平臺部 Angel Graph 團隊共同完成,這是 WWW 成立 30 多年以來,中國學術研究機構第 2 次獲得最佳學生論文獎。
圖神經網絡模型在多個圖任務上都取得了最佳效果,并受到了學術界和工業界的廣泛關注。然而,現有的圖神經網絡系統有如下圖所示的兩個瓶頸。一方面,受限于單機場景下的存儲和計算開銷以及分布式場景下的通信開銷,大多數基于消息傳播機制 (Neural Message Passing,NMP) 的圖神經網絡模型可擴展性較低,很難直接用于現實生活中的大規模圖數據。如圖 2 所示,以典型的基于消息傳播機制的 GraphSAGE 模型為例,分布式場景下的高昂通訊代價限制了圖神經網絡的可擴展性。此外,如圖 3 所示,現有的圖神經網絡系統需要用戶針對特定圖數據和圖任務編寫代碼和訓練流程,然而設計網絡結構也需要經驗豐富的專家,建模成本很高。

本論文研究了大規模圖學習過程中面臨的圖模型可擴展性低以及建模門檻高兩個問題,進而提出了一套能自動化建模超大規模圖網絡的可擴展圖學習系統。具體來說,本文提出了一個新穎的圖神經網絡建模范式,并基于該范式設計了一個超過 15 萬種網絡結構的可擴展圖網絡設計空間,為圖神經網絡可擴展性的相關研究指明了一個新的方向和路線。此外,本文還實現并開源了一套多目標(如模型預測效果和資源占用)自動化圖神經結構搜索系統,來支持更簡單和更高效的大規模圖學習。區別于現有的大規模圖神經網絡系統,本文提出的 PaSca 是一個端到端的系統。如圖 4 所示,系統的輸入有兩部分組成:1)圖數據 2)搜索目標(預測性能、內存占用、訓練以及預測效率等)。給定這兩個輸入,系統能自動化地在預定義的可擴展圖網絡搜索空間進行高效地搜索,并輸出能兼容多個搜索目標的可擴展圖神經網絡模型。

如圖 5 所示,現有的圖神經網絡模型大都遵循如上圖所示的消息傳遞機制。此外,為了兼容主流的圖神經網絡模型,相應的圖神經網絡系統也使用基于消息傳遞機制的系統抽象。然而,基于消息傳播機制的圖模型在每個 batch 訓練過程中都需要進行聚合和更新操作。當圖節點數據分布在不同機器上時,頻繁的聚合操作會導致高昂的通信開銷。區別于現有的消息傳遞機制,本文提出的 Scalable Paradigm(SGAP)將消息聚合操作和更新操作分離,定義了可擴展性圖神經網絡建模的新范式:前處理—訓練—后處理,消息聚合操作只存在于前處理和后處理中,極大地降低了分布式場景下的通信開銷。本文提出的自動化搜索系統包含兩個模板,分別是搜索引擎以及分布式驗證引擎。如圖 6 所示,在每一次迭代中,搜索引擎都會從搜索空間中推薦相應的可擴展圖神經網絡結構,之后評估引擎訓練圖網絡模型并返回模型的驗證結果。
搜索引擎的主要目標是找到在 SGAP 建模范式下能同時兼容多個搜索目標的可擴展圖神經網絡結構。如表 1 所示,它首先定義了一個包含 15 萬種不同網絡結構的搜索空間,并基于貝葉斯優化來實現網絡結構的推薦。在每次迭代中,推薦服務器會建模觀測到的網絡結構與優化目標值之間的關系,并推薦能最好地平衡多個優化目標的網絡結構。最后,它基于驗證引擎返回的觀測結果來更新歷史信息。
驗證引擎的主要是用來高效評估被推薦的模型性能。對于前處理和后處理階段,圖數據聚合器會將圖數據劃分并存儲到多臺機器上。對于任意節點,當它的第 i - 階消息計算完成之后,工作節點會拉取它的鄰居信息并計算它下一階的信息。在訓練階段,每個工作節點都可以用批訓練的方式基于參數服務器來實現網絡參數的更新。本文在十個真實的數據集上進行實驗,實驗主要是為了說明:1)基于 SGAP 的圖神經網絡建模范式具有高可擴展性;2)PaSca 系統搜索出來的網絡能很好地平衡多個搜索目標,并取得良好的預測性能。
本文比較了基于 SGAP 范式建模的 PaSca-APPNP 模型以及基于 NMP 范式建模的 GraphSAGE 模型在分布式場景下的可擴展性。固定總的批處理大小并增加工作節點的數目,如圖 7 所示,實驗發現 PaSca-APPNP 能夠獲得更接近理想情況下的加速比。
如圖 8 所示,實驗展示了 PaSca 系統在 Cora 數據集的搜索結果的帕累托平面。本文從中挑選了 3 個代表性的模型,分別命名為 PaSca-V1, PaSca-V2 和 PaSca-V3。這些代表性模型能兼容不同的優化目標,比如 PaSca-V3 取得了最小的分類誤差但是比 PaSca-V2 的預測時間更久。
如圖 9 所示,本文實驗測試了搜索出來的代表性模型在實際 Industry 數據集上的預測性能和訓練時間??梢钥吹?PaSca-V2 和 PaSca-V3 的預測效果都優于 JK-Net,但是訓練時間更短。此外,如表 2 所示,本文在八個數據集上測試搜索出來的代表性模型的預測性能。實驗發現,基于 SGAP 建模范式的圖神經網絡模型能夠取得和其他范式下模型相當甚至更好的預測性能。另外,搜索出來的 PaSca-V3 始終取得了最好的模型預測性能。
Angel Graph 圖計算團隊目前負責論文成果在騰訊內部的技術落地。獲獎論文的相關成果已實現于 Angel Graph 系統并部署于騰訊公司太極機器學習平臺,廣泛應用于金融風控和社交網絡推薦等業務,代表性業務落地場景如下:1)微信公眾號文章視頻推薦場景點擊率提升 1.6% 2)PCG 平臺與內容事業群內容風控場景惡意識別覆蓋率提升 10% 3)微信運營平臺中心社交反欺詐場景欺詐賬號識別覆蓋率提升 20% 4)全民 K 歌個人主頁用戶相似推薦場景人均關注提升 2.397%。圖神經網絡模型在多個圖任務上都取得了最佳效果,并受到了學術界和工業界的廣泛關注。然而,大多數圖神經網絡模型可擴展性較低,很難直接用于現實生活中的大規模圖數據。此外,設計針對特定圖數據和圖任務的神經網絡結構也需要經驗豐富的專家,建模成本很高。為此,本文提出了一個非常新穎的圖神經網絡建模范式,并基于該范式設計了一個可擴展的圖神經結構搜索空間,為圖神經網絡可擴展性的相關研究指明了一個新的方向和路線。此外,本文還實現并開源了一套多目標(如模型預測效果和資源占用)自動化圖神經結構搜索系統,搜索出來的代表性模型在預測性能、效率以及可擴展性方面都取得了較好的平衡。PaSca 系統能幫助研究者更好地探索可擴展的圖神經網絡結構,極大地促進了圖神經網絡從學術研究走向實際落地。