Auto Byte

專注未來出行及智能汽車科技

微信掃一掃獲取更多資訊

Science AI

關注人工智能與其他前沿技術、基礎學科的交叉研究與融合發展

微信掃一掃獲取更多資訊

獲兩大國際權威榜單第一 騰訊云小微NL2SQL讓“人人都可數據分析”

騰訊云小微提出的CQR-SQL模型,在2021年12月、2022年4月先后取得國際權威榜單SparC榜單和CoSQL榜單兩項第一名的成績。

云小微NL2SQL取得兩大榜單第一

SparC和CoSQL是美國耶魯大學于2019年陸續發布的面向對話交互場景的大規模多表匹配NL2SQL數據集,是目前對話交互場景下表格語義解析任務公認的最難最復雜的測試基準(benchmark),吸引了來自微軟、Salesforce、Facebook、阿里巴巴等國內外知名企業和北大、華盛頓大學以及Yale等國內外知名高校提交測試結果,競爭十分激烈。

其中SParC數據集有4298個對話,1.2萬多個單獨問題,每個對話平均4-5個子問題,涵蓋138個領域的200個復雜數據庫。CoSQL數據集有3,007個對話,且在交互過程中增加了拒識、澄清等輪次,平均對話輪次更多,更加考驗模型對上下文的理解。

某寫字樓租賃中介,向客戶講解當前北京市海淀區中關村軟件園租賃情況時,被問到:北京中關村軟件園各寫字樓每一層的租賃情況、可覆蓋的工位數、保潔人員配比如何?

某汽車經銷商與某地出租車公司在召開線上會議時,客戶問道:這個品牌的汽車返修率與交付平均周期如何,與行業數據對比如何?

某倉儲貨運集團在天津有一個國際物流港,如何根據市場行情和客戶要求,及時通知一線人員進行發貨囤貨等貨運周轉操作,并通過人機對話方式實時將關鍵數據信息進行同步?

當用戶面對這些問題時,希望得到的是及時且準確的回答和互動,但人類大腦記憶和運轉效率是有限的,這時就需要擁有著海量數據庫和數據提取分析能力的計算機發揮作用。然而,這個過程中最大的難點是,如何把完全遵從于用戶視角和語言習慣的問題表述,高效轉化為機器的分析語言請求,從而讓用戶通過簡單的提問方式,即可獲取全面的、準確的的數據洞察分析結果。

人們長期以來都在追求,實現用自然語言與計算機的順暢有效通信,即自然語言處理。自然語言處理是體現語言智能十分關鍵的技術,推動著人工智能體系的進步。近年來,騰訊云小微AI團隊重點關注NL2SQL任務并圍繞該任務做了一系列探索,著力將NL2SQL技術打造為產品落地過程中的優勢能力。

NL2SQL任務的目標是將用戶輸入的自然語言問題轉成可執行數據庫操作的SQL查詢語句,是一種典型的語義解析任務。相比于以往通過交互界面進行分析條件的篩選的“界面交互式分析表達”,這種“自然語言”的表達大大降低了技術使用門檻,人們無需再花大量的時間和精力去學習各種深奧的計算機語言,計算機自身既能理解自然語言文本的意義,也能以自然語言文本來表達給定的意圖、思想等。從而做到更貼合真實業務人員的使用訴求,在數據分析、人機問答、商業智能應用數據庫查詢信息生成報表等場景,更好地提升普通用戶對結構化數據的查詢效率,可以廣泛應用于旅游、中介、物流等服務行業,快消、房地產、汽車等傳統行業,以及金融、媒體、泛互、政務等更多行業。

騰訊云小微結合多個能力模塊推動NL2SQL技術走向落地,目前已經應用于DataTalk數據問答、客服機器人等產品中。

從技術實現的角度,云小微NL2SQL首先對用戶會話進行語音識別,通過敏感詞廣告監測模塊得到用戶的文本請求;其次,將用戶文本請求通過自然語言實體關鍵詞識別模塊,經多路AI語義解析NL2SQL模塊獲取融合后的SQL語句;然后,通過SQL語句在數據庫中進行查詢得到用戶請求的結果;最后將SQL查詢結果通過深度話術生成模型生成回復語句,實現NL2SQL數據問答。此外,云小微還創新性地提出了基于雙塔模型結合隱變量的機制,將自包含問題和多輪問題的上下文映射到同一潛在空間,保證模型充分學習到語義信息。

云小微NL2SQL流程示意圖

從用戶視角來看,云小微NL2SQL的能力優勢表現在,實現了將AI能力嵌入到業務數據分析中,讓不懂任何數據庫查詢語言,不懂任何數據分析理論,甚至是不懂任何指標、維度等數據相關概念的業務人員,也仍然可以站在自己熟悉的業務領域視角去做提問,由數據問答機器人完成背后復雜的轉化。

產品使用示意圖

通過NL2SQL技術,可以大大降低數據分析、數據洞察產品的應用門檻,讓智能分析走入大眾的日常,讓大多數真正需要數據分析服務的市場人員、銷售人員、前臺客服等非技術人員,也能夠隨時隨地詢問“數據問答機器人”;讓專業數據分析服務更加普惠化,適用于更多生活場景,從而實現“人人都是數據分析師”的目標;讓數據驅動切實服務于企業發展,助力推動更多企業的數字化轉型。


注:NL2SQL (Natural Language to SQL)常用同義術語有:Text2SQL (Text to SQL)、NL2LF (Natural Language to Logical Form)、TableQA (Table Question Answering)。

https://yale-lily.github.io/sparc

https://yale-lily.github.io/cosql

產業
1
暫無評論
暫無評論~
塔城颂嫌租售有限公司 上海东莞沃德检测有限公司| 泰州市华通消防装备厂有限公司| 芜湖艾慕尔建筑装饰工程有限公司| 上海市孚吉医学科技有限公司| 湖南一二三智能科技有限公司| 纺织用仪器有限公司| 聚缘展览服务(上海)有限公司| 瑞丰精密开关制品厂| 深圳市奥维特新能源科技有限公司| 电热线有限公司| 14 345 136 579 802