高質量、大規模、安全可信的語料數據資源是AI時代的重要基石。高質量語料數據如何高效供給賦能大模型產業發展?
7月6日上午,2024世界人工智能大會語料主題論壇在上海舉辦。本次論壇以“語料筑基,智生時代”為主題,圍繞高質量語料數據如何高效供給賦能大模型產業發展,向市場傳遞專業化、鏈接型、前瞻性的語料生態設計理念。
上海市政府副秘書長莊木弟出席論壇并致辭。他表示,語料數據是大模型訓練的重要“燃料”,高質量的語料對于大模型在各行各業的應用十分關鍵,有助于大模型更好地適配實際應用場景,加快實現人工智能賦能千行百業的愿景。
在主旨演講環節中,中國科學院院士鄂維南分享了如何將大模型方法和高性能的通用AI數據庫方法相結合,來建立高效率、高準確率、低門檻、低成本的人工智能系統。人民網黨委書記、董事長葉蓁蓁則分享了“基于價值對齊的模型發展與語料數據的創新供給”,他重點分享了人民網在主流價值對齊方面的實踐與經驗,基于多維度價值對齊體系的語料庫,讓大模型像人一樣“有德、有趣、有序、有品、有用”。
對照最高標準、最好水平,打造世界一流的語料樞紐,實現更高效率、更高質量的語料供給,會上發布了“語料運營平臺1.0”,實現了面向語料數據“采、洗、標、測、用”五位一體的工具鏈能力。
另外,會上,庫帕思攜手咪咕視頻、寶信軟件、復旦大學智能醫學研究院、上海工創中心、匯納科技、萬達信息、DGC數傳集團、文遠知行、文因互聯、上海電科智能、海天瑞生,集中發布了十大語料數據產品。
論壇中同時發布了金融、生命健康、教育三項行業語料術白皮書。其中,《高質量金融語料技術白皮書》聚焦銀行、證券、保險、基金等行業實踐,重新定義了高質量金融語料數據集的內涵和外延,形成了基于金融領域知識體系的“語料魔方”方法論;《教育人工智能大模型數據治理與共享技術白皮書》對標國內外教育數據的系列政策、標準,確立了教育行業語料數據的標準用例與價值體系,形成了一套教育AI大模型數據治理與共享技術標準;《高質量生命健康語料技術白皮書》從基礎醫學、藥物研發、臨床醫學、健康管理、中醫中藥五個方向確立了生命健康語料庫的路線圖,創新了從尋源、清洗到標注、測試的工具體系。
為實現“語料數據資源共建共享”、“鼓勵多元主體共同推動高水平語料數據要素建設”的目標,庫帕思公司會同覆蓋多模態數據資源供應、加工、應用和運營全鏈的近二十家企業共同發布了團體標準《語料庫建設導則》。
為進一步強化語料生態全產業鏈各主體間的交流合作,營造有利于我國大模型產業生態健康發展的環境, 50余家單位在此次論壇上共同發起“語料生態服務大模型可持續發展倡議”,共同倡導攜手為我國大模型產業發展持續提供高質量語料。