6 月 21 日消息,就在 GPT-4 因征服標準化測試而登上頭條時,微軟研究人員正在對其他 AI 模型進行一種非常另類的測試 —— 一種旨在讓模型捏造信息的測試。
為了治好這種被稱為“AI 幻覺”的癥狀,他們設定了一個會讓大多數人頭疼的文本檢索任務,然后跟蹤并改進模型響應,這也是微軟在測定、檢測和緩解 AI 幻覺方面的一個例子。
微軟 AI 負責項目的首席產品官 Sarah Bird 表示,“微軟希望其所有 AI 系統都是值得信賴且可以有效使用的”。
我們可以向這個領域投入許多專家和資源,因此我們認為自己可以幫助闡明“應該如何負責任地使用新型 AI 技術”的方法,并使其他人也能夠做到這一點。
從技術角度來講,AI 幻覺是一種“缺乏事實依據”的內容,這意味著 AI 模型改變了它所給定的數據或添油加醋描述了原本不存在的信息。
當然,AI 幻覺這種東西也不是所有時候都毫無用處,例如當用戶希望 AI 幫自己寫一個科幻故事,或給出一種非傳統想法時,就屬于是有益的;但在大多數需要 AI 的場景,諸如醫學和教育等場景就顯得多余了,因為準確性大于一切。
因此,微軟也在努力根據其自有 AI 產品(例如 Copilot)來試圖攻克 AI 幻覺,研究一系列工具來幫助機器解決幻覺問題。
微軟表示,其工程師花了數月時間,通過檢索增強生成技術(一種無需重新訓練模型即可向模型添加額外知識的技術)將必應搜索數據作為 Copilot 的依據,通過必應的答案、索引和排名數據幫助 Copilot 提供更準確、更相關的回復,同時提供引用信息,讓用戶可以自行查找和驗證。
“該模型非常擅長推理信息,但我們不認為它應該成為答案的來源,”Bird 說,“我們認為數據應該是答案的來源,因此我們解決這個問題的第一步是向模型提供最新、高質量且準確的數據。”
除此之外,微軟還試圖通過各種工具幫助客戶做到這一點,例如 Azure OpenAI 服務中的“Your Data”功能可幫助企業組織用自己的數據來訓練生成式 AI。
值得一提的是,微軟還推出了一種實時工具,可以大規模檢測應用中依據企業數據的可靠程度。微軟表示,Azure AI Studio 可以根據來源文檔評估響應的可靠程度。
據介紹,微軟還正在開發一種新的針對措施,可以實時屏蔽和糾正“毫無根據”的信息。當檢測到事實依據錯誤時,該功能將根據數據自動進行重寫。
微軟 AI 負責項目的首席產品經理 Ken Archer 表示,“處于生成式 AI 的前沿意味著我們有責任和機會讓自己的產品更安全、更可靠,并讓客戶也能放心使用我們的工具”。