9 月 27 日消息,科技媒體 ZDNet 昨日(9 月 26 日)發布博文,報道稱 OpenAI 推出名為 GDPval 的全新 AI 評估基準,旨在衡量前沿模型在真實經濟價值任務中的表現,以彌補學術測試與實際應用間的差距。
盡管當前大量 AI 工具涌入市場并承諾提升生產力,但其在企業中的實際應用效果卻參差不齊。為解決 AI 模型在學術基準測試與真實世界表現之間的脫節問題,OpenAI 于周四發布了一套名為 GDPval 的全新評估體系,其核心目標是“衡量 AI 在具有經濟價值的真實世界任務中的表現”,從而為行業提供一個更貼近實踐的評判標準。
GDPval 的設計深度模擬了真實工作場景。它覆蓋了對美國 GDP 貢獻最高的九大行業中的 44 個職業,共計 1320 項具體任務。這些任務由平均擁有 14 年相關領域經驗的專業人士創建,確保了其真實性和復雜性。

與傳統依賴文本提示的評測不同,GDPval 要求 AI 模型處理文件、生成幻燈片和格式化文檔等多模態交付物,以此更真實地檢驗模型在實際工作環境中的綜合能力。
在首輪測試中,OpenAI 邀請行業專家對多個前沿模型的輸出進行盲評,其中包括自家的 GPT-5、GPT-4o,以及 Anthropic 的 Claude Opus 4.1、谷歌的 Gemini 2.5 Pro 等。
評測結果出人意料:Claude Opus 4.1 憑借在文檔格式、幻燈片布局等“美學”方面的出色表現,成為綜合性能最佳的模型;而備受關注的 GPT-5 則在特定領域知識的“準確性”方面拔得頭籌。

該研究還揭示了 AI 模型性能的飛速進步與巨大的成本優勢。數據顯示,從 2024 年春季發布的 GPT-4o 到預計 2025 年夏季發布的 GPT-5,模型性能提升超過一倍。


更引人注目的是,研究發現前沿模型完成 GDPval 任務的速度比行業專家快約 100 倍,成本也僅為后者的百分之一。
不過,OpenAI 強調,這些數據僅反映了純粹的模型推理成本,并未包含現實工作中必要的人工監督、迭代和集成步驟。
OpenAI 也坦誠 GDPval 目前存在局限性。作為一個初期版本,該基準主要進行一次性任務評估,尚無法衡量模型處理需要多輪修改的復雜項目或應對充滿模糊性的現實工作的能力。
例如,它無法評估模型根據客戶反饋修改方案或處理數據異常等動態、交互式的任務。OpenAI 表示,未來的迭代將覆蓋更多行業和更難自動化的任務,并會發布部分數據集供研究人員使用。