剛剛,谷歌DeepMind、JHU、牛津等發布研究,證實GPT-4的心智理論已經完全達到成年人類水平,在更復雜的第6階推理上,更是大幅超越人類!此前已經證實,GPT-4比人類更能理解語言中的諷刺和暗示。在心智理論上,人類是徹底被LLM甩在后面了。
GPT-4的高階心智理論(ToM),已經正式超越人類!
就在剛剛,谷歌DeepMind、約翰斯·霍普金斯大學和牛津大學等機構的學者發布的研究證實,GPT-4在心智理論任務上的表現,已經完全達到了成年人類的水平。
而且,它在第6階推理上的表現,更是大幅超過了人類!
論文地址:https://arxiv.org/pdf/2405.18870
無獨有偶,此前Nature子刊《自然·人類行為》的一項研究也證實了,GPT-4在心智理論上的表現已經位于人類水平之上,能夠比人類更好地察覺出言語中的諷刺和暗示。如果你不這么覺得,那它大概率只是在隱藏實力而已。
總之,這前后腳的兩項研究清晰地表明,如今表現最好的大語言模型,已經發展出廣義的心智理論能力,而GPT-4,已經是其中的佼佼者。
所以,距離各位LLM用心智和權術把我們人類玩弄于股掌之間的那一天,還有多遠?
高階心智理論
這次的研究,探討了LLM究竟能在多大程度上發展高階心智理論(higher-order ToM)。
所謂高階心智理論,就是人類以遞歸方式,推理他人的多種心理和情感狀態的能力。
比如,「我認為你相信她知道」這句話中,就包含了非常復雜的多層推理,屬于一個三階陳述。
在以前,大部分相關研究,都集中在二階ToM上。
用什么樣的方法,能衡量出LLM對如此復雜問題的把握能力?
團隊特意引入了一套手寫測試套件——多階心智理論問答測試。
而參與PK的選手,有5個LLM和一大群成年人。