首個AI程序員,演示視頻大幅度造假???
不久之前震撼硅谷的Devin,再度震撼硅谷——但這次是被打假。
事情是這樣的:油管程序員博主Internet of Bugs(以下簡稱光頭哥)對Devin的視頻進行了逐幀分析,逐一舉證說明了Devin并不如演示中那般神奇。
甚至有“自己現寫bug然后當場修復”的騷操作。
其它“罪證”,包括但不限于:
- 號稱能解決任何Upwork任務,但演示中解決的問題并不是prompt要解決的那一個,做無用功;
- 看起來在修復bug,實際上修復的bug人類程序員根本就不會犯;
- 沒有意識到簡單兩步就能解決問題,花里胡哨一頓操作,其實是自己把任務搞復雜了;
- 修改代碼的水平一言難盡。
此外,光頭哥花了半個多小時,把Devin演示視頻中的upwork任務完成了一遍——而Devin完成任務可能用時6個多小時。
啊這這這,真是好、大、一、口、瓜!
要知道,其背后公司Cognition AI手握10塊IOI金牌的活招牌,還在推出Devin當月宣布成功融資2100萬美金。
推特和YC上已經吵翻天了,讓這件事的討論度高居不下。
我請問呢?真的很討厭演示造假,讓demo看起來輕松達到意料之外的技術進步。
還有人表示自己很受傷,再也不會相信各種冒出來的創業公司的東西了。
emmmm……我還是把期待值全部留給OpenAI、Anthropic、DeepMind、FAIR這些公司和機構吧。
完整詳情,一起接著往下看。
35年從業者逐幀驗證
此次出來聲張正義的光頭哥,從事軟件行業已經35年。他首先聲明自己的立場:我并不反對高科技,但我確實反對過度炒作。
他自己也經常使用GitHub Copilot、ChatGPT、LIama2、Stable Diffusion。
事實上,在Devin剛推出時候,他就反對過“世界上第一個AI軟件工程師”這一說法。
此次則主要針對的是一些更為具體的說法。
比如之前Devin號稱能夠靠處理upwork任務來賺錢的。但在真正的演示中Devin并沒有做到這一點。
不信?沒關系,光頭哥帶著逐幀的證據來了。
總結如下:
- Devin所處理的任務并非隨機,而是精心挑選;
- 與客戶實際需求有很大的出入;
- 實際操作過程,數次自己創造bug然后再修復;
- 很多毫無意義的操作,相當于幾十年前在C語言中才用的方法;
- ???
首先,來到了演示視頻的2.936秒處,在屏幕左上角有顯示他們搜索過這個內容。因此,這不是所謂“隨機”選擇的任務。
