Phi-3 Mini 模型發(fā)布不到兩周,微軟又傳出了自研千億參數(shù)級別模型的消息。
自向 OpenAI 投資超 100 億美元以換取重用其人工智能模型的權(quán)利以來,微軟首次開始在內(nèi)部自研全新且足夠大的人工智能模型,或能與來自谷歌、Anthropic 和 OpenAI 的最先進(jìn)模型相競爭。
這個新模型在內(nèi)部被稱為 MAI-1,由前谷歌人工智能領(lǐng)導(dǎo)者、 AI 初創(chuàng)公司 Inflection 的 CEO 穆斯塔法·蘇萊曼 (Mustafa Suleyman) 負(fù)責(zé)監(jiān)督。知情人士稱,MAI-1 的參數(shù)規(guī)模將遠(yuǎn)遠(yuǎn)大于 Phi-3 等任何微軟之前訓(xùn)練過的較小的開源模型。但這意味著,它將需要更多的計(jì)算能力和訓(xùn)練數(shù)據(jù),因此成本會更高。
同時,微軟此舉表明,其現(xiàn)在正在人工智能領(lǐng)域追求“雙重軌道”,目標(biāo)是開發(fā)既可以廉價(jià)地構(gòu)建到應(yīng)用程序中又可以在移動設(shè)備上運(yùn)行的“小語言模型”,以及更大、最先進(jìn)的人工智能模型。蘋果目前似乎也正在探索類似的路徑,此前同樣也發(fā)布了八款針對設(shè)備使用的小型 AI 語言模型。
5000 億參數(shù)級別
最早或于本月亮相
據(jù)介紹,MAI-1 將有大約 5000 億個參數(shù)或設(shè)置,可以調(diào)整這些參數(shù)或設(shè)置以確定模型在訓(xùn)練期間學(xué)習(xí)的內(nèi)容。相比之下,OpenAI 的 GPT-4 有超過 1 萬億個參數(shù),而 Meta 和 Mistral 等公司發(fā)布的小型開源模型有 700 億個參數(shù)。
這表明,MAI-1 可以定位為 GPT-3 和 GPT-4 之間級別的一種模型,該模型將能夠提供遠(yuǎn)遠(yuǎn)高于 Llama 和 Mistral 等開源模型、但或低于 OpenAI 旗艦版 LLM 的響應(yīng)精度。
為了訓(xùn)練該模型,微軟一直在分配大量配備 Nvidia GPU 的服務(wù)器,并編譯各種來源的訓(xùn)練數(shù)據(jù),包括 OpenAI 的 GPT-4 生成的文本和公共互聯(lián)網(wǎng)數(shù)據(jù),還可能會使用來自 Inflection 的訓(xùn)練數(shù)據(jù)和某些其他資產(chǎn)來支持 MAI-1。
目前,MAI-1 的確切用途尚未確定(即使在微軟內(nèi)部),其最理想的用途將取決于其性能。如果該模型確實(shí)具有 5000 億個參數(shù),那么在消費(fèi)類設(shè)備上運(yùn)行就太復(fù)雜了。這意味著,微軟很可能會在其數(shù)據(jù)中心部署 MAI-1,在這里大語言模型可以集成到 Bing 和 Azure 等服務(wù)中。
微軟可能最早在本月晚些時候的 Build 開發(fā)者大會上,根據(jù)未來幾周取得的進(jìn)展亮相 MAI-1。
MAI-1 的研發(fā)是基于 Inflection?
“盡管 MAI-1 是一種全新的、與 Inflection 之前發(fā)布的 Pi 分開的大型語言模型 ,但其可能建立在前 Inflection 員工帶來的技術(shù)之上。”據(jù)兩名了解情況的微軟員工稱。
從 OpenAI 官網(wǎng)的一份聲明來看,Inflection 曾是 OpenAI 的競爭對手,但它現(xiàn)在把業(yè)務(wù)重點(diǎn)從聊天機(jī)器人 Pi 轉(zhuǎn)向了向企業(yè)銷售人工智能軟件。曾擔(dān)任過各種技術(shù)職務(wù)的肖恩·懷特 (Sean White) 已加入該公司,擔(dān)任新任 CEO。
今年 3 月,微軟以 6.5 億美元收購了這家初創(chuàng)公司的大部分員工和知識產(chǎn)權(quán),并聘請?zhí)K萊曼來領(lǐng)導(dǎo)一個新的消費(fèi)者人工智能部門。該部門將面向消費(fèi)者的產(chǎn)品(包括微軟的 Copilot、Bing、Edge 和 GenAI)歸入一個名為 Microsoft AI 的團(tuán)隊(duì),而蘇萊曼直接向 Microsoft 首席執(zhí)行官薩蒂亞·納德拉(Satya Nadella)匯報(bào)工作。
新部門標(biāo)志著 Microsoft 的重大組織轉(zhuǎn)變,其網(wǎng)絡(luò)服務(wù)總裁 Mikhail Parakhin 將與他的整個團(tuán)隊(duì)一起向蘇萊曼匯報(bào)工作。這也是微軟利用生成人工智能熱潮的最新舉措之一。
納德拉在一份聲明中說:“我認(rèn)識穆斯塔法已經(jīng)好幾年了,我非常欽佩他作為 DeepMind 和 Inflection 的創(chuàng)始人,以及一個有遠(yuǎn)見的產(chǎn)品制造商和追求大膽使命的開拓團(tuán)隊(duì)建設(shè)者。”
DeepMind 于 2010 年在英國成立,2014 年被谷歌以 5 億美元收購,蘇萊曼是該公司的三位創(chuàng)始人之一。在 DeepMind 就職時,蘇萊曼曾因員工抱怨其咄咄逼人又過于激進(jìn)的管理風(fēng)格引發(fā)爭議,于 2019 年被迫離開 DeepMind。之后談到當(dāng)時的員工投訴時,蘇萊曼回應(yīng)說:“我真的搞砸了。我要求很高,而且相當(dāng)無情。我設(shè)定了一些相當(dāng)不合理的期望,導(dǎo)致一些人的工作環(huán)境非常惡劣。我對此感到非常遺憾。”
幾個月后,他轉(zhuǎn)到谷歌總部,負(fù)責(zé)領(lǐng)導(dǎo)人工智能產(chǎn)品管理和政策。2022 年,他從谷歌離職,加入了硅谷風(fēng)險(xiǎn)投資公司 Greylock,并于當(dāng)年晚些時候推出了 Inflection。
據(jù)悉,微軟還將聘用 Inflection 的大部分員工,Inflection 的聯(lián)合創(chuàng)始人兼首席科學(xué)家 Karén Simonyan 也將擔(dān)任其 AI 團(tuán)隊(duì)的首席科學(xué)家。雖然微軟沒有明確調(diào)動的員工人數(shù),但表示其中包括人工智能工程師、研究人員和大型語言模型構(gòu)建者,他們設(shè)計(jì)并共同完成了“過去五年中為推動人工智能發(fā)展做出的許多最重要貢獻(xiàn)”。
Inflection 的第三位聯(lián)合創(chuàng)始人、LinkedIn 創(chuàng)始人兼執(zhí)行主席 Reid Hoffman 將繼續(xù)留在 Inflection 的董事會。
去年 6 月,Inflection 還完成 13 億美元的一輪融資,由微軟、英偉達(dá)和三位億萬富翁(Reid Hoffman、Bill Gates 和 Eric Schmidt)牽頭投資。當(dāng)時,微軟首席技術(shù)官 Kevin Scott 還表示,“像 Inflection 這樣雄心勃勃的人工智能公司,正在憑借易于使用并展示人工智能多種可能性的變革性產(chǎn)品引領(lǐng)行業(yè)發(fā)展。”