亚洲乱码一区二区三区三上悠亚,精品国产影院,亚洲三区在线

11 月 6 日消息，月之暗面今晚推出 Kimi 迄今能力最強(qiáng)的開(kāi)源思考模型 ——Kimi K2 Thinking。

據(jù)介紹，該模型是月之暗面基于“模型即 Agent”理念訓(xùn)練的新一代 Thinking Agent，原生掌握“邊思考，邊使用工具”的能力。在人類(lèi)最后的考試（Humanity's Last Exam）、自主網(wǎng)絡(luò)瀏覽能力（BrowseComp）、復(fù)雜信息收集推理（SEAL-0）等多項(xiàng)基準(zhǔn)測(cè)試中表現(xiàn)達(dá)到 SOTA 水平，并在 Agentic 搜索、Agentic 編程、寫(xiě)作和綜合推理能力等方面取得全面提升。

Kimi迄今能力最強(qiáng)開(kāi)源思考模型，月之暗面Kimi K2 Thinking發(fā)布

該模型無(wú)需人類(lèi)干預(yù)，即可自主實(shí)現(xiàn)高達(dá) 300 輪的工具調(diào)用和持續(xù)穩(wěn)定的多輪思考能力，從而幫助用戶(hù)解決更復(fù)雜的問(wèn)題。

附 Hugging Face、ModelScope 部署鏈接如下：

Hugging Face：https://huggingface.co/moonshotai

ModelScope：https://www.modelscope.cn/organization/moonshotai

“人類(lèi)最后的考試”是一項(xiàng)涵蓋 100 多個(gè)專(zhuān)業(yè)領(lǐng)域的終極封閉式學(xué)術(shù)測(cè)試。在允許使用工具 —— 搜索、Python、網(wǎng)絡(luò)瀏覽工具的同等情況下，Kimi K2 Thinking 在這項(xiàng)基準(zhǔn)評(píng)測(cè)中取得了 44.9% 的 SOTA 成績(jī)。

Kimi迄今能力最強(qiáng)開(kāi)源思考模型，月之暗面Kimi K2 Thinking發(fā)布

官方提供的示例中，Kimi K2 Thinking 經(jīng)過(guò) 5 輪搜索和推理，結(jié)合每輪搜索到的新信息，層層深入，最終推理出了答案：

Kimi迄今能力最強(qiáng)開(kāi)源思考模型，月之暗面Kimi K2 Thinking發(fā)布

根據(jù)介紹，在復(fù)雜搜索和瀏覽場(chǎng)景中，Kimi K2 Thinking 模型也表現(xiàn)出色。BrowseComp 是由 OpenAI 發(fā)布的一個(gè)專(zhuān)門(mén)評(píng)估 AI Agent 網(wǎng)絡(luò)瀏覽能力的基準(zhǔn)測(cè)試，這項(xiàng)測(cè)試的初衷是衡量 AI Agent 在信息過(guò)載環(huán)境中展現(xiàn)出的堅(jiān)持性與創(chuàng)造力，即能否像人類(lèi)研究員一樣“刨根問(wèn)底”。在這項(xiàng)極具挑戰(zhàn)的任務(wù)上，人類(lèi)平均只能達(dá)到 29.2% 的成績(jī)。Kimi K2 Thinking 在這項(xiàng)基準(zhǔn)測(cè)試中展現(xiàn)出極強(qiáng)的鉆研能力，以 60.2% 的成績(jī)成為新的 SOTA 模型。

Kimi迄今能力最強(qiáng)開(kāi)源思考模型，月之暗面Kimi K2 Thinking發(fā)布

在長(zhǎng)程規(guī)劃和自主搜索能力的驅(qū)動(dòng)下，Kimi K2 Thinking 可借助多達(dá)上百輪的“思考 → 搜索 → 瀏覽網(wǎng)頁(yè) → 思考 → 編程”動(dòng)態(tài)循環(huán)，持續(xù)地提出并完善假設(shè)、驗(yàn)證證據(jù)、進(jìn)行推理，并構(gòu)建出邏輯一致的答案。這種邊主動(dòng)搜索邊持續(xù)思考的能力，使 Kimi K2 Thinking 能夠?qū)⒛：议_(kāi)放式的問(wèn)題分解為清晰、可執(zhí)行的子任務(wù)。

在官方提供的另一個(gè)例子中，Kimi K2 Thinking 經(jīng)過(guò)兩輪搜索和思考，先根據(jù)股回購(gòu)的已知信息找到了這家制造快速的公司，然后在美國(guó)證券交易委員會(huì)（SEC）的官網(wǎng)上找到了股回購(gòu)公告信息，得出了準(zhǔn)確的答案：

Kimi迄今能力最強(qiáng)開(kāi)源思考模型，月之暗面Kimi K2 Thinking發(fā)布

Kimi K2 Thinking 模型的編碼能力也得到了增強(qiáng)，在多語(yǔ)言軟件工程基準(zhǔn) SWE-Multilingual、SWE-bench 驗(yàn)證集和 Terminal 終端使用等基準(zhǔn)測(cè)試中的表現(xiàn)有了進(jìn)一步提升。

月之暗面表示，Kimi K2 Thinking 的通用基礎(chǔ)能力也得到了升級(jí)：

創(chuàng)意寫(xiě)作：Kimi K2 Thinking 顯著提升了寫(xiě)作能力，能將粗略的靈感轉(zhuǎn)化為清晰、動(dòng)人且意圖明確的敘述，使其兼具韻律感和深度。它能輕松駕馭微妙的文風(fēng)差異和模糊的結(jié)構(gòu)，并在長(zhǎng)篇大論中保持風(fēng)格的連貫性。在創(chuàng)意寫(xiě)作方面，它筆下的意象更生動(dòng)，情感共鳴更強(qiáng)烈，將精準(zhǔn)的表達(dá)與豐富的表現(xiàn)力融為一體。

學(xué)術(shù)與研究：在學(xué)術(shù)研究和專(zhuān)業(yè)領(lǐng)域，Kimi K2 Thinking 在分析深度、信息準(zhǔn)確性和邏輯結(jié)構(gòu)方面均有顯著提升。它能有條不紊地剖析復(fù)雜的指令，并以清晰嚴(yán)謹(jǐn)?shù)姆绞酵卣顾悸贰＿@使其尤其擅長(zhǎng)處理學(xué)術(shù)論文、技術(shù)摘要，以及那些對(duì)信息完整性和推理質(zhì)量要求極高的長(zhǎng)篇報(bào)告。

個(gè)人與情感：在回應(yīng)個(gè)人或情感類(lèi)問(wèn)題時(shí)，Kimi K2 Thinking 的回答更富同理心，立場(chǎng)也更中正平和。它的思考深入周到且具體明確，能提供細(xì)致入微的觀(guān)點(diǎn)和切實(shí)可行的后續(xù)建議。它能清晰并關(guān)切地幫助用戶(hù)梳理復(fù)雜的決策，其語(yǔ)氣既腳踏實(shí)地又切實(shí)中肯，更有人情味。

亚洲一区二区三区无吗_中文视频一区_yw.尤物在线精品视频_亚洲一区中文在线

Kimi迄今能力最強(qiáng)開(kāi)源思考模型，月之暗面Kimi K2 Thinking發(fā)布

每日福利更多>>