展會信息港展會大全

Kimi、豆包領跑,國產AI迎來新格局
來源:互聯網   發(fā)布日期:2024-11-26 08:07:15   瀏覽:32次  

導讀:每經記者:楊昕怡一道步驟難懂的數學奧賽試題、一場組會中的“頭腦風暴”、一個需要做大量“功課”才能做出的生活決策當大模型能像人類一樣思考時,你會發(fā)現,這一切都將在一次回車的敲下后迎刃而解!笆裁礃拥膱鼍白钸m合讓AI鍛煉思考能力?我們認為是數學場景。”11月16日,月之暗面創(chuàng)始人楊植麟發(fā)布了新一代數學能力可對標OpenAI o1系列的數學推理模型k0-math,在中考、高考 ......

每經記者:楊昕怡

一道步驟難懂的數學奧賽試題、一場組會中的“頭腦風暴”、一個需要做大量“功課”才能做出的生活決策當大模型能像人類一樣思考時,你會發(fā)現,這一切都將在一次回車的敲下后迎刃而解。

“什么樣的場景最適合讓AI鍛煉思考能力?我們認為是數學場景。”11月16日,月之暗面創(chuàng)始人楊植麟發(fā)布了新一代數學能力可對標OpenAI o1系列的數學推理模型k0-math,在中考、高考、考研以及包含競賽題的MATH等數學基準測試中,k0-math初代模型成績已經超過o1-mini和o1-preview模型。

“這可以說是,在OpenAI o1發(fā)布后,國內首個摸索出并實現o1思路的公司。”對于k0-math的推出,一位國內頭部互聯網公司的大模型技術人員表示,k0-math模型采用的全新強化學習和思維鏈(CoT)推理技術,正是業(yè)內普遍認為OpenAI o1系列的技術關鍵所在,國內多家互聯網巨頭均在破解這一“新思路”,但在k0-math發(fā)布時,尚未有其他類似模型問世。

在“百模大戰(zhàn)”開戰(zhàn)的一年多里,新技術、新團隊、新應用不斷涌現,戰(zhàn)況也隨之頻繁變動。從月之暗面、零一萬物等“新AI六小龍”和字節(jié)跳動、阿里等互聯網大廠團隊在混戰(zhàn)中脫穎而出,到如今應用最廣的AI智能助手陸續(xù)上線,可以觀察到的是,豆包和Kimi的領先讓AI智能助手領域逐漸呈現出了“兩超多強”的新格局。

新模型登場

Kimi對標o1

“如果你有100枚硬幣,每枚硬幣正面朝上。每次翻轉包含當前正面朝上的硬幣和它相鄰的兩枚硬幣。最少需要翻轉多少次才能使所有硬幣反面朝上?”

仿佛一個數學天才型選手,Kimi數學版在40秒鐘里完成了對該題的問題分解、3種思路嘗試、解法驗證并正確作答的全套解題流程。

值得注意的是,其中,“意識到逐個翻轉硬幣不可行,我開始思考如何最大化每次翻轉的效果”“意識到翻轉之間隔兩枚硬幣會導致重疊,我考慮增加間隔”等對思維鏈推理的展示,均是模型自我思考能力的體現。

今年9月,被Open AI創(chuàng)始人Sam Altman喻為“新范式開始”的o1誕生,以模仿人類思維過程進行的強化學習和思維鏈技術,突破了AI推理瓶頸。自此,行業(yè)的技術焦點也從預訓練轉向了推理和強化學習。

11月16日,Kimi率先交出國內首份答卷。據介紹,相較于以盡快提供答案為關鍵目標的常規(guī)模型,新推出的k0-math模型在做題過程中會花更長的時間來推理,包括思考和規(guī)劃思路,并且在必要時自行反思改進解題思路,提升答題的成功率。

發(fā)布會上,月之暗面公布了k0-math的目前測評得分:在業(yè)界最常使用的數學能力基準測試MATH中,k0-math模型得分93.8分,超過o1-mini的90分和o1-preview的85.5分,且k0-math這一成績僅次于o1完全版的94.8分。

在兩個難度更大的競賽級別的數學題庫OMNI-MATH和AIME基準測試中,k0-math初代模型的表現分別達到了o1-mini最高成績的90%和83%。

從線上AI社區(qū)的討論中選取一道數學題進行實測,Kimi數學版用時2分10秒完成了對該題的正確解答。從線上該帖的評論區(qū)反饋來看,在求解該題時,o1-mini和o1-preview在用時上有約30秒的優(yōu)勢,但多次測試均未得出正確答案。

Kimi、豆包領跑,國產AI迎來新格局

Kimi、豆包領跑,國產AI迎來新格局

Kimi、豆包領跑,國產AI迎來新格局

Kimi、豆包領跑,國產AI迎來新格局

Kimi、豆包領跑,國產AI迎來新格局

Kimi、豆包領跑,國產AI迎來新格局

Kimi、豆包領跑,國產AI迎來新格局

Kimi、豆包領跑,國產AI迎來新格局

Kimi、豆包領跑,國產AI迎來新格局

Kimi、豆包領跑,國產AI迎來新格局

Kimi、豆包領跑,國產AI迎來新格局

Kimi、豆包領跑,國產AI迎來新格局

Kimi、豆包領跑,國產AI迎來新格局

Kimi、豆包領跑,國產AI迎來新格局

Kimi、豆包領跑,國產AI迎來新格局

Kimi、豆包領跑,國產AI迎來新格局

左右滑動查看更多

“該數學推理模型上的技術也可以被放進更多的場景里,例如讓Kimi探索版去做更多的探索!正如楊植麟在發(fā)布會上所言,全新技術范式帶來的推理能力提升,也能泛化到更多日常任務上。

編輯就“找到北上廣深的各個市轄區(qū)內,有重點初中,還有直升高中并且每年至少20個清北,告訴我這個區(qū)最適合的學區(qū)房”這一較為復雜的指令,對Kimi探索版、Kimi普通版和另兩款知名AI產品進行測試。

Kimi、豆包領跑,國產AI迎來新格局

測試結果顯示,Kimi探索版在搜索量、搜索內容和生成內容上優(yōu)勢明顯,甚至出現了對1311個網頁的分析,直觀感受到Kimi探索版在意圖增強、信源分析和鏈式思考上的能力提升。

豆包、Kimi的領先

分水嶺明顯

Kimi領先的每一步,都在一次次搜索中被用戶清晰地感知著。“以前2、3個小時才能看懂的文章,用Kimi幾分鐘就能得到所有關鍵信息,現在也會在實驗中讓探索版給出研究設計、方法論選擇上的建議!币晃唤洗髮W的在讀工科博士表示。

基于Kimi對學術研究、市場分析等專業(yè)應用場景的不斷深耕和所體現出的明顯優(yōu)勢,其用戶群體涵蓋了學生、科研人員、職場人士和內容創(chuàng)作者等知識需求型人群。月之暗面也表示,Kimi探索版發(fā)布后,受到了程序員、科學家、咨詢顧問、投資人、律師等專業(yè)人群的喜愛。

從用戶體量來看,根據量子位智庫統(tǒng)計的數據,截至今年10月,在國內現有的68款AI智能助手產品中,只有豆包和Kimi邁過“5000萬大關”,其中豆包歷史累計下載量破億,Kimi智能助手下載總量超過5700萬。

榜單中,排名第3、4位的產品下載總量各超過2000萬。同時,10月新增用戶超1400萬的Kimi還在將身后的差距逐漸拉大,有望成為“破億俱樂部”的下一位成員。

第三方平臺點點數據也顯示,今年10月,ChatGPT、豆包和Kimi智能助手位列全球AI APP蘋果端下載量前三,占據了全球蘋果端AI APP下載量的51%。

在用戶黏性方面,量子位智庫指出,我國AI智能助手產品今年10月的留存率基本與上月持平,豆包和Kimi仍穩(wěn)居前二,兩者平均三日留存率超27%,平均七日新增留存率約18%。而其他AI助手產品的平均三日留存率均在25%以下。

此外,從用戶活躍度來看,Kimi的10月日活用戶量也僅次于豆包。月之暗面公布的數據顯示,截至今年10月,Kimi的月活已超3600萬人,而且數據仍在持續(xù)增長。

從用戶體量、活躍度和黏性等多個重要維度來觀察,豆包和Kimi已處于第一領跑集團,并與隨后各梯隊間出現鮮明的分水嶺。

“競爭本身并不產生價值,我們做好模型思考推理能力,給用戶帶來價值,做正確的事情,而不是專門做不一樣的事情!痹趉0-math的發(fā)布會上,楊植麟談及和以交互能力見長的豆包的競爭時,再度以“聚焦”作為回應。

學會“聚焦”,這是楊植麟過去一年中的一個大課題。如今,這個“創(chuàng)業(yè)明星”和他的團隊決定眼看前方,繼續(xù)以加速度向月之暗面邁步前去。

記者|楊昕怡

編輯|蒙錦濤

贊助本站

相關熱詞: kimi 豆包 月之暗面 openai

AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港