展會(huì)信息港展會(huì)大全

百度周末發(fā)布文心4.5和推理模型X1,已經(jīng)兩周年了啊
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2025-03-16 15:14:03   瀏覽:193次  

導(dǎo)讀:剛剛,百度的文心一言上了他們最新的模型文心4.5和推理模型X1。早上10點(diǎn)多起床看到新聞?dòng)悬c(diǎn)懵逼,就,大周末的,挺突然的。。扒拉了23年的3月16日,才發(fā)現(xiàn),那一天是文心一言的正式發(fā)布。原來(lái)文心一言都發(fā)布兩年了啊。/span>兩年時(shí)間,彈指一揮間。文心4.5,是一個(gè)類似于GPT4o的原生多模態(tài)模型,能理解音頻、視頻、圖片,只不過(guò)都是理解,沒(méi)有輸出能力。而文心X1,則是一個(gè)正 ......

剛剛,百度的文心一言上了他們最新的模型文心4.5和推理模型X1。

早上10點(diǎn)多起床看到新聞?dòng)悬c(diǎn)懵逼,就,大周末的,挺突然的。。

百度周末發(fā)布文心4.5和推理模型X1,已經(jīng)兩周年了啊

扒拉了23年的3月16日,才發(fā)現(xiàn),那一天是文心一言的正式發(fā)布。

百度周末發(fā)布文心4.5和推理模型X1,已經(jīng)兩周年了啊

原來(lái)文心一言都發(fā)布兩年了啊。/span>

兩年時(shí)間,彈指一揮間。

文心4.5,是一個(gè)類似于GPT4o的原生多模態(tài)模型,能理解音頻、視頻、圖片,只不過(guò)都是理解,沒(méi)有輸出能力。而文心X1,則是一個(gè)正常的推理模型。

按照慣例,先看一下官方給的參數(shù)數(shù)據(jù)。

百度周末發(fā)布文心4.5和推理模型X1,已經(jīng)兩周年了啊

百度周末發(fā)布文心4.5和推理模型X1,已經(jīng)兩周年了啊

基準(zhǔn)測(cè)試成績(jī)的平均分是挺高的。只不過(guò)在大家都比較看重的編程這塊,用的測(cè)試基準(zhǔn)是HumanEval+、MBPP+、LiveCodeBench。沒(méi)有看到比如Claude他們用的SWE-bench Verified基準(zhǔn),不知道真實(shí)的跑分會(huì)怎么樣。

而X1,沒(méi)有跑分對(duì)比,只放出了價(jià)格。

價(jià)格說(shuō)實(shí)話,文心確實(shí)有不錯(cuò)的亮點(diǎn)。

GPT4.5發(fā)布的時(shí)候,我狠狠吐槽了一下,它的輸入是DeepSeek v3的280倍,輸出是150倍。

真的,現(xiàn)在想起來(lái)我還是覺(jué)得很離譜。

而文心大模型在這點(diǎn)上還是給我很大驚喜的。文心4.5的輸入價(jià)格為0.004元/千tokens,輸出0.016元/千tokens,約為GPT4.5價(jià)格的1%。

百度周末發(fā)布文心4.5和推理模型X1,已經(jīng)兩周年了啊

同樣是4.5,OpenAI你看看人家。。

推理模型X1這塊,價(jià)格僅為DeepSeek R1一半,輸入0.002元/千tokens,輸出0.008元/千tokens。

百度周末發(fā)布文心4.5和推理模型X1,已經(jīng)兩周年了啊

比DeepSeek還便宜,不吹不黑,這個(gè)還是有點(diǎn)東西的。。。牛逼。

目前這兩個(gè)模型,已經(jīng)上線他們官網(wǎng)了。

百度周末發(fā)布文心4.5和推理模型X1,已經(jīng)兩周年了啊

我自己測(cè)了一早上,也說(shuō)一下我實(shí)測(cè)的結(jié)論:挺全面的,什么都有,挺綜合。

大家可以先試試看,自己有一個(gè)大概的感知,再回來(lái)繼續(xù)讀。

接下來(lái),我們一個(gè)一個(gè)說(shuō)。

文心4.5。

百度周末發(fā)布文心4.5和推理模型X1,已經(jīng)兩周年了啊

解析圖片、視頻啥的都支持,還能直接繪圖。

圖片理解能力還不錯(cuò),測(cè)了梗圖理解,基本都能get到意思。

百度周末發(fā)布文心4.5和推理模型X1,已經(jīng)兩周年了啊

但是一些藏起來(lái)的梗,還是比較難識(shí)別。

百度周末發(fā)布文心4.5和推理模型X1,已經(jīng)兩周年了啊

感覺(jué)AI還是不能理解人類牛馬的生活。。

寫作能力上,比較的硬比較的模板,寫一些套路化的東西還是不錯(cuò)的,但是寫故事,坦率的講,還需要繼續(xù)精煉。

百度周末發(fā)布文心4.5和推理模型X1,已經(jīng)兩周年了啊

視頻解析也比較基礎(chǔ),有,能理解,但是做不了電影拉片那種級(jí)別的操作。

百度周末發(fā)布文心4.5和推理模型X1,已經(jīng)兩周年了啊

圖生圖,準(zhǔn)倒是挺準(zhǔn)的。

百度周末發(fā)布文心4.5和推理模型X1,已經(jīng)兩周年了啊

像不像的另說(shuō),反正挺帥的。

玩了半天,腦筋急轉(zhuǎn)彎測(cè)下來(lái)算是個(gè)強(qiáng)項(xiàng)。

比如之前在我群里這個(gè)流傳的腦筋急轉(zhuǎn)彎。

百度周末發(fā)布文心4.5和推理模型X1,已經(jīng)兩周年了啊

文心4.5居然答對(duì)了。

百度周末發(fā)布文心4.5和推理模型X1,已經(jīng)兩周年了啊

相同的問(wèn)題再問(wèn)一下Claude3.7+extended(因?yàn)?.7沒(méi)答對(duì),我又加了個(gè)推理。。)

百度周末發(fā)布文心4.5和推理模型X1,已經(jīng)兩周年了啊

7??思考了一分多鐘的廢物。。

再來(lái)說(shuō)說(shuō)這個(gè)百度第一次推出的推理模型X1。

百度周末發(fā)布文心4.5和推理模型X1,已經(jīng)兩周年了啊

打開(kāi)【聯(lián)網(wǎng)搜索+調(diào)用工具】后也能調(diào)用圖片理解和上傳文件。

但是在交互上非常的詭異,如果你沒(méi)開(kāi)聯(lián)網(wǎng)的話,你是看不到上傳附件的入口的。

百度周末發(fā)布文心4.5和推理模型X1,已經(jīng)兩周年了啊

先打開(kāi)聯(lián)網(wǎng)搜索,這時(shí)候調(diào)用工具亮起,成為非置灰狀態(tài)。

百度周末發(fā)布文心4.5和推理模型X1,已經(jīng)兩周年了啊

再打開(kāi)調(diào)用工具,才能看到上傳文檔和圖片。

百度周末發(fā)布文心4.5和推理模型X1,已經(jīng)兩周年了啊

有點(diǎn)說(shuō)實(shí)話,作為干了快10年的UX設(shè)計(jì)師,這個(gè)交互真的讓我有點(diǎn)摸不著頭腦= =

在推理能力上,效果還行。

比如一個(gè)經(jīng)典的問(wèn)題:

有一天,一個(gè)女孩參加數(shù)學(xué)考試只得了38分。她心里對(duì)父親的懲罰充滿恐懼,于是偷偷把分?jǐn)?shù)改成了88分。她的父親看到試卷后,怒發(fā)沖冠,狠狠地給了她一耳光,怒吼道:"你這8怎么一半是綠的一半是紅的,你以為我是傻子嗎?"女孩被打后,委屈地哭了起來(lái),什么也沒(méi)說(shuō)。過(guò)了一會(huì)兒,父親突然想到了什么,抱住孩子痛哭起來(lái)父親突然想到了什么?

雖然文心X1內(nèi)心戲有點(diǎn)多,但是最后答對(duì)了。

百度周末發(fā)布文心4.5和推理模型X1,已經(jīng)兩周年了啊

而X1的文筆,也有一些自己獨(dú)有的感覺(jué)了。

百度周末發(fā)布文心4.5和推理模型X1,已經(jīng)兩周年了啊

有一說(shuō)一,這個(gè)故事,還真的挺好看的。

百度周末發(fā)布文心4.5和推理模型X1,已經(jīng)兩周年了啊

在圖片理解上,我傳了一張圖上去試試,本來(lái)我想讓他推斷一下我多大。。

百度周末發(fā)布文心4.5和推理模型X1,已經(jīng)兩周年了啊

結(jié)果給我認(rèn)成韓國(guó)演員了,好好好。

我還專門去搜了一下,長(zhǎng)這樣。

百度周末發(fā)布文心4.5和推理模型X1,已經(jīng)兩周年了啊

和我,像么...?倒是和之前4.5生成的有點(diǎn)像。。還連上了是吧。

因?yàn)镈eepSeek之前太過(guò)于圓滑,情商太高,不少人都說(shuō)“不愧是中國(guó)的AI”,我也測(cè)了一下X1的。

比如說(shuō),我問(wèn)我和大聰明哪個(gè)寫文章更有深度。

百度周末發(fā)布文心4.5和推理模型X1,已經(jīng)兩周年了啊

第一遍回答的是大聰明。

但是我一說(shuō),我是數(shù)字生命卡茲克。

百度周末發(fā)布文心4.5和推理模型X1,已經(jīng)兩周年了啊

他就選我了哈哈哈哈,不愧是made in China。

再說(shuō)個(gè)昨天很氣憤的事,315打假直接一波干沒(méi)了一堆衛(wèi)生巾。。

我一個(gè)男生都看不下去了,趕緊給身邊的女生們避避雷。

百度周末發(fā)布文心4.5和推理模型X1,已經(jīng)兩周年了啊

當(dāng)然,文心一言總體能力并沒(méi)有超出太多預(yù)期。

比如在處理超前沿專業(yè)問(wèn)題時(shí),深度還是差了一些;回答問(wèn)題的靈活度也有待提高;還是會(huì)遇到模板化太AI的回答。。。

而且我也不理解,為什么今天發(fā)布,要等3個(gè)月之后才開(kāi)源,為什么不像Qwen和智譜、混元那樣,發(fā)布即開(kāi)源。

一聲嘆息。

但是還是得說(shuō),這次的升級(jí),文心一言正在努力追回之前落下的距離。

回顧一下文心一言的發(fā)展歷程,其實(shí)挺有戲劇性的。

2023年3月,在那個(gè)莽荒世紀(jì),眾人紛紛被GPT4打懵,文心一言上線,成為國(guó)內(nèi)首個(gè)大規(guī)模推出的通用大模型產(chǎn)品,也是大家所認(rèn)為的,全村的希望。

文心一言的出現(xiàn)給了我們一個(gè)“中國(guó)也有大模型”的信心。只要你愿意排隊(duì),就能嘗鮮體驗(yàn)這個(gè)被譽(yù)為“國(guó)產(chǎn)ChatGPT”的產(chǎn)品。

然而好景不長(zhǎng)。隨著更多玩家入場(chǎng),文心一言開(kāi)始逐漸顯露出能力上的局限。

其次是產(chǎn)品定位的搖擺。一會(huì)兒強(qiáng)調(diào)搜索增強(qiáng),一會(huì)兒又轉(zhuǎn)向創(chuàng)意創(chuàng)作,文心一言似乎一直在尋找自己的獨(dú)特價(jià)值,但反而模糊了核心競(jìng)爭(zhēng)力。

當(dāng)然,這是大部分模型公司共同的痛點(diǎn)。

最核心的,我覺(jué)得是過(guò)早的開(kāi)始收費(fèi)。。讓不少用戶選擇了觀望或轉(zhuǎn)投其他平臺(tái)。

直到DeepSeek出圈這一波,大家才發(fā)現(xiàn),原來(lái),模型即產(chǎn)品。

這次文心一言X和文心4.5的發(fā)布,從我早上的體驗(yàn)來(lái)看,確實(shí)在追趕的路上取得了一些進(jìn)展。

百度周末發(fā)布文心4.5和推理模型X1,已經(jīng)兩周年了啊

就像是文心X1對(duì)自己的評(píng)價(jià),再合適不過(guò)了。

回到國(guó)內(nèi)大模型的發(fā)展。隨著DeepSeek的崛起,豆包、Kimi等產(chǎn)品的持續(xù)迭代,以及文心一言此次的突發(fā)追擊,國(guó)內(nèi)大模型圈正在形成一種良性競(jìng)爭(zhēng)的態(tài)勢(shì)。

當(dāng)然,前路仍漫漫。

與全球頂尖大模型相比,國(guó)產(chǎn)大模型在技術(shù)深度、思維廣度上還有差距。但差距正在縮小,而且縮小的速度比我們想象的要快。

希望吧。

未來(lái)有更多的光。

以上,既然看到這里了,如果覺(jué)得不錯(cuò),隨手點(diǎn)個(gè)贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時(shí)間收到推送,也可以給我個(gè)星標(biāo)~謝謝你看我的文章,我們,下次再見(jiàn)。

>/ 作者:卡茲克、小瑞

>/ 投稿或爆料,請(qǐng)聯(lián)系郵箱:wzglyay@gmail.com

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港