展會(huì)信息港展會(huì)大全

破壁者DeepSeek:普通人也能用,證明大模型≠大投入
來源:互聯(lián)網(wǎng)   發(fā)布日期:2025-02-10 16:48:19   瀏覽:363次  

導(dǎo)讀:春節(jié)過后,在整個(gè)新春期間刷屏的國(guó)產(chǎn)AI大模型DeepSeek卻始終維持著其霸榜的熱度。短短一周,國(guó)內(nèi)大模型公司“深度求索”開發(fā)的DeepSeek不僅拿下了美國(guó)和中國(guó)區(qū)App Store免費(fèi)榜的雙料第一,還成為首個(gè)超越OpenAI ChatGPT的AI助手類應(yīng)用。這個(gè)成立僅3年的中國(guó)團(tuán)隊(duì),其最新開源的DeepSeek-MoE-16B模型在MMLU基準(zhǔn)測(cè)試中以87.3%準(zhǔn)確率超越國(guó)外頂尖大模型ChatGPT-4,而訓(xùn)練成本僅為后 ......

春節(jié)過后,在整個(gè)新春期間刷屏的國(guó)產(chǎn)AI大模型DeepSeek卻始終維持著其霸榜的熱度。短短一周,國(guó)內(nèi)大模型公司“深度求索”開發(fā)的DeepSeek不僅拿下了美國(guó)和中國(guó)區(qū)App Store免費(fèi)榜的雙料第一,還成為首個(gè)超越OpenAI ChatGPT的AI助手類應(yīng)用。

這個(gè)成立僅3年的中國(guó)團(tuán)隊(duì),其最新開源的DeepSeek-MoE-16B模型在MMLU基準(zhǔn)測(cè)試中以87.3%準(zhǔn)確率超越國(guó)外頂尖大模型ChatGPT-4,而訓(xùn)練成本僅為后者的1/5,其優(yōu)秀的計(jì)算推理能力和廉價(jià)的訓(xùn)練價(jià)格讓世界震驚,“原來大模型競(jìng)賽不單單是屬于大公司的游戲!

隨著春節(jié)期間越來越多普通人開始下載并深度使用DeepSeek,也讓世人驚呼,中國(guó)人自主開發(fā)的AI,終于在這個(gè)春天迎來了自己的“微信時(shí)刻”。

破壁者DeepSeek:普通人也能用,證明大模型≠大投入

何以彎道超車?

極客團(tuán)隊(duì)的“巧力出奇跡”

去年12月, DeepSeek的V3版本在全球AI領(lǐng)域掀起了巨大的波瀾,它以極低的訓(xùn)練成本,實(shí)現(xiàn)了與國(guó)際頂尖模型相媲美的性能,震驚了業(yè)界。北京郵電大學(xué)人工智能學(xué)院人機(jī)交互與認(rèn)知工程實(shí)驗(yàn)室主任劉偉在接受央視采訪時(shí)介紹,“DeepSeek最大的優(yōu)勢(shì)在于它算法的改進(jìn)和優(yōu)化,它在算力上得到了節(jié)省,在輸入數(shù)據(jù)和語料庫上,不像以前要求那么大的數(shù)據(jù)量和大的算力,這是它的優(yōu)勢(shì)!

“以前如果說OpenAI是‘大力出奇跡’,那么DeepSeek就是‘巧力也可以出奇跡’!笨焖悸胙芯吭涸洪L(zhǎng)田豐告訴南方+記者,自ChatGPT問世以來,在人工智能科研領(lǐng)域,全世界普遍遵循著大語言模型中的第一性原理:尺度定律。簡(jiǎn)言之,算力越強(qiáng),大模型越強(qiáng)。但是自去年年中以來,當(dāng)技術(shù)迭代到ChatGPT4之后,由算力堆積的預(yù)訓(xùn)練階段的尺度定律已經(jīng)進(jìn)入性價(jià)比較低的階段,而DeepSeek則將精力放到底層技術(shù)棧的優(yōu)化和創(chuàng)新上。根據(jù)業(yè)界測(cè)算,DeepSeek能夠以美國(guó)公司Meta十分之一的成本實(shí)現(xiàn)相近的性能。

田豐特別提到,DeepSeek僅僅150人的團(tuán)隊(duì),顯示出非常純粹的基礎(chǔ)科研精神,類似于早期OpenAI團(tuán)隊(duì)的極客精神。這也體現(xiàn)在DeepSeek的產(chǎn)品中:現(xiàn)在DeepSeek主要發(fā)布的三篇論文和三個(gè)產(chǎn)品R1、V2、V3,正是不同技術(shù)路線的三種嘗試。在外界看來,這個(gè)百余人的團(tuán)隊(duì)除了在縱深上對(duì)于大量技術(shù)產(chǎn)生顛覆性重構(gòu)的同時(shí),也在橫向上進(jìn)行了廣泛的嘗試,這種大膽嘗試、小心驗(yàn)證、快速迭代的能力也讓這支年輕團(tuán)隊(duì)被業(yè)界贊嘆。

如何保持優(yōu)勢(shì)?

率先開源形成“護(hù)城河”

值得關(guān)注的是,DeepSeek采用了完全開源策略。DeepSeek創(chuàng)始人梁文鋒在接受科技媒體暗涌采訪時(shí)曾說過,“在顛覆性技術(shù)面前,閉源形成的護(hù)城河是暫時(shí)的。即使OpenAI 閉源,也無法阻止他人超越。因此,DeepSeek將價(jià)值沉淀在團(tuán)隊(duì)建設(shè)上,通過不斷積累知識(shí)和創(chuàng)新文化,形成自身的競(jìng)爭(zhēng)優(yōu)勢(shì)!

北京大學(xué)深圳研究生院副研究員胡國(guó)慶認(rèn)為,開源的優(yōu)勢(shì)也意味著越來越多的開發(fā)者可以進(jìn)來,更多開發(fā)者加入生態(tài),可以進(jìn)一步降低開發(fā)建設(shè)的成本,同時(shí)逐步形成自己的生態(tài)。正如開源的安卓在很快時(shí)間就形成氣候一樣,生態(tài)構(gòu)建需要開發(fā)者八方合力。

美國(guó)Meta公司很快就要求團(tuán)隊(duì)針對(duì)DeepSeek的路線進(jìn)行拷貝重現(xiàn)。同時(shí),國(guó)內(nèi)不少大模型也開始復(fù)制DeepSeek的路線。這是否意味著DeepSeek剛剛得來的頭把交椅會(huì)很快易主?

對(duì)此,田豐告訴記者,具有全球領(lǐng)先性的DeepSeek率先開源,形成了全球開發(fā)者的“虹吸效應(yīng)”,即便后面OpenAI再開源,開發(fā)者投入DeepSeek的學(xué)習(xí)時(shí)間和開發(fā)資源都將成為開源競(jìng)爭(zhēng)的護(hù)城河。

破壁者DeepSeek:普通人也能用,證明大模型≠大投入

田豐認(rèn)為,媒體關(guān)注的所謂模型排名,只是科技創(chuàng)新競(jìng)爭(zhēng)的表象!叭绻屑(xì)觀察來看,模型的算力、價(jià)格、排名幾乎每個(gè)月甚至每周都在變化。真正需要重視的則是科技創(chuàng)新的速度和加速度,倘若創(chuàng)新加速度領(lǐng)先,那就會(huì)在長(zhǎng)跑中始終保持優(yōu)秀!

田豐介紹,由于DeepSeek是開放權(quán)重模型,且對(duì)下游基于該模型的商業(yè)開發(fā)沒有做出限制,論文中也透露出很多訓(xùn)練細(xì)節(jié),屬于目前開放性最好的開源模型,超過了美國(guó)開源龍頭Meta的Llama系列模型,所以讓DeepSeek廣受開發(fā)者喜愛。

DeepSeek爆火之后,其鲇魚效應(yīng)正在不斷發(fā)酵,各家AI巨頭開始紛紛效仿。OpenAI在大年初四推出了o3推理模型,隨后又免費(fèi)開放了搜索功能;谷歌緊隨其后,Gemini2.0模型全面開放,而在2月7日,OpenAI則進(jìn)一步打算跟進(jìn)DeepSeek的“開放”戰(zhàn)略, 宣布公開最新模型o3-mini系列模型的思維鏈,讓用戶也能看到模型的思考過程。

為什么火出圈了?

迎來自己的“微信時(shí)刻”

先行者ChatGPT問世已超過兩年。這兩年里,國(guó)內(nèi)外多個(gè)大模型在各類排行榜中爭(zhēng)奪激烈,但其使用者往往還是小范圍的科技工作者、程序員等。普通人總覺得,好用的AI大模型距離太遠(yuǎn)。

直到這次,針對(duì)普通用戶免費(fèi)下載使用、回答有趣的DeepSeek,讓AI大模型首次在國(guó)內(nèi)走進(jìn)千家萬戶。

田豐觀察到,春節(jié)期間,不單單是一線城市的開發(fā)者們,連四五線縣城的老人,都會(huì)用AI去查菜譜。正如媒體所言,大模型真正來到了人人可用的“微信時(shí)代”。

“四五線城市的很多用戶連DeepSeek這個(gè)英文名字都不會(huì)念,但是他知道一個(gè)D打頭的AI很厲害,就會(huì)下載這個(gè)應(yīng)用!碧镓S說。

春節(jié)期間,不少網(wǎng)友在社交網(wǎng)絡(luò)上曬出自己與DeepSeek對(duì)話的截圖,有護(hù)士希望在有限的時(shí)間讓AI教自己如何賺外快,有人希望AI幫自己安排過年走親戚的規(guī)劃,還有人貼出AI給出的新年投資計(jì)劃,并感慨“像大師的水平”……

田豐覺得,DeepSeek的一個(gè)亮點(diǎn)在于,其在給出結(jié)論的同時(shí),還把它的“思維過程”寫出來了,“這對(duì)于用戶來說是非常友好的,可以看到這個(gè)AI是怎么一步一步推導(dǎo)出結(jié)論的,有新意,這是之前很多模型都沒有打開的‘黑盒’!碧镓S以自身為例說,“我就比較喜歡,不光看結(jié)果,更喜歡看它的推導(dǎo)過程!

破壁者DeepSeek:普通人也能用,證明大模型≠大投入

會(huì)帶來新的變革嗎?

AI產(chǎn)業(yè)有望從燒錢轉(zhuǎn)向賺錢

“我相信在最近兩個(gè)月內(nèi),有很多基于DeepSeek的行業(yè)模型,會(huì)有明顯的臺(tái)階式的性能提升!碧镓S說。他以ChatGPT為例介紹,當(dāng)ChatGPT4版本發(fā)布后,得益于這一版本邏輯推理能力的提升,使得AI編程達(dá)到了商業(yè)化需求的基準(zhǔn)線。相應(yīng)地,DeepSeek因其優(yōu)秀的邏輯推理能力,在醫(yī)療、科研、金融、編程等領(lǐng)域有望實(shí)現(xiàn)商業(yè)應(yīng)用。

胡國(guó)慶也分析,可以預(yù)見兩到三年內(nèi),各種細(xì)分領(lǐng)域的AI產(chǎn)品,包括AI大模型、AI終端甚至AI機(jī)器人等將不斷融入各行各業(yè),各種細(xì)分品類的大模型也將不斷涌現(xiàn)。

在田豐看來,DeepSeek對(duì)于各個(gè)行業(yè)的影響仍在不斷發(fā)酵,但有一點(diǎn)毋庸置疑,那就是創(chuàng)新的信心:“此前,美國(guó)的壟斷讓人們誤以為在這場(chǎng)競(jìng)賽中他人已毫無機(jī)會(huì),而DeepSeek的這次突圍,就給了所有人信心。

他表示,DeepSeek帶來了巨大的希望:之前不管是美國(guó)還是中國(guó)的大公司,大模型都是幾千人在做,投入的算力至少是幾萬張顯卡,10萬張卡、20萬張卡甚至更高。但DeepSeek出現(xiàn)后,大家會(huì)發(fā)現(xiàn)原來用5萬張卡,150人青年科學(xué)家的團(tuán)隊(duì),就可以把這個(gè)世界領(lǐng)先的模型做出來。

他進(jìn)一步表示,之前大家一直說AI是在不斷地?zé)X,現(xiàn)在因?yàn)榛A(chǔ)模型和算力帶來的成本持續(xù)的下降,AI大模型有望到達(dá)成本拐點(diǎn),也即從燒錢轉(zhuǎn)變?yōu)橘嶅X,從而帶來產(chǎn)業(yè)應(yīng)用的繁榮。

由此,上游的云計(jì)算、基礎(chǔ)模型廠商、芯片廠商都會(huì)從商業(yè)利潤(rùn)中受益!坝脩粼敢鉃榇竽P偷膽(yīng)用去付費(fèi)了,整個(gè)的商業(yè)模式就通了,之后不管是算力層面還是芯片研發(fā)層面,和原來只是靠投資或者國(guó)家的大基金支持又會(huì)不一樣,它將會(huì)有非常好的商業(yè)良性循環(huán)!碧镓S說。

按照DeepSeek該團(tuán)隊(duì)過去每季度推出新版本的節(jié)奏,相信今年春天我們就可以看到更強(qiáng)的DeepSeek。越強(qiáng)的模型必然帶來越加繁榮的人工智能應(yīng)用市場(chǎng),而市場(chǎng)的利潤(rùn)最終也將再次回流到研發(fā)?梢灶A(yù)見,一個(gè)屬于AI的春天已經(jīng)來了。

南方日?qǐng)?bào)記者 徐勉 王詩

南方日?qǐng)?bào)、南方+客戶端原創(chuàng),未經(jīng)授權(quán)不得轉(zhuǎn)載

編輯 余佩 李江萍

校對(duì) 黃買冰

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港