當(dāng)前位置：人工智能實(shí)驗(yàn)室> IT觀察 > 大廠沉默創(chuàng)業(yè)公司亂斗 10余款文生視頻產(chǎn)品國(guó)產(chǎn)Sora誰(shuí)最有希望？

大廠沉默創(chuàng)業(yè)公司亂斗 10余款文生視頻產(chǎn)品國(guó)產(chǎn)Sora誰(shuí)最有希望？
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-04-30 瀏覽：440次

導(dǎo)讀：如同ChatGPT在2023年帶來(lái)的震撼，2024年的AI圈，到處喧囂著Sora的故事。近期，號(hào)稱研發(fā)時(shí)間比Sora更早的「Vidu」文生視頻大模型亮相，這是由生數(shù)科技聯(lián)合清華大學(xué)發(fā)布的中長(zhǎng)時(shí)長(zhǎng)、高一致性、高動(dòng)態(tài)性視頻大模型。輿論立即非常熱烈，因?yàn)閺墓?......

如同ChatGPT在2023年帶來(lái)的震撼，2024年的AI圈，到處喧囂著Sora的故事。

近期，號(hào)稱研發(fā)時(shí)間比Sora更早的「Vidu」文生視頻大模型亮相，這是由生數(shù)科技聯(lián)合清華大學(xué)發(fā)布的中長(zhǎng)時(shí)長(zhǎng)、高一致性、高動(dòng)態(tài)性視頻大模型。

輿論立即非常熱烈，因?yàn)閺墓嫉陌咐曨l效果來(lái)看，Vidu已經(jīng)可以支持一鍵生成達(dá)16秒、分辨率達(dá)1080P的高清視頻內(nèi)容。Vidu不僅能夠模擬真實(shí)物理世界，還擁有想象力生成，具備多鏡頭、時(shí)空一致性等特點(diǎn)。如果這些特點(diǎn)在公測(cè)時(shí)能呈現(xiàn)，那無(wú)疑已經(jīng)比肩Sora的水平。

實(shí)際上，Vidu并非是第一個(gè)號(hào)稱國(guó)產(chǎn)Sora產(chǎn)品，還有北大的Open Sora、字節(jié)的Dreamina、騰訊的VideoCrafter2、右腦科技的Vega AI、愛(ài)詩(shī)科技的PixVerse、MewXAI的藝映AI、智象未來(lái)的Pixeling，以及NeverEnds和Morph Studio，還有昆侖萬(wàn)維、萬(wàn)興科技公司推出的視覺(jué)大模型，共計(jì)10余款文生視頻產(chǎn)品。

圖片來(lái)源：智東西

這其中大部分是依賴算法圖片轉(zhuǎn)視頻，真正文生視頻大模型為底座的少之又少。

Sora為何成為AI圈明珠

為何國(guó)內(nèi)的AI領(lǐng)域，Sora再次復(fù)刻了百模大戰(zhàn)的盛況?

這可能源于一個(gè)共識(shí)，Sora具有跨時(shí)代的意義。它結(jié)合了大語(yǔ)言模型LLM(ChatGPT、Claude和文心一言)和圖形模型diffusion(midjourney、Stable diffusion)，能完美理解文字，然后根據(jù)文字生成圖片到視頻。

這張圖深刻解析了Sora的原理，左腦負(fù)責(zé)語(yǔ)言/邏輯/記憶，LLM大語(yǔ)言模型復(fù)刻了這一模式，右腦負(fù)責(zé)形象/創(chuàng)意/美術(shù)，Unconditional Diffusion擴(kuò)散模型更擅長(zhǎng)于此。將二者模型結(jié)合，誕生了從文生視頻的大模型Sora。

所以可以說(shuō)，Sora才是代表真正的仿人腦智能，其他模型只是模仿了一部分。通過(guò)這一原理，我們就辨別很多偽Sora了。

比如美圖公司的文生視頻產(chǎn)品Whee，做出來(lái)的圖片簡(jiǎn)單動(dòng)一下，3秒都不到，大概了采用了StableDiffusion的模型SDXL，而不是Diffusion與Transformer融合的架構(gòu)U-ViT。前者很難做出來(lái)超過(guò)10秒的視頻，文字理解能力也不會(huì)優(yōu)秀，模型決定了天花板。

所以Vidu迅速出圈的原因在于，其核心技術(shù)U-ViT架構(gòu)。該技術(shù)于2022年9月提出，早于Sora采用的DiT架構(gòu)，是全球首個(gè)Diffusion與Transformer融合的架構(gòu)。

這個(gè)架構(gòu)的高成長(zhǎng)性，意味著兩三年內(nèi)，Sora制作AI短劇/電影/廣告宣傳片等等，都將在幾個(gè)小時(shí)內(nèi)完成，

Sora已經(jīng)驗(yàn)證了這種可能性。新媒體公司Shy Kids 團(tuán)隊(duì)僅用 3 人的團(tuán)隊(duì)，利用Sora在大約 1.5 到 2 周內(nèi)制作了《Air Head》。Patrick 認(rèn)為目前階段的Sora，對(duì)畫面連續(xù)性，以及鏡頭運(yùn)動(dòng)的理解，都還存在一定問(wèn)題; 而且這部電影是720P，也利用了AE特效軟件進(jìn)行編輯。

但3 到 20 秒，渲染時(shí)間在 10 到 20 分鐘范圍內(nèi)，以及極大地提升了效率。科幻電影巨制《阿凡達(dá)》花了8年時(shí)間，從拍攝到制作完成，未來(lái)可能一倆月內(nèi)就行實(shí)現(xiàn)，內(nèi)容制作成本被數(shù)以萬(wàn)計(jì)的降低。

中國(guó)工程院院士，阿里云創(chuàng)始人王堅(jiān)說(shuō)道，只說(shuō)它可能會(huì)影響短視頻等行業(yè)，那我覺(jué)得是對(duì)它極大的羞辱，它的意義遠(yuǎn)超這種事情。就像是原子彈剛剛爆炸時(shí)一樣，沒(méi)有人能想到這個(gè)東西后來(lái)可以作為核電站來(lái)發(fā)電，還可以實(shí)現(xiàn)小型化，還有很多別的用處。

當(dāng)然，Sora還處于嬰幼兒期。我認(rèn)為我們現(xiàn)在在Sora的發(fā)展進(jìn)度就像是新視覺(jué)模型的GPT-1.我們對(duì)Sora的前景持樂(lè)觀態(tài)度，認(rèn)為它將取代人類的某些能力。從長(zhǎng)遠(yuǎn)來(lái)看，我們相信Sora有朝一日將超越人類的智慧，成為世界模型的代表。 Sora核心創(chuàng)始人timi在最近接受采訪時(shí)說(shuō)到。

清華北大+創(chuàng)業(yè)公司發(fā)力Sora

目前國(guó)內(nèi)的Sora創(chuàng)業(yè)大潮中，學(xué)術(shù)機(jī)構(gòu)+創(chuàng)業(yè)公司的組合表現(xiàn)，更為亮眼。

清華這只Vidu團(tuán)隊(duì)，是在2023年3月，團(tuán)隊(duì)開(kāi)源了全球第一個(gè)基于融合的大模型UniDiffuser，首個(gè)驗(yàn)證了大規(guī)模訓(xùn)練和擴(kuò)展的規(guī)律。但囿于所需算例成本太高，團(tuán)隊(duì)一時(shí)間的主要精力，重點(diǎn)轉(zhuǎn)到了文生圖，文生3D領(lǐng)域。今年1月，團(tuán)隊(duì)實(shí)現(xiàn)4秒視頻的生成，可以達(dá)到Pika、Runway的效果。

轉(zhuǎn)折點(diǎn)是2024年2月份，Sora的發(fā)布，震撼了圈內(nèi)外人士。團(tuán)隊(duì)重回文生時(shí)評(píng)領(lǐng)域，第一時(shí)間緊急啟動(dòng)攻關(guān)，也向海淀區(qū)領(lǐng)導(dǎo)進(jìn)行了匯報(bào)，當(dāng)時(shí)得到了很多支持。

此后兩個(gè)月時(shí)間內(nèi)，從1月的4秒，3月底突破到8秒，4月底，Vidu對(duì)外展示的是16秒的成果，直接超越了國(guó)內(nèi)的絕大部分Sora模型，達(dá)到了Sora的同等水平。

Vidu案例視頻

相比Vidu的突然炸裂出圈，北大的Open Sora則是從出生起，就敲鑼打鼓地誕生。

Open-Sora Plan由北大-兔展AIGC聯(lián)合實(shí)驗(yàn)室共同發(fā)起，目前推出了 1.0 版本的模型，同時(shí)發(fā)布了一個(gè)名為MagicTime項(xiàng)目，從Time-lapse 視頻中學(xué)習(xí)真實(shí)世界的物理知識(shí)。

這個(gè)初始團(tuán)隊(duì)一共13人：帶隊(duì)的是北大信息工程學(xué)院助理教授、博導(dǎo)袁粒和北大計(jì)算機(jī)學(xué)院教授、博導(dǎo)田永鴻等人，合作的創(chuàng)業(yè)公司是兔展公司。

由于缺乏足夠的資源，團(tuán)隊(duì)采用開(kāi)源生態(tài)共建，AnimateDiff大神也參與其中。

目前國(guó)內(nèi)視頻生成領(lǐng)域，知名的產(chǎn)品是愛(ài)詩(shī)科技的PixVerse，這家公司剛剛完成A2輪融資，上個(gè)月宣布完成A1輪融資，核心創(chuàng)始人是從字節(jié)跳動(dòng)離職創(chuàng)業(yè)，主要解決了視頻運(yùn)鏡控制和一致性的問(wèn)題，很多實(shí)測(cè)效果超過(guò)Pika和runway等競(jìng)爭(zhēng)對(duì)手。

多模態(tài)大模型似乎不是PixVerse重點(diǎn)發(fā)力方向，算力需求沒(méi)有Sora那么高。所以目前看，國(guó)內(nèi)實(shí)際應(yīng)用中，PixVerse用戶已經(jīng)在88天內(nèi)，超過(guò)一千萬(wàn)次視頻生成。

還有一家公司值得一提，4月28日，萬(wàn)興公司發(fā)布天幕音視頻大模型，號(hào)稱依托15億用戶行為數(shù)據(jù)和百億本土化音視頻數(shù)據(jù)，可通過(guò)文生視頻能力，實(shí)現(xiàn)不同風(fēng)格、豐富場(chǎng)景及主題的連貫性，一鍵生成時(shí)長(zhǎng)率先支持60秒+。60秒創(chuàng)造國(guó)內(nèi)文生視頻時(shí)長(zhǎng)的記錄了。

英雄不問(wèn)出處，畢竟從OpenAI的不足百人，Midjourney的11人創(chuàng)業(yè)團(tuán)隊(duì)看，團(tuán)隊(duì)規(guī)模不是AI創(chuàng)業(yè)成功的關(guān)鍵，核心還是首席科學(xué)家的團(tuán)隊(duì)沖鋒能力。這也是為何國(guó)產(chǎn)Sora創(chuàng)業(yè)公司能突然涌現(xiàn)的核心原因。

當(dāng)然，算力資源還是個(gè)大門檻。據(jù)Vidu朱軍表示，當(dāng)時(shí)訓(xùn)練UniDiffuser第一個(gè)版本時(shí)，用到的算力是去年年中訓(xùn)練同樣模型的近40倍，團(tuán)隊(duì)半年時(shí)間將算力需求降低40倍。這也是其重要技術(shù)突破。

大廠不掀文生視頻的門簾

在轟轟烈烈的AGI創(chuàng)業(yè)浪潮中，BAT是2023年的大模型創(chuàng)業(yè)明星。但在Sora這波中，百度、阿里、騰訊、字節(jié)等大公司卻顯得有些安靜，風(fēng)頭有些被創(chuàng)業(yè)公司搶去。

作為All in AGI動(dòng)作最迅猛的百度，發(fā)布過(guò)一款名為 UniVG 的視頻生成模型。用戶只需提供一張圖片或一段文字，就能生成一段流暢的視頻，雖然與早期的AI視頻生成工具相比，UniVG所生成的每一幀畫面都更加穩(wěn)定、連貫，但實(shí)際上，這款模型還是更注重算法，而非Sora的多模態(tài)大模型路線。

在百度2023年Q4及全年業(yè)績(jī)會(huì)上，百度創(chuàng)始人、董事長(zhǎng)兼首席執(zhí)行官李彥宏表示，多模態(tài)或多模態(tài)的融合，比如文字到視頻，其實(shí)是非常重要的一個(gè)未來(lái)基礎(chǔ)模型開(kāi)發(fā)的方向，這是AGI的一個(gè)必要方向，百度也已經(jīng)在這些領(lǐng)域進(jìn)行投資，并且也會(huì)在未來(lái)繼續(xù)進(jìn)行投資。

這方面，字節(jié)的動(dòng)作相對(duì)穩(wěn)健一點(diǎn)，字節(jié)跳動(dòng)早在年初就發(fā)布了超高清文生視頻模型MagicVideo-V2。據(jù)悉，該模型輸出的視頻在高清度、潤(rùn)滑度、連貫性、文本語(yǔ)義還原等方面，比目前主流的文生視頻模型Gen-2、Stable Video Diffusion、Pika1.0等更出色。

字節(jié)的文生視頻產(chǎn)品是Dreammina，目前文生視頻已經(jīng)處于內(nèi)測(cè)階段，這也是大廠中唯一已經(jīng)公布的Sora產(chǎn)品。AI鯨選社社群的朋友田際云對(duì)此進(jìn)行了內(nèi)測(cè)：

附評(píng)價(jià)：1、Dreamina提示詞一個(gè)工程師，坐在辦公桌前寫代碼，還不錯(cuò);2、對(duì)漢字理解很不足，以為寫就是在本子上寫字，其實(shí)是在電腦上輸入輸出。3、Dreamina使用這幾天的總結(jié)：當(dāng)代元素和人物的生成比古代元素與人物要精準(zhǔn)些，國(guó)外元素生成比國(guó)內(nèi)元素要好很多。底層模型不言而喻了。

而阿里云旗下魔搭社區(qū)（Model-Scope）上線文本生成視頻大模型。目前由文本特征提取、文本特征到視頻隱空間擴(kuò)散模型、視頻隱空間到視頻視覺(jué)空間這3個(gè)子網(wǎng)絡(luò)組成，整體模型參數(shù)約17億。

阿里目前最火的視頻模型，應(yīng)該是最近剛在通義上線的EMO，這款讓圖片說(shuō)話唱歌的AI產(chǎn)品，屬于算法定義的產(chǎn)品，目前已經(jīng)在通義的APP上可以使用。

騰訊推出的視頻模型是Mira，目前的模型可以生成分辨率為128x80的長(zhǎng)達(dá) 20 秒的視頻和分辨率為384x240的長(zhǎng)達(dá) 10 秒的視頻。同時(shí)提供了數(shù)據(jù)標(biāo)注和模型訓(xùn)練的工具。

所以目前來(lái)看，大廠有一些基本的視頻大模型，但還沒(méi)有公布真正的對(duì)標(biāo)Sora大模型。這也是奇怪的地方，大廠不缺人才、算力以及資金，在最能露臉的文生視頻領(lǐng)域，動(dòng)作卻比較遲緩，任由創(chuàng)業(yè)公司露臉。

當(dāng)然，大廠也不是完全沒(méi)有動(dòng)作，投資也是一種參與手段。

Vidu背后的生數(shù)科技正式成立于2023年3月，由瑞萊智慧RealAI、螞蟻和百度風(fēng)投聯(lián)合孵化。在2023年6月，公司完成近億元人民幣天使輪融資，由螞蟻集團(tuán)領(lǐng)投，BV百度風(fēng)投、卓源資本跟投，投后估值達(dá)1億美元。在在天使+輪，錦秋基金獨(dú)家投資了該公司，錦秋基金的前身是字節(jié)戰(zhàn)投部門。

相關(guān)熱詞：

上一篇：小扎開(kāi)源上癮元宇宙頭顯OS免費(fèi)送

下一篇：硅谷巨頭狂投AI基礎(chǔ)設(shè)施微軟Meta谷歌一季度豪擲320億美元

AiLab云推薦

大廠沉默創(chuàng)業(yè)公司亂斗 10余款文生視頻產(chǎn)品國(guó)產(chǎn)Sora誰(shuí)最有希望？
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-04-30 瀏覽：440次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

大廠沉默 創(chuàng)業(yè)公司亂斗 10余款文生視頻產(chǎn)品 國(guó)產(chǎn)Sora誰(shuí)最有希望？ 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-04-30 瀏覽：440次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

大廠沉默創(chuàng)業(yè)公司亂斗 10余款文生視頻產(chǎn)品國(guó)產(chǎn)Sora誰(shuí)最有希望？
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-04-30 瀏覽：440次