圖片來自視覺中國
藍鯨新聞12月23日訊(記者 武靜靜)昔日自動駕駛明星公司圖森未來在經(jīng)歷退市等一系列風波后,已經(jīng)重新選擇了創(chuàng)業(yè)航向。
2024年8月,公司首次透露將瞄準AIGC方向,四個月后的12月17日,公司宣布啟用全新品牌CreateAI,并發(fā)布了其首個圖生視頻大模型產(chǎn)品“Ruyi”。
目前,Ruyi-Mini-7B版本已經(jīng)在huggingface上正式開源,用戶可以從下載使用,據(jù)了解,“Ruyi”專為在消費級顯卡(例如 RTX 4090)上運行。
從自動駕駛轉(zhuǎn)向AIGC,好調(diào)頭嗎?
公司為何從自動駕駛邁向截然不同的視覺大模型賽道?
圖森未來技術(shù)負責人在接受藍鯨新聞專訪時告訴藍鯨新聞,此次轉(zhuǎn)型主要是從公司轉(zhuǎn)型和業(yè)務發(fā)展的角度出發(fā)。一方面,公司此前在做自動駕駛時已經(jīng)在AI領(lǐng)域積累了算法、算力和數(shù)據(jù)經(jīng)驗;另一方面,聯(lián)合創(chuàng)始人陳默在游戲圈有資源積累,有機會快速將技術(shù)落地。
陳默也在此前接受媒體采訪時提到,圖森未來在試圖尋找一條更快能夠依靠現(xiàn)有資源“救活”公司的路,隨著視覺模型技術(shù)的不斷推進和公開,AIGC成為在商業(yè)化空間、技術(shù)可達性方面都符合條件的一個目前的最佳選擇。
據(jù)藍鯨新聞了解,圖森未來做視覺模型的團隊就是此前公司做自動駕駛的團隊,一些技術(shù)經(jīng)驗可以復用。
圖森未來技術(shù)負責人談道,AI視覺模型和自動駕駛都依賴于算法、算力和數(shù)據(jù)這“三駕馬車”來推動技術(shù)發(fā)展,且兩者都依賴大量的數(shù)據(jù)進行訓練和優(yōu)化。而視頻生成技術(shù)與自動駕駛中的感知模塊非常相似,兩者都以數(shù)據(jù)驅(qū)動為主,研發(fā)路徑相對較短,依賴的技術(shù)基礎(chǔ)也比較清晰。
在他看來, 自動駕駛技術(shù)涉及感知、定位、規(guī)劃、控制等多個算法模塊,以及軟件系統(tǒng)、硬件設(shè)計、車輛結(jié)構(gòu)設(shè)計等多個領(lǐng)域。相比之下,視頻模型技術(shù)的研發(fā)路徑更短,技術(shù)面更窄,主要集中在數(shù)據(jù)處理和模型訓練方面。
“數(shù)據(jù)的重要性甚至超過算法,”圖森未來技術(shù)負責人強調(diào),他提到圖森在自動駕駛領(lǐng)域積累了豐富的數(shù)據(jù)標注經(jīng)驗,擁有自建的標注團隊和標注平臺,并建立了完整的數(shù)據(jù)處理流程。 “這些經(jīng)驗和工具可以直接應用到視頻模型的數(shù)據(jù)準備階段,從而節(jié)省大量時間和成本!
當然,在很多視覺模型的技術(shù)和效果上,圖森還需要從零開始探索。目前,公司視頻模型主要圍繞五大關(guān)鍵指標進行:生成質(zhì)量、一致性、可控性、易用性和成本。
圖森未來技術(shù)負責人告訴藍鯨新聞,模型生成質(zhì)量是首要目標, 確保生成的視頻內(nèi)容在畫面、動作、細節(jié)等方面達到高水平!肮静扇螺旋上升式的研發(fā)策略,在保證生成質(zhì)量和一致性的前提下,逐步提升模型的可控性、易用性和成本效益!
圖森選擇第三條路:不靠模型賺錢,自己下場做內(nèi)容
當下,視覺模型領(lǐng)域新進展不斷,當?shù)貢r間12月9日,美國OpenAI公司正式發(fā)布了最新版本的視頻生成大模型Sora-Turbo,它能夠根據(jù)文本、圖像或視頻輸入生成新的視頻內(nèi)容。此外,國內(nèi)市場,不論是字節(jié)、快手等大型科技巨頭,還是創(chuàng)業(yè)公司Pika、愛詩科技、生數(shù)科技等都在持續(xù)有緊鑼密鼓的推進技術(shù)和產(chǎn)品迭代。
圖森的入局是否是想在競爭激烈的視覺大模型賽道分一杯羹?
從目前公司的業(yè)務進展和采訪中得知,這個答案是否。圖森未來技術(shù)負責人告訴藍鯨新聞,更準確的說法是,圖森未來要成為一家內(nèi)容公司而非大模型技術(shù)公司,和快手等平臺以及Pika等創(chuàng)業(yè)公司的方向并不相同。
目前,市面上視覺大模型的商業(yè)模式無非兩種:一類是Runway、Pika等公司,面向C端用戶,提供付費的視頻生成工具或服務,讓創(chuàng)作者付費自制內(nèi)容;另一類是面向B端影視文娛以及游戲等公司,幫助產(chǎn)業(yè)降本增效。
圖森未來技術(shù)負責人向藍鯨新聞談道,如果定位成純粹的視頻模型公司,to C和to B都存在明顯挑戰(zhàn):
一方面,to C方向,視頻生成工具的目標用戶群是專業(yè)創(chuàng)作者,而非普通大眾,收費模式和盈利前景都不明確,且視頻模型需要大量的算力支持,運營成本高,國內(nèi)市場,很難在短期內(nèi)依靠收費,吸引用戶并實現(xiàn)盈利。
另一方面,單純面向B端的技術(shù)賦能落地挑戰(zhàn)巨大,因為技術(shù)公司很難深入了解具體場景的需求,也很難將技術(shù)有效地融入到實際的制作流程中,控制內(nèi)容的質(zhì)量和風格。
相比很多視頻模型正在將重心瞄準在追求技術(shù)的通用性上,圖森選擇了不一樣的第三條路:直接把模型技術(shù)開源,不靠模型賺錢,并購入了經(jīng)典IP,自己下場用大模型做內(nèi)容。
據(jù)藍鯨新聞了解,公司目前有專門的動漫和游戲團隊已經(jīng)在開發(fā)新項目。
“我們希望打造一家以AI技術(shù)驅(qū)動的視頻內(nèi)容創(chuàng)作公司,打造端到端的視頻內(nèi)容生成鏈條。最終通過優(yōu)質(zhì)內(nèi)容來吸引用戶和實現(xiàn)商業(yè)價值!眻D森未來技術(shù)負責人說道。“技術(shù)只是工具,最終的目標是為用戶提供內(nèi)容!
目前,圖森已經(jīng)布局動漫、游戲板塊,其全新品牌CreateAI已經(jīng)獲著名武俠IP《金庸群俠傳》正版授權(quán),將開發(fā)一款大型武俠開放世界RPG游戲。2024年8月,公司也官宣了和上海三體動漫有限公司達成合作,共同開發(fā)《三體》系列的首部動畫長篇電影和視頻游戲。據(jù)悉,公司也會在12月推出 SLG 游戲工具和游戲本身。
“我們現(xiàn)在擁有「金庸群俠傳」和「三體」這兩個頂級 IP,我們的目標是在 2027 年實現(xiàn) 10 億美元的收入!标惸谧罱淮谓邮懿稍L時說到了圖森在AIGC方向的未來目標。