文|施嘉翔
編輯|劉旌
2023年10月,耗費(fèi)半年、幾乎傾注所有精力的一輪融資被drop后,影眸科技創(chuàng)始人吳迪整個(gè)人都是懵的。來(lái)不及思考更多,影眸科技進(jìn)行了成立以來(lái)第一次大規(guī)模人員調(diào)整。吳迪本想迅速融一輪小錢保證公司運(yùn)營(yíng),但環(huán)境down到不能再down。融資的失利堅(jiān)定了他們拓展全品類3D資產(chǎn)生成能力的想法。彼時(shí)市面上已經(jīng)有團(tuán)隊(duì)推出過(guò)基于2D升維技術(shù)路徑的3D生成產(chǎn)品,這是學(xué)術(shù)界的主要路徑。但他們看到了 2D 升維路徑的瓶頸:只能記錄真實(shí)物體的一個(gè)側(cè)面,無(wú)限多角度的圖像也無(wú)法完整描述3D內(nèi)容。唯一的解法是,從一開(kāi)始就使用 3D 原生數(shù)據(jù)。幾乎是孤注一擲,連團(tuán)隊(duì)原本負(fù)責(zé)電影項(xiàng)目的藝術(shù)家也被抽調(diào)去做模型標(biāo)注;贑LAY的3D引擎 Rodin在去年6月推出,CLAY是影眸和上科大聯(lián)合推出的3D原生Diffusion Transformer生成式大模型,這項(xiàng)研究讓他們獲得了SIGGRAPH2024最佳論文榮譽(yù)提名。45 天后,Rodin 達(dá)成了 100 萬(wàn)美元 ARR,吳迪說(shuō),這是他們后來(lái)被大廠看中的主要原因。暗涌Waves獲悉,影眸科技完成了新一輪數(shù)千萬(wàn)美元A輪融資,本輪融資由美團(tuán)龍珠、字節(jié)跳動(dòng)領(lǐng)投,老股東紅杉中國(guó)種子基金及奇績(jī)創(chuàng)壇跟投。影眸過(guò)去總被冠以“學(xué)生創(chuàng)業(yè)”的標(biāo)簽,甚至核心成員現(xiàn)在仍在實(shí)驗(yàn)室讀研、讀博,但團(tuán)隊(duì)走過(guò)4個(gè)年頭的當(dāng)下,CTO張啟煊說(shuō),“小天才”已經(jīng)逐漸把商業(yè)化、產(chǎn)品可用性放在首位。吳迪還記得自己剛進(jìn)入上科大時(shí),學(xué)校還是一片工地,他甚至不知道這片工地會(huì)不會(huì)真的變成效果圖上的現(xiàn)代化校園。但剛高考完的他并不在意,比起墨守成規(guī)地讀完書、去國(guó)外深造,回國(guó)進(jìn)入大廠的路徑,這個(gè)幾乎完全留白的曲譜對(duì)他更有吸引力。「WAVES」是暗涌的一個(gè)新欄目。在這里,我們將為你呈現(xiàn)新一代創(chuàng)業(yè)者、投資人的故事和精神。以下是影眸科技創(chuàng)始人吳迪和CTO張啟煊對(duì)過(guò)去創(chuàng)業(yè)歷史的回顧,其中也有對(duì)3D賽道未來(lái)的理解,經(jīng)暗涌Waves編輯:
談創(chuàng)業(yè):一次選擇1. 影眸的誕生是從實(shí)驗(yàn)室一個(gè)難題開(kāi)始的:如何把人與物放到虛擬世界中。為了達(dá)到這個(gè)目標(biāo),我們?cè)?020年推出了第一套人臉掃描系統(tǒng),可以采集人臉在不同環(huán)境光照下的表現(xiàn),來(lái)合成全新光照下的人臉顯示效果。2.但這項(xiàng)技術(shù)在實(shí)際應(yīng)用中接連碰壁。我們?cè)?jīng)進(jìn)入過(guò)《流浪地球2》的換臉項(xiàng)目,但最終沒(méi)有合作成功。原因在于,初代穹頂光場(chǎng)側(cè)重于采光,是拼湊出人在光照下的展現(xiàn)效果的,而攝像機(jī)視角固定,模型無(wú)法運(yùn)動(dòng)。最后只能用在特定視角比如完全靜態(tài)的鏡頭。光場(chǎng)還只能收集幾何信息的數(shù)據(jù),無(wú)法識(shí)別材質(zhì),對(duì)人臉褶皺之類的動(dòng)態(tài)信息無(wú)能為力。3.那個(gè)時(shí)候我才意識(shí)到,學(xué)術(shù)界的研究和工業(yè)界需要的東西存在巨大差距。布線優(yōu)雅、UV規(guī)整、能被渲染、可以調(diào)整表情、也能在游戲里實(shí)時(shí)驅(qū)動(dòng)的3D建模,才是工業(yè)界所需要的。等待新一代穹頂光場(chǎng)更新期間,我們就想基于生成式網(wǎng)絡(luò)技術(shù)做些嘗試。4.影眸在當(dāng)時(shí)做了兩款產(chǎn)品,其中一個(gè)叫Wand。這款A(yù)PP很簡(jiǎn)單,就是用戶在畫布上簡(jiǎn)筆勾畫,Wand就會(huì)生成真人頭像。產(chǎn)品開(kāi)發(fā)只花了兩周。第一代真人頭像沒(méi)有任何波瀾,我們就把生成結(jié)果從真人換成二次元圖像。結(jié)果Wand登上了App Store圖形和設(shè)計(jì)類排行榜的第一名,有超過(guò)160萬(wàn)注冊(cè)用戶在Wand上“畫二次元老婆”。5.但Wand只是一款簡(jiǎn)單的工具,用戶沒(méi)有留存,我們沒(méi)想出好的收費(fèi)模式,沒(méi)法平衡用戶和算力支出。接下來(lái)要么鉆研技術(shù)、延伸更多功能,或者做成二次元社區(qū)。但我們是不相信2D技術(shù)的,8人的全理工團(tuán)隊(duì)也找不出一位擅長(zhǎng)社區(qū)運(yùn)營(yíng)的。最后認(rèn)命接不住這波流量,把2D業(yè)務(wù)線全砍了。6.回頭看,Wand 已經(jīng)完成了它的歷史使命,幫我們賺到了第一筆錢,雖然只有6000,但更重要的是幫我們完成了天使輪融資。我們還是相信,下一代顯示設(shè)備和交互方式會(huì)在三維層面進(jìn)行。
談方向選擇與3D生成的未來(lái):搖擺與決心
7.拿到融資后,元宇宙正火,我們靠著數(shù)字人和元宇宙的東風(fēng)拿到了第二筆融資。當(dāng)時(shí)我們的想法是,現(xiàn)有的數(shù)字人最終將轉(zhuǎn)變?yōu)镮D型數(shù)字人,成為每個(gè)要進(jìn)入虛擬世界的人的標(biāo)配。于是在2022年底推出了DreamFace和基于此框架的3D角色生成器ChatAvatar,已經(jīng)能做成至少配角級(jí)、帶骨骼綁定的模型。
8.但我們?nèi)雸?chǎng)的時(shí)機(jī)趕上了元宇宙的尾聲,商業(yè)化進(jìn)展不順,舉步維艱。那年我畢業(yè),把辦公室搬出上科大實(shí)驗(yàn)室,趕上疫情封城,白交了半年房租。9.到2023年,我有6個(gè)月的時(shí)間在談新一輪融資,結(jié)果在一夜間領(lǐng)投方選擇放棄,我整個(gè)人都是懵的。本來(lái)還想先融一兩百萬(wàn)美金,活下去再說(shuō),但環(huán)境簡(jiǎn)直down到不能再down。我讓財(cái)務(wù)每周給我看兩次賬上的余額,盯著現(xiàn)金流,勉強(qiáng)維持著收支平衡。那時(shí)候我意識(shí)到,在有新的milestone前,影眸不可能再融到錢了。10.我們之前已經(jīng)將廣泛的生成式3D提上進(jìn)程,但同時(shí)也面臨著一個(gè)技術(shù)關(guān)鍵選擇。3D 生成的技術(shù)路線大致可以分為兩種:2D 升維和原生 3D。前者通過(guò)海量2D 圖像數(shù)據(jù)訓(xùn)練生成,但由于數(shù)據(jù)集中于3D 世界,總會(huì)出現(xiàn)模型“多頭”問(wèn)題。先用這個(gè)技術(shù)路徑出產(chǎn)品,可能能快速拿一筆融資,但產(chǎn)品離“Production-Ready”會(huì)有無(wú)法彌補(bǔ)的差距。而3D原生的技術(shù)路徑能不能做出來(lái),我們也沒(méi)底。11.我們最后一致認(rèn)為,如果需要跟3D工業(yè)抗衡,只能用原生3D的訓(xùn)練方法。這種方法的難點(diǎn)常被認(rèn)為是優(yōu)質(zhì)數(shù)據(jù)不足。但其實(shí),3D生成的瓶頸不在于模型的數(shù)據(jù)量,而是合適的三維表達(dá)和參數(shù)規(guī)模。關(guān)鍵在于從數(shù)據(jù)集轉(zhuǎn)化到最終輸出,信息損失要盡可能小。12.Rodin就在去年6月推出,是同批3D生成創(chuàng)業(yè)公司中最晚發(fā)布的。我覺(jué)得,當(dāng)時(shí)它的生成質(zhì)量、可用性都代差級(jí)地領(lǐng)先當(dāng)時(shí)的同類產(chǎn)品。2024年最后一天發(fā)布的Rodin Gen-1.5,填補(bǔ)了3D生成在尖銳邊緣生成能力的坑。對(duì) CAD 類工業(yè)模型與硬表面模型,它有絕對(duì)優(yōu)勢(shì)。
13.但即使如此,AI生成的模型離最終直接可用還有不小的距離。同為內(nèi)容形態(tài),和視頻、圖像等領(lǐng)域不一樣之處在于,3D是工業(yè)級(jí)內(nèi)容,不是消費(fèi)級(jí),這意味著有確定的行業(yè)標(biāo)準(zhǔn)。在拓?fù)、幾何精度、材質(zhì)、UV展開(kāi)等問(wèn)題還沒(méi)有解決的情況下,AI生成3D離在游戲、電影中直接可用有很大差距。14.另外,解決普通用戶在3D世界的創(chuàng)造能力,也不意味著3D的消費(fèi)級(jí)時(shí)代會(huì)到來(lái),需要更多前置條件比如讓Vision Pro、Quest 3和IPhone一樣普及。之前元宇宙出圈,也更多是B端玩家在自嗨。在提效游戲工業(yè)上,3D生成能做的遠(yuǎn)不及Midjourney。之前在實(shí)驗(yàn)室,我們覺(jué)得技術(shù)等于產(chǎn)品等于公司,但其實(shí)技術(shù)不等于產(chǎn)品,也不等于公司。15.Rodin也不可能生成游戲或是電影的工業(yè)級(jí)3D作品,也許未來(lái)3D生成會(huì)作為一種核心玩法出現(xiàn)在游戲、影視作品中,但3D 原生技術(shù)眼下的機(jī)會(huì)是在存量市場(chǎng)。16.所以影眸這次把商業(yè)化瞄準(zhǔn)“游戲外包”:在游戲建模環(huán)節(jié),從原畫到建模結(jié)束,存在一系列可能要返工數(shù)次的“廢稿”,F(xiàn)在,原畫的三視圖完成后,可以先用Rodin生成建模草稿,具體細(xì)節(jié)再由建模師調(diào)整,在建模最開(kāi)始的中;蝾A(yù)覽階段減少成本,或是應(yīng)用于一些周邊的不重要資產(chǎn)。17.我剛來(lái)上科大時(shí),學(xué)校就是一片工地,實(shí)驗(yàn)室也是新建的。我們幾乎見(jiàn)證了上科大從一片廢墟到高樓林立的全過(guò)程。某種程度上,上科大從無(wú)到有,像我們導(dǎo)師說(shuō)的,也是一次“偉大創(chuàng)業(yè)”。而影眸科技這四年,就是這次“創(chuàng)業(yè)”的一個(gè)注腳。
圖片來(lái)源 |Unsplash