當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動態(tài) > Midjourney 也得「站著敬酒」，AI 圖片生成新王 Flux 怎么這么強(qiáng)？

Midjourney 也得「站著敬酒」，AI 圖片生成新王 Flux 怎么這么強(qiáng)？
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-08-14 09:42:44 瀏覽：5624次

導(dǎo)讀：江山代有模型出，一代更比一代強(qiáng)。就當(dāng)人們以為 AI 圖片生成領(lǐng)域戰(zhàn)爭已經(jīng)基本結(jié)束時(shí)，又有一個(gè)新的模型團(tuán)隊(duì)出現(xiàn)，用自家產(chǎn)品將 Midjourney、DALL-E 挑落馬下。 8 月初，初創(chuàng)公司 Black Forest Labs 橫空出世，發(fā)布了擁有 120 億參數(shù)的文本生成圖像模型 Flux...

江山代有模型出，一代更比一代強(qiáng)。

就當(dāng)人們以為 AI 圖片生成領(lǐng)域戰(zhàn)爭已經(jīng)基本結(jié)束時(shí)，又有一個(gè)新的模型團(tuán)隊(duì)出現(xiàn)，用自家產(chǎn)品將 Midjourney、DALL-E 挑落馬下。

8 月初，初創(chuàng)公司 Black Forest Labs 橫空出世，發(fā)布了擁有 120 億參數(shù)的文本生成圖像模型 Flux，隨后迅速走紅，被譽(yù)為 Stable Diffusion 的繼承者，并與 Midjourney 直接對打。

從網(wǎng)上曝光的圖片能看出，F(xiàn)lux 在生成人物、尤其是真實(shí)人物的場景中，圖像已經(jīng)非常接近真人實(shí)拍的效果。無論是人物的表情、皮膚光澤、發(fā)型、人物配飾等細(xì)節(jié)方面，都做到了接近完美。

更重要的是，F(xiàn)lux 開源其系列的一些模型，可以在一臺配置不錯(cuò)的筆記本電腦上運(yùn)行，這也意味著它會像 Stable Diffusion 一樣，可以在多模型平臺上找到并使用。

Black Forest Labs 宣稱，其模型在圖像質(zhì)量和對文本提示的遵循度等方面，超過了現(xiàn)有的主流選擇，如 Midjourney 和 DALL-E。

過去兩年中，在 AI 圖像生成市場，Midjourney、DALL-E 和 Stable Diffusion 和 Adobe Firefly 等一直在激烈競爭，F(xiàn)lux 憑什么一出來就能搶走風(fēng)頭，甚至被認(rèn)為可能擊敗現(xiàn)有的其他模型？

Flux，橫空出世即走紅

Flux 來自 AI 初創(chuàng)公司 Black Forest Labs，這家新公司由一些開發(fā)了 Stable Diffusion 背后技術(shù)并發(fā)明了潛在擴(kuò)散技術(shù)的研究人員創(chuàng)立，總部位于德國。

今年 8 月 1 日，Black Forest Labs 才對外正式宣布成立，就迅速打響名聲�！肝覀兩钌钪哺谏墒� AI 研究社區(qū)，致力于開發(fā)和推進(jìn)用于圖像和視頻等媒體的最先進(jìn)的生成式深度學(xué)習(xí)模型�！�

Black Forest Labs 稱，其公司「決心建立生成式媒體行業(yè)的標(biāo)準(zhǔn)」，作為實(shí)現(xiàn)這一目標(biāo)的第一步，他們發(fā)布了 Flux.1 文本生成圖像模型套件，稱在圖像細(xì)節(jié)、提示響應(yīng)、風(fēng)格多樣性和場景復(fù)雜性方面定義了文本生成圖像的新前沿。

Flux 模型生成的圖像｜圖片來源：Black Forest Labs

網(wǎng)友用 Flux 模型生成的圖像｜圖片來源：reddit

為了在可及性和模型能力之間取得平衡，F(xiàn)lux.1 目前提供了三個(gè)版本：Pro、Dev 和 Schnell，都是文本生成圖像模型，大小依次遞減。

其中，F(xiàn)lux.1 Pro 版是通過 API 提供的閉源版本，也是最強(qiáng)大的版本，提供最先進(jìn)的圖像生成性能。可以通過 API 注冊訪問，適用于商業(yè)應(yīng)用，為訂閱用戶提供生成式 AI 圖像技術(shù)的訪問權(quán)限。

Flux.1 Dev 版是開源版本，具有非商業(yè)許可，供社區(qū)開發(fā)，直接從 Pro 版本「蒸餾」而來，據(jù)稱有類似的質(zhì)量和提示響應(yīng)能力，同時(shí)比同尺寸的標(biāo)準(zhǔn)模型更高效，可在 HuggingFace 上獲取，并可直接在 Replicate 或 Fal.ai 上試用。

最后一個(gè) Flux.1 Schnell 版，是速度最快的版本（schnell 在德語中意為快速），也是精簡版本，據(jù)稱運(yùn)行速度最高可提高十倍，開放源代碼，采用 Apache 2 許可，適用于本地開發(fā)和個(gè)人使用，與 Dev 版本類似，也可以在 Hugging Face 上獲齲

Flux 部分模型可在 AI 開源社區(qū)獲�。鼒D片來源：Hugging Face

有科技博主測評后認(rèn)為，兩個(gè)高端 Flux.1 模型的輸出在提示忠實(shí)度上與 OpenAI 的 DALL-E 3 相當(dāng)，且在真實(shí)感上接近 Midjourney 6。

他們還發(fā)現(xiàn)，F(xiàn)lux.1 在生成手部圖像方面似乎表現(xiàn)相當(dāng)出色，這在早期的圖像合成模型（如 Stable Diffusion 1.5）中是一個(gè)薄弱點(diǎn)。盡管自那時(shí)起，像 Midjourney 這樣的 AI 圖像生成器也掌握了手部生成，但 Flux.1 的公開權(quán)重模型在各種姿勢下能夠相對準(zhǔn)確地渲染手部圖像，仍然值得注意。

理論上說，F(xiàn)lux.1 兩個(gè)較小的版本可以在性能較好的硬件上運(yùn)行，例如高性能筆記本電腦，這使得它更容易被更廣泛的用戶使用，包括業(yè)余愛好者、開發(fā)人員和小型企業(yè)，這也意味著不必依賴互聯(lián)網(wǎng)或云來運(yùn)行 Flux.1。

不過，硬件性能較弱的用戶可能會遇到困難。Flux.1 的開源模型大小約為 23GB，這意味著它可能需要接近 24GB 的 VRAM 才能運(yùn)行，直到出現(xiàn)可能更輕量化的版本。

已經(jīng)有科技網(wǎng)站在測評中稱，在配有 RTX 4090 的筆記本電腦上運(yùn)行它們在對提示的遵從度、圖像質(zhì)量和圖像中文字渲染方面都優(yōu)于 Midjourney、DALL-E 甚至 Ideogram。

據(jù) Black Forest Labs 稱，F(xiàn)lux.1 模型采用了 Black Forest Labs 稱之為「多模態(tài)和平行擴(kuò)散 Transformer 塊的混合架構(gòu)」，參數(shù)規(guī)模達(dá) 120 億，比之前的擴(kuò)散模型更進(jìn)一步，融合了流匹配和其他優(yōu)化技術(shù)。

在基準(zhǔn)測試中，F(xiàn)lux 表示其模型在圖像合成方面設(shè)立了新標(biāo)準(zhǔn)，稱在視覺質(zhì)量、提示跟隨度、大小/長寬比多樣性、排版和輸出多樣性方面表現(xiàn)出色，超越了 Midjourney v6.0、Dall-E 3（HD）和 SD3 Ultra 等模型。

Black Forest Labs 的圖表顯示，其 Pro 和 Dev 模型是迄今為止最好的圖像生成器，而其相對較弱的 Schnell 版本雖然未超越 SD3-Ultra 和 Ideogram，但也超越了 Midjourney v6.0 和 DALLE 3（HD）。Black Forest Labs 稱，「Flux.1 [schnell] 是迄今為止最先進(jìn)的少步模型，不僅在其類別中表現(xiàn)出色，還超越了強(qiáng)大的非蒸餾模型�！�

Flux 模型與其他模型對比｜圖片來源：Black Forest Labs

所有 Flux.1 模型版本都支持 0.1 和 2.0 百萬像素的各種縱橫比和分辨率。強(qiáng)調(diào)這個(gè)亮點(diǎn)，是因?yàn)槭忻嫔喜簧?AI 工具僅支持生成「方形」圖像。

Flux 模型支持各種縱橫比｜圖片來源：Black Forest Labs

對于那些有興趣探索 Flux 的人來說，有幾種方法可以訪問和使用該模型。如果計(jì)算機(jī)足夠好，可以下載并在本地運(yùn)行 Flux.1。此外，目前已經(jīng)有幾個(gè)網(wǎng)站提供了 Flux.1 的訪問權(quán)限。

例如，AI 圖像平臺社區(qū) NightCafe 已經(jīng)可以訪問 Flux.1 模型，用戶可以快速將其與 Ideogram 和 Stable Diffusion 3 等其他工具生成的圖像進(jìn)行比較。AI 模型平臺 Poe，也可以訪問 Flux.1，允許用戶以聊天的形式生成圖像。

用戶還可以通過更多面向開發(fā)者的平臺獲取訪問權(quán)限，包括 Based Labs、Hugging Face 和 Fal.ai 等。市場上最大的 AI 圖像平臺之一 FreePik 表示，它也正在努力將 Flux 引入其網(wǎng)站。

網(wǎng)上已經(jīng)有不少實(shí)驗(yàn)者，較火的是一些真實(shí)感很強(qiáng)的圖像，乍一看就像普通照片，甚至引起 AI 圖像被用于實(shí)施詐騙或制造假新聞的擔(dān)憂。

Flux 模型生成的 AI 人像｜圖片來源：reddit

「如果我不知道第一張照片發(fā)布在哪里，我 100% 會相信這是一張真實(shí)的照片。這種瘋狂的真實(shí)感。我實(shí)際上還以為我正在瀏覽一些關(guān)于 Ted 演講之類的 Reddit 廣告。」有 reddit 用戶如此評論。還有用戶認(rèn)為，「Flux 確實(shí)超越了 midjourney」。

用戶利用 Flux 模型生成的 AI 人像｜圖片來源：reddit

不過，也有觀察者指出，仔細(xì)看的話，仍然可以識別出這些圖像是 AI 生成的，比如「文字是最大的亮點(diǎn)，尤其是圖中掛繩和麥克風(fēng)等物品上的小文字。」

AI 圖片江湖：開源 vs 閉源

Black Forest Labs 由 Robin Rombach、Andreas Blattmann 和 Dominik Lorenz 領(lǐng)導(dǎo)，他們都是 Stability AI 的前工程師，此外還有其他在擴(kuò)散式 AI 模型開發(fā)中起重要作用的人物。

Flux.1 的發(fā)布時(shí)機(jī)對開源 AI 來說具有一定意義。

Stable Diffusion 背后的公司Stability AI 在幾個(gè)月前經(jīng)歷了一些動蕩，該公司的產(chǎn)品因在人體解剖生成方面表現(xiàn)不佳而遭到廣泛批評，用戶在社交媒體上分享了扭曲的四肢和身體的示例圖像。

Flux.1 的發(fā)布距 Stability AI 在 6 月中旬發(fā)布的 Stable Diffusion 3 Medium 版本僅七周，該問題版本的發(fā)布伴隨著 Stability AI 三位關(guān)鍵工程師的離職，他們隨后與潛在擴(kuò)散的共同開發(fā)者等人一起創(chuàng)立了 Black Forest Labs。

Black Forest Labs 在成立聲明中，強(qiáng)調(diào)了其團(tuán)隊(duì)在推動媒體生成 AI 方面的出色記錄，稱他們的創(chuàng)新包括「創(chuàng)建 VQGAN 和潛在擴(kuò)散模型、用于圖像和視頻生成的 Stable Diffusion 模型（如 Stable Diffusion XL、Stable Video Diffusion、Rectified Flow Transformers），以及用于超快實(shí)時(shí)圖像生成的對抗性擴(kuò)散蒸餾技術(shù)�！�

在對外發(fā)布 Flux 之前，Black Forest Labs 已經(jīng)完成了 3100 萬美元的種子輪融資，由 a16z 創(chuàng)始人 Andreessen Horowitz 領(lǐng)投，天使投資者包括前迪士尼總裁 Michael Ovitz 等，以及其他在 AI 研究和公司建設(shè)方面的專家，General Catalyst 和 MtchVC 進(jìn)行了追加投資。

有 AI 社區(qū)的創(chuàng)業(yè)者認(rèn)為，在 Stability 崩潰后，開源 AI 領(lǐng)域一直缺少一家優(yōu)秀的圖像生成公司，而 Black Forest Labs 發(fā)布的 Flux.1 質(zhì)量看起來可以媲美 DALL-E，這對于多模態(tài) AI 來說是一個(gè)好消息，向開源 AGI 進(jìn)軍的步伐仍在繼續(xù)。

AI 社區(qū)人士支持圖像生成模型開源｜圖片來源：X

目前，通過簡單的文本提示生成圖像是生成式 AI 領(lǐng)域最成熟的應(yīng)用之一，市場上至少已經(jīng)有幾十款 AI 圖像生成器，提供各種選項(xiàng)、功能和風(fēng)格，各有千秋。

有些主流的 AI 圖像生成工具完全獨(dú)立，比如 Midjourney。在不到兩年的時(shí)間里，Midjourney 從只能創(chuàng)建低分辨率、幾乎無法辨認(rèn)的人物圖像，已經(jīng)發(fā)展到現(xiàn)在可以生成高分辨率的、幾乎與相機(jī)拍攝的照片無法區(qū)分的圖像。

不過，Midjourney 因拒絕討論其訓(xùn)練數(shù)據(jù)來源而備受爭議。許多人懷疑其數(shù)據(jù)大部分來自抓取任何可以找到的公開圖像，而不考慮是否獲得了圖像創(chuàng)作者的許可。

Leonardo 生成的圖像幾乎可以與 Midjourney 相媲美，今年 7 月被在線設(shè)計(jì)獨(dú)角獸 Canva 宣布收購。

有些圖像生成器內(nèi)置于其他產(chǎn)品中。比如，OpenAI 將 DALL-E 3 集成在 ChatGPT 的付費(fèi)版本中，可以通過對話方式生成和編輯圖像。微軟也將 DALL-E 3 集成到 Microsoft 的 Copilot 聊天機(jī)器人中，推出了 Copilot Designer。

其他巨頭方面，谷歌方面基于 Imagen 系列模型，推出了 ImageFX，但目前僅支持生成方形圖像，限制了應(yīng)用場景，Meta 的 Imagine 也存在同樣的問題。

還有前谷歌工程師出來創(chuàng)立了 Ideogram，擅長在圖像上添加文本，適合生成帶有文字的圖像，比如電影海報(bào)、傳單、賀卡等。

Adobe 推出了 AI 圖像生成工具 Firefly，最大優(yōu)勢之一是它與 Photoshop 的深度整合，以及據(jù)稱合規(guī)的訓(xùn)練數(shù)據(jù)集，主要來自 Adobe Stock。

此外還有支持多模型工具的 AI 圖像生成社區(qū)，比如 NightCafe，支持多種模型選擇，包括 Stable Diffusion、DALL-E 3、CLIP-Guided Diffusion 等。像 Stability AI 的圖像工具，已經(jīng)被像 NightCafe 這樣的社區(qū)平臺公司廣泛使用。

Black Forest Labs 的 Flux 與市面上的 AI 圖像生成工具的主要不同，可能還是在于開源。

該公司稱，「我們相信生成式 AI 將成為所有未來技術(shù)的基礎(chǔ)構(gòu)建塊。通過向廣泛的受眾提供我們的模型，我們希望將其好處帶給每個(gè)人，教育公眾，并增強(qiáng)對這些模型安全性的信任�！�

Black Forest Labs 在成立聲明中強(qiáng)調(diào)「透明度是建立信任和廣泛采用的關(guān)鍵」，希望將技術(shù)盡可能廣泛地為大眾所用，將最先進(jìn)的 AI 帶給「全球每個(gè)人」，據(jù)稱這是其核心信念。

不過，談到「信任和安全」時(shí)，公司沒有提到 Flux.1 模型的訓(xùn)練數(shù)據(jù)來源。有科技網(wǎng)站測評發(fā)現(xiàn)，根據(jù) Flux.1 模型生成的圖像，包括版權(quán)角色的描繪，Black Forest Labs 可能使用了大量未經(jīng)授權(quán)的抓取的互聯(lián)網(wǎng)圖像，主要可能由 LAION 收集。

LAION 是收集了訓(xùn)練 Stable Diffusion 數(shù)據(jù)集的組織。但目前這也只是猜測。盡管 Flux.1 的技術(shù)成就值得注意，但如果團(tuán)隊(duì)的做法像 Stability AI 一樣對「公平使用」圖像抓取的倫理問題有所松懈，這種做法可能會最終引發(fā)類似 Stability AI 所面臨的訴訟。

文本生成視頻模型預(yù)告｜圖片來源：Black Forest Labs

此外，文本生成圖像模型只是第一步，F(xiàn)lux 這些模型據(jù)稱是為 Black Forest Labs 即將推出的文本生成視頻系統(tǒng)套件奠定基矗他們已經(jīng)在開發(fā)一個(gè)文本生成視頻模型，承諾將提供高質(zhì)量輸出并以開源形式發(fā)布，稱將是「適用于所有人的最先進(jìn)文本生成視頻技術(shù)�！�

「我們的視頻模型將以高清晰度和前所未有的速度解鎖精確的創(chuàng)建和編輯功能。我們致力于繼續(xù)引領(lǐng)生成式媒體的未來�！笲lack Forest Labs 稱。

這意味著，他們未來可能將與 OpenAI 的 Sora、Runway 的 Gen-3 Alpha 等產(chǎn)生競爭。Midjourney 也有類似的計(jì)劃，其開發(fā)人員正在開發(fā) 3D 和視頻模式，想將 AI 圖像、視頻、3D 和實(shí)時(shí)生成模型結(jié)合在一起，通過文本提示創(chuàng)建完全沉浸式的虛擬環(huán)境。

頭圖來源：Reddit

相關(guān)熱詞： Midjourney 也得站著敬酒圖片生成新王 F