亚洲www久久网站,嫩草研究所久久久精品,91黑丝国产线观看免费

北大開源首個針對視頻編輯的新指標，與人類感知高度對齊｜AAAI25

來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-28 09:57:03 瀏覽：295次

導讀：北京大學MMCAL團隊投稿量子位 | 公眾號 QbitAI視頻生成模型卷得熱火朝天，配套的視頻評價標準自然也不能落后�，F(xiàn)在，北京大學MMCAL團隊開發(fā)了首個用于視頻編輯質(zhì)量評估的新指標VE-Bench，相關(guān)代碼與預訓練權(quán)重均已開源。它重點關(guān)注了AI視頻編輯中最常見的一個場景：視頻編輯前后結(jié)果與原始視頻之間的聯(lián)系。例如，在“摘掉女孩的耳環(huán)”的任務中，需要保留人物ID，源視頻與編輯 ......

北京大學MMCAL團隊投稿量子位 | 公眾號 QbitAI

視頻生成模型卷得熱火朝天，配套的視頻評價標準自然也不能落后。

現(xiàn)在，北京大學MMCAL團隊開發(fā)了首個用于視頻編輯質(zhì)量評估的新指標VE-Bench，相關(guān)代碼與預訓練權(quán)重均已開源。

它重點關(guān)注了AI視頻編輯中最常見的一個場景：視頻編輯前后結(jié)果與原始視頻之間的聯(lián)系。

例如，在“摘掉女孩的耳環(huán)”的任務中，需要保留人物ID，源視頻與編輯結(jié)果應該有著較強語義相關(guān)性，而在“把女孩換為鋼鐵俠”這樣的任務中，語義就明顯發(fā)生了改變。

此外，它的數(shù)據(jù)還更加符合人類的主觀感受，是一個有效的主觀對齊量化指標。

實驗結(jié)果顯示，與FastVQA、StableVQA、DOVER、VE-Bench QA等視頻質(zhì)量評價方法相比，VE-Bench QA取得了SOTA的人類感知對齊結(jié)果：

北大開源首個針對視頻編輯的新指標，與人類感知高度對齊｜AAAI25

這到底是怎么做到的呢？

簡單來說，VE-Bench首先從原始視頻收集、提示詞收集、視頻編輯方法、主觀標注4個方面入手，構(gòu)建了一個更加豐富的數(shù)據(jù)庫VE-Bench DB。

此外，團隊還提出了創(chuàng)新的測試方法VE-Bench QA，將視頻的整體效果分成了文字-目標一致性、參考源與目標的關(guān)系、技術(shù)畸變和美學標準多個維度進行綜合評價，比當前常用的CLIP分數(shù)等客觀指標、PickScore等反映人類偏好的指標都更加全面。

北大開源首個針對視頻編輯的新指標，與人類感知高度對齊｜AAAI25

相關(guān)論文已入選AAAI 2025（The Association for the Advancement of Artificial Intelligence）會議。

北大開源首個針對視頻編輯的新指標，與人類感知高度對齊｜AAAI25

更豐富全面的數(shù)據(jù)庫VE-Bench DB原始視頻收集為了確保數(shù)據(jù)多樣性，VE-Bench DB除了收集來自真實世界場景的視頻，還包括CG渲染的內(nèi)容以及基于文本生成的AIGC視頻。

數(shù)據(jù)來源包括公開數(shù)據(jù)集DAVIS、Kinetics-700、Sintel、Spring的視頻，來自Sora和可靈的AIGC視頻，以及來自互聯(lián)網(wǎng)的補充視頻。

來自互聯(lián)網(wǎng)的視頻包括極光、熔巖等常規(guī)數(shù)據(jù)集缺乏的場景。

所有視頻都被調(diào)整為長邊768像素，同時保持其原始寬高比。

由于目前主流視頻編輯方法支持的長度限制，每段視頻都被裁剪為32幀。

源視頻的具體內(nèi)容構(gòu)成如下圖所示，所有樣本在收集時均通過人工篩選以保證內(nèi)容的多樣性并減少冗余：

北大開源首個針對視頻編輯的新指標，與人類感知高度對齊｜AAAI25

△VE-Bench原始視頻構(gòu)成。(a)視頻來源 (b)視頻類型 (c) 視頻運動種類 (d) 視頻內(nèi)容種類

提示詞收集參考過往工作，VE-Bench將用于編輯的提示詞分為3大類別：

風格編輯（Style editing）：包括對顏色、紋理或整體氛圍的編輯。

語義編輯（Semantic editing）：包括背景編輯和局部編輯，例如對某一對象的添加、替換或移除。

結(jié)構(gòu)編輯（Structural editing）：包括對象大小、姿態(tài)、動作等的變化。

針對每個類別，團隊人工編寫了相應的提示詞，對應的詞云與類別構(gòu)成如下：

北大開源首個針對視頻編輯的新指標，與人類感知高度對齊｜AAAI25

△VE-Bench提示詞構(gòu)成。(a)詞云 (b)提示詞類型占比統(tǒng)計

編輯結(jié)果生成VE-Bench選取了8種視頻編輯方法。

這些方法包括早期的經(jīng)典方法與近期較新的方法，涵蓋從SD1.4～SD2.1的不同版本，包括需要微調(diào)的方法、0-shot的方法、和基于ControlNet、PnP等不同策略編輯的方法。

人類主觀評價在進行主觀實驗時，VE-Bench確保了每個視頻樣本均由24位受試者進行打分，符合ITU標準中15人以上的人數(shù)要求。

所參與受試者均在18歲以上，學歷均在本科及以上，包括商學、工學、理學、法學等不同的背景，有獨立的判斷能力。

在實驗開始前，所有人會線下集中進行培訓，并且會展示數(shù)據(jù)集之外的不同好壞的編輯例子。

測試時，受試者被要求根據(jù)其主觀感受，并對以下幾個方面進行綜合評價：文本與視頻的一致性、源視頻與目標視頻的相關(guān)度以及編輯后視頻的質(zhì)量，分數(shù)為十分制。

最后收集得到的不同模型平均得分的箱線圖如下：

北大開源首個針對視頻編輯的新指標，與人類感知高度對齊｜AAAI25

△VE-Bench模型得分箱線圖

其中，橫坐標表示不同模型ID，縱坐標表示Z-score正則化后的MOS (Mean Opinion Score)分數(shù)。橘紅色線條表示得分的中位數(shù)。

可以看出，當前的大多數(shù)文本驅(qū)動的視頻編輯模型中位數(shù)得分普遍在5分左右浮動，少數(shù)模型的得分中位數(shù)可以達到近6分，部分模型的得分中位數(shù)不到4分。

模型得分最低分可以下探到不到2分，也有個別樣本最高可以達到近9分。

具體每個樣本在Z-score前后的得分直方圖如下圖所示，可以看出極高分和極低分仍在少數(shù)：

北大開源首個針對視頻編輯的新指標，與人類感知高度對齊｜AAAI25

△VE-Bench模型得分直方圖

在此基礎上，團隊進一步繪制了不同視頻編輯模型在VE-Bench提示詞上的表現(xiàn)：

北大開源首個針對視頻編輯的新指標，與人類感知高度對齊｜AAAI25

△不同視頻編輯模型在VE-Bench中不同類別的提示詞上的表現(xiàn)

可以看出，目前的模型都相對較為擅長風格化指令，這可能是利用了SD在大量不同風格圖片上訓練的先驗成果。

同時，刪除指令相比于添加得分更低，因為它需要額外考慮物體或背景重建等問題，對模型語義理解與細粒度特征提取能力有更高要求。

現(xiàn)有模型都還不太擅長形狀編輯。這方面FateZero模型表現(xiàn)較為優(yōu)秀，這可能與它針對shape-aware提出的注意力混合方法有關(guān)。

從3個緯度進行評估的VE-Bench QA在構(gòu)建的VE-Bench DB的基礎上，團隊還提出了創(chuàng)新的VE-Bench QA訓練方法，目標是得到與人類感知更加接近的分數(shù)。

下面這張圖展示了VE-Bench QA的主要框架：

北大開源首個針對視頻編輯的新指標，與人類感知高度對齊｜AAAI25

VE-Bench QA從3個維度對文本驅(qū)動的視頻編輯進行評估：

文本-視頻一致性

為了衡量所編輯視頻是否與文本有關(guān)，VE-Bench QA基于BLIP進行了有效的視頻-文本相關(guān)性建模，通過在BLIP視覺分支的基礎上加入Temporal Adapter將其擴展到三維，并與文本分支的結(jié)果通過交叉注意力得到輸出。

源視頻-編輯后視頻動態(tài)相關(guān)性

為了更好建模隨上下文動態(tài)變化的相關(guān)性關(guān)系，VE-Bench QA在該分支上通過時空Transformer將二者投影到高維空間，并在此基礎上拼接后利用注意力機制計算二者相關(guān)性，最后通過回歸計算得到相應輸出。

傳統(tǒng)維度的視覺質(zhì)量方面

VE-Bench QA參考了過往自然場景視頻質(zhì)量評價的優(yōu)秀工作DOVER，通過在美學和失真方面預訓練過后的骨干網(wǎng)絡輸出相應結(jié)果。

最終各個分支的輸出通過線性層回歸得到最終分數(shù)。

實驗結(jié)果顯示，VE-Bench QA在多個數(shù)據(jù)集上所預測的結(jié)果，其與真值的相關(guān)性得分都領(lǐng)先于其他方法：

北大開源首個針對視頻編輯的新指標，與人類感知高度對齊｜AAAI25

△VE-BenchQA在T2VQA-DB數(shù)據(jù)集上的結(jié)果

北大開源首個針對視頻編輯的新指標，與人類感知高度對齊｜AAAI25

△VE-Bench QA在VE-Bench DB數(shù)據(jù)集上的結(jié)果

論文鏈接：https://arxiv.org/abs/2408.11481代碼鏈接：https://github.com/littlespray/VE-Bench

相關(guān)熱詞： 視頻編輯 aaai 北京大學開源

北大開源首個針對視頻編輯的新指標，與人類感知高度對齊｜AAAI25
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-28 09:57:03 瀏覽：295次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明