展會信息港展會大全

阿里云通義開源首個多模態(tài)推理模型QVQ
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-12-28 12:27:51   瀏覽:430次  

導(dǎo)讀:新京報(bào)貝殼財(cái)經(jīng)訊(記者羅亦丹)12月25日,阿里云通義千問發(fā)布業(yè)界首個開源多模態(tài)推理模型QVQ-72B-Preview。QVQ展現(xiàn)出超預(yù)期的視覺理解和推理能力,在解決數(shù)學(xué)、物理、科學(xué)等領(lǐng)域的復(fù)雜推理問題上表現(xiàn)尤為突出。多項(xiàng)評測數(shù)據(jù)顯示,QVQ超越了此前的視覺理解模型「開源王者」Qwen2-VL,整體表現(xiàn)與「滿血版」OpenAI o1、Claude3.5 Sonnet等推理模型相當(dāng)。目前,開發(fā)者可在魔搭社區(qū) ......

新京報(bào)貝殼財(cái)經(jīng)訊(記者羅亦丹)12月25日,阿里云通義千問發(fā)布業(yè)界首個開源多模態(tài)推理模型QVQ-72B-Preview。QVQ展現(xiàn)出超預(yù)期的視覺理解和推理能力,在解決數(shù)學(xué)、物理、科學(xué)等領(lǐng)域的復(fù)雜推理問題上表現(xiàn)尤為突出。多項(xiàng)評測數(shù)據(jù)顯示,QVQ超越了此前的視覺理解模型「開源王者」Qwen2-VL,整體表現(xiàn)與「滿血版」OpenAI o1、Claude3.5 Sonnet等推理模型相當(dāng)。目前,開發(fā)者可在魔搭社區(qū)和HuggingFace平臺上直接體驗(yàn)。

人類的推理能力植根于語言思維和視覺記憶中,正因此,利用視覺理解增強(qiáng)大模型推理能力,成為AI技術(shù)的前沿探索之一。阿里云方面表示,QVQ是一個會基于視覺進(jìn)行深度思考推理的大模型。QVQ不但能感知更準(zhǔn)確的視覺內(nèi)容,并據(jù)此作出更細(xì)致的分析推理,還會質(zhì)疑自身假設(shè),仔細(xì)審視其推理過程的每一步,經(jīng)過深思熟慮后給出最后結(jié)論。QVQ可以輕松識別“梗圖”內(nèi)涵;看真實(shí)照片可合理推斷出物體個數(shù)及高度等信息;在面對數(shù)學(xué)、物理、化學(xué)等各科學(xué)領(lǐng)域難題,QVQ能像人甚至科學(xué)家一樣,給出思考過程和準(zhǔn)確答案。

編輯 李錚

校對 楊利

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港