新智元報(bào)道
編輯:LRST
(資料圖片)
【新智元導(dǎo)讀】多目標(biāo)(Multi-target) 以及 視覺參照(Visual Reference) 為視覺定位(Visual Grounding)任務(wù)的推理速度和性能同時(shí)帶來(lái)了全新的挑戰(zhàn)。 為了解決這一難題,來(lái)自UIC和Adobe的研究團(tuán)隊(duì)提出了VGent模型。這是一種兼顧速度與性能的模塊化設(shè)計(jì),旨在將模型的推理與預(yù)測(cè)能力解耦,并輔以多種模塊化增強(qiáng)方案 。最終,VGent憑借不到16B的參數(shù)量,在多目標(biāo)及帶視覺參照的視覺定位基準(zhǔn)(Omnimodal Referring Expression Segmentation, ORES)上,大幅超越了Qwen3-VL-30B,實(shí)現(xiàn)了平均+18.24 F1的巨大提升!
在多模態(tài)大模型(MLLM)時(shí)代,視覺定位是MLLM細(xì)粒度推理能力的重要一環(huán),同時(shí)也是實(shí)現(xiàn)人機(jī)交互和具身智能的核心能力。
現(xiàn)有的解決方案主要分為兩類:
原生Token派(Native-token):像 Qwen2.5-VL 或 Ferret-v2 這樣的模型,通過(guò)自回歸(auto-regressive)的方式利用原有的詞表逐個(gè)生成邊界框坐標(biāo) 。這種方式不僅速度慢(推理時(shí)間隨目標(biāo)數(shù)量線性增加),而且在多目標(biāo)場(chǎng)景下容易產(chǎn)生幻覺(Hallucinations),即模型可能會(huì)在列舉完所有目標(biāo)對(duì)象之前就過(guò)早停止,或者在目標(biāo)密集的場(chǎng)景中陷入無(wú)限生成的死循環(huán)。如圖一所示,隨著目標(biāo)數(shù)量的增加,這類方法在多目標(biāo)場(chǎng)景下的低效和不穩(wěn)定性變得尤為明顯。
新增Token派(New-token):另一類方法嘗試通過(guò)引入特殊的token(如[SEG]或 object token)來(lái)指代目標(biāo)物。他們需要收集大規(guī)模的數(shù)據(jù)集、從LLM起重新構(gòu)建一個(gè)能理解這些新增token的MLLM。因此,這種方法不可避免地會(huì)破壞LLM在預(yù)訓(xùn)練階段獲得的通用推理能力。更嚴(yán)重的是,其導(dǎo)致無(wú)法直接利用現(xiàn)有的、先進(jìn)的、進(jìn)行了更大規(guī)模預(yù)訓(xùn)練的開源MLLM(如 QwenVL系列)。
來(lái)自UIC(伊利諾伊大學(xué)芝加哥分校) 和Adobe的研究團(tuán)隊(duì)提出一種模塊化的編碼器-解碼器(Encoder-Decoder)架構(gòu)VGent,其核心思想是:將高層的語(yǔ)義推理交給MLLM,將底層的像素預(yù)測(cè)交給目標(biāo)檢測(cè)器(detector),最終通過(guò)hidden state將這種解耦后的關(guān)系進(jìn)行連接。
論文地址:https://arxiv.org/abs/2512.11099
研究人員認(rèn)為,語(yǔ)義推理和精準(zhǔn)定位是兩種截然不同的能力,強(qiáng)迫訓(xùn)練一個(gè)單一的整體模型去同時(shí)精通抽象的語(yǔ)義推理和像素級(jí)別的底層預(yù)測(cè),會(huì)導(dǎo)致性能和效率上的權(quán)衡。
更符合直覺的方式,應(yīng)該是由不同的組件做各自擅長(zhǎng)的事。
基于這一洞察,VGent提出了一種模塊化的編碼器-解碼器設(shè)計(jì),利用現(xiàn)成的MLLM和detector將高層多模態(tài)推理與底層預(yù)測(cè)解耦。
其核心理念在于MLLM和detector的優(yōu)勢(shì)是互補(bǔ)的:MLLM擅長(zhǎng)多模態(tài)語(yǔ)義對(duì)齊和推理,而detector則擅長(zhǎng)高效地提供精準(zhǔn)的多目標(biāo)檢測(cè)框。
圖一:VGent(藍(lán)色)與現(xiàn)有先進(jìn)的MLLM(Qwen2.5-VL,灰色)在多目標(biāo)視覺定位任務(wù)上的對(duì)比。左圖顯示VGent的推理時(shí)間恒定且迅速,而 MLLM 隨目標(biāo)數(shù)量增加呈線性增長(zhǎng);右圖顯示VGent在F1分?jǐn)?shù)上實(shí)現(xiàn)了顯著提升,特別是在多目標(biāo)場(chǎng)景下。
方法
基礎(chǔ)架構(gòu)
VGent主要由圖二所示的encoder和decoder兩部分組成,并引入了三種模塊化增強(qiáng)機(jī)制(圖三、四和五)。
圖二:VGent框架概覽
如圖二所示,左側(cè)encoder是一個(gè) MLLM,使用QuadThinker來(lái)提升其多目標(biāo)推理能力。凍結(jié)的encoder輸出hidden states并存儲(chǔ)下來(lái)給到decoder。右側(cè)decoder初始化自encoder的LLM 層,其將detector生成的object proposal作為query,通過(guò)cross-attention與encoder的hidden states交互。
研究人員在decoder內(nèi)部新增了self-attention層(參數(shù)初始化自同一層的cross-attention),用于促進(jìn)query之間的信息交流。 最終的輸出進(jìn)行yes / no的二元判斷來(lái)選擇每個(gè)proposal是否屬于目標(biāo)。相應(yīng)的segmentation mask則通過(guò) prompt SAM 得到。
QuadThinker:強(qiáng)化多目標(biāo)推理能力
針對(duì)MLLM在多目標(biāo)場(chǎng)景下推理能力下降的問(wèn)題,研究人員提出了一種基于 GRPO 的強(qiáng)化學(xué)習(xí)訓(xùn)練范式QuadThinker,通過(guò)設(shè)計(jì)特定的prompt和reward functions,引導(dǎo)模型執(zhí)行區(qū)域到全局、分步推理的過(guò)程:先分別統(tǒng)計(jì)圖像四個(gè)象限內(nèi)的目標(biāo)數(shù)量,再匯總總數(shù),最后預(yù)測(cè)具體坐標(biāo)。
圖三:QuadThinker所使用的prompt。
Mask-aware Label:解決檢測(cè)與分割的歧義
在多目標(biāo)場(chǎng)景中,檢測(cè)(Box)與分割(Mask)任務(wù)的定義存在一定的差別。檢測(cè)通常優(yōu)化「一對(duì)一」的匹配,而分割則旨在召回所有前景像素。
圖四:Mask-aware Label示意圖?;贗oA的標(biāo)簽分配策略能召回被傳統(tǒng)IoU忽略的細(xì)粒度部件。
這種差異導(dǎo)致了標(biāo)注歧義:例如圖四(左)中,檢測(cè)器可能將「鹿頭裝飾」與其「掛繩」視為兩個(gè)獨(dú)立的框。
在檢測(cè)任務(wù)的 IoU 標(biāo)準(zhǔn)下,由于掛繩的框比較小、相對(duì)于整體真值框的重疊率過(guò)低,往往會(huì)被當(dāng)作負(fù)樣本在標(biāo)注階段被過(guò)濾掉(被標(biāo)上負(fù)標(biāo)簽)。但是對(duì)于分割任務(wù)來(lái)說(shuō),這個(gè)掛繩屬于前景,其應(yīng)該被標(biāo)上正標(biāo)簽。
為此,VGent引入了Mask-aware Label,使用IoA (Intersection-over-Area) 指標(biāo)進(jìn)行額外的標(biāo)簽分配。如圖四(右),IoA通過(guò)計(jì)算候選mask (通過(guò)proposal prompt SAM得到)與多目標(biāo)真值的union mask的交集,并除以候選mask自身的面積得到。
因?yàn)镮oA的分母是候選mask自身面積,該機(jī)制能精準(zhǔn)召回那些雖然只覆蓋了部分目標(biāo)群(如細(xì)小的掛繩)但依然有效的 proposal。模型使用另一個(gè)獨(dú)立的MLP head專門預(yù)測(cè)這種分割導(dǎo)向的標(biāo)簽,用于解決視覺定位中分割類型的輸出。
Global Target Recognition:增強(qiáng)全局感知
為了提升候選框選擇的準(zhǔn)確性,VGent 引入了Global Target Recognition模塊。
圖五:Global Target Recognition示意圖。利用Learnable Queries注入全局目標(biāo)數(shù)量信息,并聚合多個(gè)detector的結(jié)果以提升召回率。
為了提高召回率,研究人員聚合了來(lái)自多個(gè)detector的proposal形成一個(gè)統(tǒng)一的query set,之后引入了額外的 learnable queries與這些proposal queries拼接作為decoder的輸入。
這組query被專門訓(xùn)練用于預(yù)測(cè)目標(biāo)的總數(shù)以及正樣本proposal的數(shù)量。通過(guò)decoder層內(nèi)的self-attention機(jī)制,這些包含全局統(tǒng)計(jì)信息的learnable query能夠與proposal query進(jìn)行交互,將「全局線索」傳播給每一個(gè)候選框,從而增強(qiáng)其對(duì)目標(biāo)群體的整體理解,實(shí)現(xiàn)更精準(zhǔn)的選擇。
實(shí)驗(yàn)結(jié)果
研究人員在最新的多目標(biāo)視覺定位基準(zhǔn) ORES (MaskGroups-HQ) 以及傳統(tǒng)的單目標(biāo)數(shù)據(jù)集上進(jìn)行了廣泛評(píng)估。
多目標(biāo)視覺定位(Multi-target Visual Grounding)
圖六:在 Omnimodal Referring Expression Segmentation (ORES) 上的性能對(duì)比。ORES是多目標(biāo)以及存在視覺參照(w/ < mask-ref >)的視覺定位基準(zhǔn)。
如圖六所示,在極具挑戰(zhàn)的ORES基準(zhǔn)上,VGent 取得了全新的SOTA成績(jī)。相比之前的最佳方法RAS13B,VGent在F1分?jǐn)?shù)上實(shí)現(xiàn)了+20.58%的巨大提升。VGent在gIoU和cIoU上都帶來(lái)了明顯的提升。
值得注意的是,即使對(duì)比參數(shù)量更大的Qwen3-VL-30B,VGent 依然保持顯著優(yōu)勢(shì)。同時(shí),得益于模塊化設(shè)計(jì),VGent 在目標(biāo)數(shù)量增加時(shí)保持恒定且快速的推理速度,避免了自回歸模型隨目標(biāo)增加而線性增長(zhǎng)的推理延遲(如圖一所示)。
單目標(biāo)視覺定位(Single-target Visual Grounding)
圖七:在referring expression comprehension (REC) 上的性能對(duì)比。
VGent在傳統(tǒng)單目標(biāo)基準(zhǔn)(RefCOCO, RefCOCO+, RefCOCOg)上也表現(xiàn)卓越。
VGent實(shí)現(xiàn)了90.1%的平均準(zhǔn)確率,超越了InternVL3.5-20B和38B等更大規(guī)模的模型 。相比其backbone (Qwen2.5-VL-7B),VGent帶來(lái)了+3.5%的平均性能提升。
可視化
圖八:VGent在不同挑戰(zhàn)下的預(yù)測(cè)結(jié)果可視化。
VGent在復(fù)雜場(chǎng)景中展現(xiàn)了極強(qiáng)的魯棒性。
如圖八(上)所示,VGent精準(zhǔn)定位所有方形鐘表,即使存在大量相似的鐘表作為干擾項(xiàng),展現(xiàn)了VGent在密集多目標(biāo)場(chǎng)景下的優(yōu)越表現(xiàn)。
圖八(下)中,VGent 成功定位了視覺參照(藍(lán)色 mask),并繼續(xù)推斷出左側(cè)穿裙子的女士,排除了右側(cè)的干擾項(xiàng)。
參考資料:
https://arxiv.org/abs/2512.11099
秒追ASI
?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?
點(diǎn)亮星標(biāo),鎖定新智元極速推送!
廣告
X 關(guān)閉
廣告
X 關(guān)閉