您當(dāng)前的位置：首頁(yè) >> 綜合 > >> 正文

速訊：F1暴漲20分，推理速度恒定！新架構(gòu)VGent：多目標(biāo)定位又快又準(zhǔn)

來(lái)源: 新智元時(shí)間：2026-01-01 13:26:15

新智元報(bào)道

編輯：LRST

(資料圖片)

【新智元導(dǎo)讀】多目標(biāo)（Multi-target）以及視覺參照（Visual Reference）為視覺定位（Visual Grounding）任務(wù)的推理速度和性能同時(shí)帶來(lái)了全新的挑戰(zhàn)。為了解決這一難題，來(lái)自UIC和Adobe的研究團(tuán)隊(duì)提出了VGent模型。這是一種兼顧速度與性能的模塊化設(shè)計(jì)，旨在將模型的推理與預(yù)測(cè)能力解耦，并輔以多種模塊化增強(qiáng)方案。最終，VGent憑借不到16B的參數(shù)量，在多目標(biāo)及帶視覺參照的視覺定位基準(zhǔn)（Omnimodal Referring Expression Segmentation, ORES）上，大幅超越了Qwen3-VL-30B，實(shí)現(xiàn)了平均+18.24 F1的巨大提升！

在多模態(tài)大模型（MLLM）時(shí)代，視覺定位是MLLM細(xì)粒度推理能力的重要一環(huán)，同時(shí)也是實(shí)現(xiàn)人機(jī)交互和具身智能的核心能力。

現(xiàn)有的解決方案主要分為兩類：

原生Token派（Native-token）：像 Qwen2.5-VL 或 Ferret-v2 這樣的模型，通過(guò)自回歸（auto-regressive）的方式利用原有的詞表逐個(gè)生成邊界框坐標(biāo) 。這種方式不僅速度慢（推理時(shí)間隨目標(biāo)數(shù)量線性增加），而且在多目標(biāo)場(chǎng)景下容易產(chǎn)生幻覺（Hallucinations），即模型可能會(huì)在列舉完所有目標(biāo)對(duì)象之前就過(guò)早停止，或者在目標(biāo)密集的場(chǎng)景中陷入無(wú)限生成的死循環(huán)。如圖一所示，隨著目標(biāo)數(shù)量的增加，這類方法在多目標(biāo)場(chǎng)景下的低效和不穩(wěn)定性變得尤為明顯。

新增Token派（New-token）：另一類方法嘗試通過(guò)引入特殊的token（如[SEG]或 object token）來(lái)指代目標(biāo)物。他們需要收集大規(guī)模的數(shù)據(jù)集、從LLM起重新構(gòu)建一個(gè)能理解這些新增token的MLLM。因此，這種方法不可避免地會(huì)破壞LLM在預(yù)訓(xùn)練階段獲得的通用推理能力。更嚴(yán)重的是，其導(dǎo)致無(wú)法直接利用現(xiàn)有的、先進(jìn)的、進(jìn)行了更大規(guī)模預(yù)訓(xùn)練的開源MLLM（如 QwenVL系列）。

來(lái)自UIC（伊利諾伊大學(xué)芝加哥分校）和Adobe的研究團(tuán)隊(duì)提出一種模塊化的編碼器-解碼器（Encoder-Decoder）架構(gòu)VGent，其核心思想是：將高層的語(yǔ)義推理交給MLLM，將底層的像素預(yù)測(cè)交給目標(biāo)檢測(cè)器（detector），最終通過(guò)hidden state將這種解耦后的關(guān)系進(jìn)行連接。

論文地址：https://arxiv.org/abs/2512.11099

研究人員認(rèn)為，語(yǔ)義推理和精準(zhǔn)定位是兩種截然不同的能力，強(qiáng)迫訓(xùn)練一個(gè)單一的整體模型去同時(shí)精通抽象的語(yǔ)義推理和像素級(jí)別的底層預(yù)測(cè)，會(huì)導(dǎo)致性能和效率上的權(quán)衡。

更符合直覺的方式，應(yīng)該是由不同的組件做各自擅長(zhǎng)的事。

基于這一洞察，VGent提出了一種模塊化的編碼器-解碼器設(shè)計(jì)，利用現(xiàn)成的MLLM和detector將高層多模態(tài)推理與底層預(yù)測(cè)解耦。

其核心理念在于MLLM和detector的優(yōu)勢(shì)是互補(bǔ)的：MLLM擅長(zhǎng)多模態(tài)語(yǔ)義對(duì)齊和推理，而detector則擅長(zhǎng)高效地提供精準(zhǔn)的多目標(biāo)檢測(cè)框。

圖一：VGent（藍(lán)色）與現(xiàn)有先進(jìn)的MLLM（Qwen2.5-VL，灰色）在多目標(biāo)視覺定位任務(wù)上的對(duì)比。左圖顯示VGent的推理時(shí)間恒定且迅速，而 MLLM 隨目標(biāo)數(shù)量增加呈線性增長(zhǎng)；右圖顯示VGent在F1分?jǐn)?shù)上實(shí)現(xiàn)了顯著提升，特別是在多目標(biāo)場(chǎng)景下。

方法

基礎(chǔ)架構(gòu)

VGent主要由圖二所示的encoder和decoder兩部分組成，并引入了三種模塊化增強(qiáng)機(jī)制（圖三、四和五）。

圖二：VGent框架概覽

如圖二所示，左側(cè)encoder是一個(gè) MLLM，使用QuadThinker來(lái)提升其多目標(biāo)推理能力。凍結(jié)的encoder輸出hidden states并存儲(chǔ)下來(lái)給到decoder。右側(cè)decoder初始化自encoder的LLM 層，其將detector生成的object proposal作為query，通過(guò)cross-attention與encoder的hidden states交互。

研究人員在decoder內(nèi)部新增了self-attention層（參數(shù)初始化自同一層的cross-attention），用于促進(jìn)query之間的信息交流。最終的輸出進(jìn)行yes / no的二元判斷來(lái)選擇每個(gè)proposal是否屬于目標(biāo)。相應(yīng)的segmentation mask則通過(guò) prompt SAM 得到。

QuadThinker：強(qiáng)化多目標(biāo)推理能力

針對(duì)MLLM在多目標(biāo)場(chǎng)景下推理能力下降的問(wèn)題，研究人員提出了一種基于 GRPO 的強(qiáng)化學(xué)習(xí)訓(xùn)練范式QuadThinker，通過(guò)設(shè)計(jì)特定的prompt和reward functions，引導(dǎo)模型執(zhí)行區(qū)域到全局、分步推理的過(guò)程：先分別統(tǒng)計(jì)圖像四個(gè)象限內(nèi)的目標(biāo)數(shù)量，再匯總總數(shù)，最后預(yù)測(cè)具體坐標(biāo)。

圖三：QuadThinker所使用的prompt。

Mask-aware Label：解決檢測(cè)與分割的歧義

在多目標(biāo)場(chǎng)景中，檢測(cè)（Box）與分割（Mask）任務(wù)的定義存在一定的差別。檢測(cè)通常優(yōu)化「一對(duì)一」的匹配，而分割則旨在召回所有前景像素。

圖四：Mask-aware Label示意圖?；贗oA的標(biāo)簽分配策略能召回被傳統(tǒng)IoU忽略的細(xì)粒度部件。

這種差異導(dǎo)致了標(biāo)注歧義：例如圖四（左）中，檢測(cè)器可能將「鹿頭裝飾」與其「掛繩」視為兩個(gè)獨(dú)立的框。

在檢測(cè)任務(wù)的 IoU 標(biāo)準(zhǔn)下，由于掛繩的框比較小、相對(duì)于整體真值框的重疊率過(guò)低，往往會(huì)被當(dāng)作負(fù)樣本在標(biāo)注階段被過(guò)濾掉（被標(biāo)上負(fù)標(biāo)簽）。但是對(duì)于分割任務(wù)來(lái)說(shuō)，這個(gè)掛繩屬于前景，其應(yīng)該被標(biāo)上正標(biāo)簽。

為此，VGent引入了Mask-aware Label，使用IoA (Intersection-over-Area) 指標(biāo)進(jìn)行額外的標(biāo)簽分配。如圖四（右），IoA通過(guò)計(jì)算候選mask （通過(guò)proposal prompt SAM得到）與多目標(biāo)真值的union mask的交集，并除以候選mask自身的面積得到。

因?yàn)镮oA的分母是候選mask自身面積，該機(jī)制能精準(zhǔn)召回那些雖然只覆蓋了部分目標(biāo)群（如細(xì)小的掛繩）但依然有效的 proposal。模型使用另一個(gè)獨(dú)立的MLP head專門預(yù)測(cè)這種分割導(dǎo)向的標(biāo)簽，用于解決視覺定位中分割類型的輸出。

Global Target Recognition：增強(qiáng)全局感知

為了提升候選框選擇的準(zhǔn)確性，VGent 引入了Global Target Recognition模塊。

圖五：Global Target Recognition示意圖。利用Learnable Queries注入全局目標(biāo)數(shù)量信息，并聚合多個(gè)detector的結(jié)果以提升召回率。

為了提高召回率，研究人員聚合了來(lái)自多個(gè)detector的proposal形成一個(gè)統(tǒng)一的query set，之后引入了額外的 learnable queries與這些proposal queries拼接作為decoder的輸入。

這組query被專門訓(xùn)練用于預(yù)測(cè)目標(biāo)的總數(shù)以及正樣本proposal的數(shù)量。通過(guò)decoder層內(nèi)的self-attention機(jī)制，這些包含全局統(tǒng)計(jì)信息的learnable query能夠與proposal query進(jìn)行交互，將「全局線索」傳播給每一個(gè)候選框，從而增強(qiáng)其對(duì)目標(biāo)群體的整體理解，實(shí)現(xiàn)更精準(zhǔn)的選擇。

實(shí)驗(yàn)結(jié)果

研究人員在最新的多目標(biāo)視覺定位基準(zhǔn) ORES (MaskGroups-HQ) 以及傳統(tǒng)的單目標(biāo)數(shù)據(jù)集上進(jìn)行了廣泛評(píng)估。

多目標(biāo)視覺定位（Multi-target Visual Grounding）

圖六：在 Omnimodal Referring Expression Segmentation (ORES) 上的性能對(duì)比。ORES是多目標(biāo)以及存在視覺參照（w/ < mask-ref >）的視覺定位基準(zhǔn)。

如圖六所示，在極具挑戰(zhàn)的ORES基準(zhǔn)上，VGent 取得了全新的SOTA成績(jī)。相比之前的最佳方法RAS13B，VGent在F1分?jǐn)?shù)上實(shí)現(xiàn)了+20.58%的巨大提升。VGent在gIoU和cIoU上都帶來(lái)了明顯的提升。

值得注意的是，即使對(duì)比參數(shù)量更大的Qwen3-VL-30B，VGent 依然保持顯著優(yōu)勢(shì)。同時(shí)，得益于模塊化設(shè)計(jì)，VGent 在目標(biāo)數(shù)量增加時(shí)保持恒定且快速的推理速度，避免了自回歸模型隨目標(biāo)增加而線性增長(zhǎng)的推理延遲（如圖一所示）。

單目標(biāo)視覺定位（Single-target Visual Grounding）

圖七：在referring expression comprehension (REC) 上的性能對(duì)比。

VGent在傳統(tǒng)單目標(biāo)基準(zhǔn)（RefCOCO, RefCOCO+, RefCOCOg）上也表現(xiàn)卓越。

VGent實(shí)現(xiàn)了90.1%的平均準(zhǔn)確率，超越了InternVL3.5-20B和38B等更大規(guī)模的模型。相比其backbone (Qwen2.5-VL-7B)，VGent帶來(lái)了+3.5%的平均性能提升。

可視化

圖八：VGent在不同挑戰(zhàn)下的預(yù)測(cè)結(jié)果可視化。

VGent在復(fù)雜場(chǎng)景中展現(xiàn)了極強(qiáng)的魯棒性。

如圖八（上）所示，VGent精準(zhǔn)定位所有方形鐘表，即使存在大量相似的鐘表作為干擾項(xiàng)，展現(xiàn)了VGent在密集多目標(biāo)場(chǎng)景下的優(yōu)越表現(xiàn)。

圖八（下）中，VGent 成功定位了視覺參照（藍(lán)色 mask），并繼續(xù)推斷出左側(cè)穿裙子的女士，排除了右側(cè)的干擾項(xiàng)。

參考資料：

https://arxiv.org/abs/2512.11099

秒追ASI