(資料圖片)
IT之家 11 月 6 日消息,微軟周三發(fā)布了一個(gè)用于測(cè)試人工智能代理(AI agents)的新仿真環(huán)境,并同期發(fā)表了一項(xiàng)新研究,揭示當(dāng)前的代理模型可能容易受到操控。這項(xiàng)由微軟與亞利桑那州立大學(xué)合作開展的研究,對(duì) AI 代理在無(wú)人監(jiān)督情況下執(zhí)行任務(wù)的可靠性提出了新疑問(wèn),同時(shí)也質(zhì)疑 AI 企業(yè)能否迅速兌現(xiàn)其關(guān)于“代理化未來(lái)”(agentic future)的承諾。
圖源:微軟官網(wǎng)
該仿真環(huán)境由微軟命名為“Magentic Marketplace”(磁性市場(chǎng)),是一個(gè)用于實(shí)驗(yàn) AI 代理行為的人工合成平臺(tái)。典型的實(shí)驗(yàn)場(chǎng)景包括:一個(gè)代表用戶的“客戶代理”試圖依照用戶指令訂購(gòu)?fù)聿停聿煌蛷d的多個(gè)“商家代理”則競(jìng)相爭(zhēng)取這筆訂單。
研究團(tuán)隊(duì)的初步實(shí)驗(yàn)涉及 100 個(gè)客戶側(cè)代理與 300 個(gè)商家側(cè)代理之間的互動(dòng)。由于該市場(chǎng)平臺(tái)的源代碼已開源,其他研究團(tuán)隊(duì)可輕松復(fù)用該代碼開展新實(shí)驗(yàn)或驗(yàn)證已有結(jié)果。
微軟研究院 AI 前沿實(shí)驗(yàn)室(AI Frontiers Lab)董事總經(jīng)理埃杰?卡馬爾(Ece Kamar)表示,此類研究對(duì)于深入理解 AI 代理的能力至關(guān)重要。“當(dāng)這些代理開始彼此協(xié)作、對(duì)話和協(xié)商時(shí),世界將如何改變,這確實(shí)是一個(gè)值得探討的問(wèn)題,”卡馬爾說(shuō),“我們希望深入理解這些現(xiàn)象?!?/p>
據(jù)IT之家了解,初步研究測(cè)試了包括 GPT-4o、GPT-5 以及 Gemini-2.5-Flash 在內(nèi)的主流模型,發(fā)現(xiàn)了它們一些令人意外的弱點(diǎn)。研究人員尤其指出,商家可通過(guò)若干策略操控客戶代理,使其更傾向于購(gòu)買特定產(chǎn)品。此外,當(dāng)客戶代理面對(duì)過(guò)多選項(xiàng)時(shí),其決策效率顯著下降 —— 這表明代理的注意力機(jī)制在選項(xiàng)過(guò)多時(shí)容易過(guò)載。
“我們希望這些代理能幫助我們處理海量選項(xiàng),”卡馬爾表示,“但我們發(fā)現(xiàn),當(dāng)前模型在面對(duì)過(guò)多選擇時(shí)實(shí)際上陷入了嚴(yán)重的信息過(guò)載?!?/p>
研究還發(fā)現(xiàn),當(dāng)多個(gè)代理被要求為實(shí)現(xiàn)共同目標(biāo)而協(xié)作時(shí),它們往往難以明確各自在協(xié)作中的角色分工。雖然在提供更明確的協(xié)作指令后,代理的表現(xiàn)有所提升,但研究人員仍認(rèn)為模型本身的協(xié)作能力亟待加強(qiáng)。
“我們可以一步步指示模型該做什么,”卡馬爾解釋道,“但如果我們的目標(biāo)本身就是測(cè)試它們內(nèi)在的協(xié)作能力,那么我本應(yīng)期待這些模型默認(rèn)就具備這樣的能力?!?/p>
廣告
X 關(guān)閉
廣告
X 關(guān)閉