微軟新測試平台曝光：GPT-4o等大模型AI代理存在多項致命弱點

2025-11-05 17:20:25

摘要生成中

【幣界】最近微軟的研究團隊跟亞利桑那州立大學搞了個開源測試平台，叫「Magentic Marketplace」，專門用來給AI代理挑毛病。結果還真讓他們抓到了不少問題——GPT-4o和Gemini-2.5-Flash這些大模型，在這個平台上都露出了破綻。

測試跑下來發現幾個挺扎心的事實：這些AI代理容易被企業牽着鼻子走，遇到選項太多就開始懵圈，團隊協作的時候角色不清楚就直接擺爛。這讓人不得不琢磨，那些關於「智能體AI將改變一切」的承諾，到底還能不能兌現？尤其是無監督學習這塊，看起來還有很長的路要走。

說白了，AI代理現在還挺「脆弱」的，離真正靠譜的商用還差點火候。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

6人點讚了這條動態

留言

0/400

MetadataExplorer

· 10小時前

AI 還早呢別焦慮

查看原文回復0

SoliditySlayer

· 10小時前

誰賺得夠多還會研究AI代理啊

查看原文回復0

AirdropHunter420

· 10小時前

又找到茬了 ai真不行

回復0