微軟新測試平台曝光:GPT-4o等大模型AI代理存在多項致命弱點

robot
摘要生成中

【幣界】最近微軟的研究團隊跟亞利桑那州立大學搞了個開源測試平台,叫「Magentic Marketplace」,專門用來給AI代理挑毛病。結果還真讓他們抓到了不少問題——GPT-4o和Gemini-2.5-Flash這些大模型,在這個平台上都露出了破綻。

測試跑下來發現幾個挺扎心的事實:這些AI代理容易被企業牽着鼻子走,遇到選項太多就開始懵圈,團隊協作的時候角色不清楚就直接擺爛。這讓人不得不琢磨,那些關於「智能體AI將改變一切」的承諾,到底還能不能兌現?尤其是無監督學習這塊,看起來還有很長的路要走。

說白了,AI代理現在還挺「脆弱」的,離真正靠譜的商用還差點火候。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 3
  • 轉發
  • 分享
留言
0/400
MetadataExplorervip
· 10小時前
AI 還早呢別焦慮
查看原文回復0
SoliditySlayervip
· 10小時前
誰賺得夠多還會研究AI代理啊
查看原文回復0
AirdropHunter420vip
· 10小時前
又找到茬了 ai真不行
回復0
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)