微软新测试平台曝光:GPT-4o等大模型AI代理存在多项致命弱点

robot
摘要生成中

【币界】最近微软的研究团队跟亚利桑那州立大学搞了个开源测试平台,叫「Magentic Marketplace」,专门用来给AI代理挑毛病。结果还真让他们抓到了不少问题——GPT-4o和Gemini-2.5-Flash这些大模型,在这个平台上都露出了破绽。

测试跑下来发现几个挺扎心的事实:这些AI代理容易被企业牵着鼻子走,遇到选项太多就开始懵圈,团队协作的时候角色不清楚就直接摆烂。这让人不得不琢磨,那些关于「智能体AI将改变一切」的承诺,到底还能不能兑现?尤其是无监督学习这块,看起来还有很长的路要走。

说白了,AI代理现在还挺「脆弱」的,离真正靠谱的商用还差点火候。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 3
  • 转发
  • 分享
评论
0/400
MetadataExplorervip
· 10小时前
AI 还早呢别焦虑
回复0
SoliditySlayervip
· 10小时前
谁赚得够多还会研究AI代理啊
回复0
AirdropHunter420vip
· 10小时前
又找到茬了 ai真不行
回复0
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)