微软新测试平台曝光：GPT-4o等大模型AI代理存在多项致命弱点

2025-11-05 17:20:25

摘要生成中

【币界】最近微软的研究团队跟亚利桑那州立大学搞了个开源测试平台，叫「Magentic Marketplace」，专门用来给AI代理挑毛病。结果还真让他们抓到了不少问题——GPT-4o和Gemini-2.5-Flash这些大模型，在这个平台上都露出了破绽。

测试跑下来发现几个挺扎心的事实：这些AI代理容易被企业牵着鼻子走，遇到选项太多就开始懵圈，团队协作的时候角色不清楚就直接摆烂。这让人不得不琢磨，那些关于「智能体AI将改变一切」的承诺，到底还能不能兑现？尤其是无监督学习这块，看起来还有很长的路要走。

说白了，AI代理现在还挺「脆弱」的，离真正靠谱的商用还差点火候。

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

6人点赞了这条动态

0/400

MetadataExplorer

· 10小时前

AI 还早呢别焦虑

SoliditySlayer

· 10小时前

谁赚得够多还会研究AI代理啊

AirdropHunter420

· 10小时前

又找到茬了 ai真不行