Platform pengujian baru Microsoft terungkap: AI agen model besar seperti GPT-4o memiliki beberapa kelemahan fatal.

2025-11-05 17:20:25

Pembuatan abstrak sedang berlangsung

【koin界】baru-baru ini tim penelitian Microsoft bekerja sama dengan Universitas Negeri Arizona untuk membuat sebuah platform pengujian Sumber Terbuka, yang disebut “Magentic Marketplace”, khusus untuk menemukan masalah pada agen AI. Hasilnya, mereka benar-benar menemukan banyak masalah—model besar seperti GPT-4o dan Gemini-2.5-Flash menunjukkan kelemahan di platform ini.

Setelah menguji, saya menemukan beberapa fakta yang cukup menyentuh hati: agen AI ini mudah dipengaruhi oleh perusahaan, ketika dihadapkan pada terlalu banyak pilihan, mereka mulai bingung, dan saat berkolaborasi dalam tim, jika peran tidak jelas, mereka langsung menyerah. Ini membuat orang harus berpikir, apakah janji tentang “AI agen akan mengubah segalanya” masih bisa ditepati? Terutama dalam hal pembelajaran tanpa pengawasan, tampaknya masih ada jalan panjang yang harus ditempuh.

Singkatnya, agen AI saat ini masih cukup “rapuh”, masih jauh dari penggunaan komersial yang benar-benar dapat diandalkan.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

6 Suka