Platform pengujian baru Microsoft terungkap: AI agen model besar seperti GPT-4o memiliki beberapa kelemahan fatal.

robot
Pembuatan abstrak sedang berlangsung

【koin界】baru-baru ini tim penelitian Microsoft bekerja sama dengan Universitas Negeri Arizona untuk membuat sebuah platform pengujian Sumber Terbuka, yang disebut “Magentic Marketplace”, khusus untuk menemukan masalah pada agen AI. Hasilnya, mereka benar-benar menemukan banyak masalah—model besar seperti GPT-4o dan Gemini-2.5-Flash menunjukkan kelemahan di platform ini.

Setelah menguji, saya menemukan beberapa fakta yang cukup menyentuh hati: agen AI ini mudah dipengaruhi oleh perusahaan, ketika dihadapkan pada terlalu banyak pilihan, mereka mulai bingung, dan saat berkolaborasi dalam tim, jika peran tidak jelas, mereka langsung menyerah. Ini membuat orang harus berpikir, apakah janji tentang “AI agen akan mengubah segalanya” masih bisa ditepati? Terutama dalam hal pembelajaran tanpa pengawasan, tampaknya masih ada jalan panjang yang harus ditempuh.

Singkatnya, agen AI saat ini masih cukup “rapuh”, masih jauh dari penggunaan komersial yang benar-benar dapat diandalkan.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 3
  • Posting ulang
  • Bagikan
Komentar
0/400
MetadataExplorervip
· 10jam yang lalu
AI masih jauh, jangan khawatir.
Lihat AsliBalas0
SoliditySlayervip
· 10jam yang lalu
Siapa yang menghasilkan cukup banyak masih akan mempelajari agen AI?
Lihat AsliBalas0
AirdropHunter420vip
· 11jam yang lalu
Sudah menemukan celah lagi, ai memang tidak bisa.
Lihat AsliBalas0
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)