金十データ11月8日付によると、月の暗面公式サイトによると、Kimi K2 Thinkingは推論、コーディング、エージェント能力のベンチマーク評価で新記録を達成しました。K2 ThinkingはHLEベンチマーク評価で44.9%のSOTA成績を収め、BrowseCompテストで60.2%、SWE-Bench Verifiedテストで71.3%を記録し、最先端の思考エージェントモデルとしての強力な汎用性を示しています。
64.86K 人気度
804 人気度
429 人気度
343 人気度
223.4K 人気度
Kimi K2 Thinkingは、推論、コーディング、エージェント能力のベンチマーク評価において新記録を樹立しました
金十データ11月8日付によると、月の暗面公式サイトによると、Kimi K2 Thinkingは推論、コーディング、エージェント能力のベンチマーク評価で新記録を達成しました。K2 ThinkingはHLEベンチマーク評価で44.9%のSOTA成績を収め、BrowseCompテストで60.2%、SWE-Bench Verifiedテストで71.3%を記録し、最先端の思考エージェントモデルとしての強力な汎用性を示しています。