La puntuación de depuración de Claude Fable 5 cae de 86,2 a 25,9 tras el restablecimiento del 1 de julio.

Claude Fable 5 volvió a estar en línea el 1 de julio, y dos plataformas de evaluación comparativa de IA publicaron evaluaciones de rendimiento contradictorias el mismo día. BridgeBench informó que la puntuación de depuración de Claude Fable 5 se derrumbó de 86,2 a 25,9 tras su restablecimiento, mientras que Arena.AI encontró que el rendimiento se mantuvo prácticamente sin cambios a través de miles de votos ciegos de preferencia humana. La divergencia surge del nuevo clasificador de seguridad de Anthropic, que enruta la mayoría de las tareas de codificación y depuración a Claude Opus 4.8 en lugar de permitir que Fable 5 las maneje directamente. Anthropic ha reconocido que el clasificador produce falsos positivos en tareas de codificación rutinarias. La empresa implementó el clasificador conservador como condición para el restablecimiento de Fable 5 tras una demostración de vulnerabilidad de seguridad reportada por investigadores de Amazon.

BridgeBench Registra Caídas Graves en las Puntuaciones en Todas las Categorías de Codificación

BridgeMind volvió a ejecutar su suite completa de codificación contra la versión del 1 de julio de Fable 5 el día que regresó. BridgeBench evalúa tareas de codificación del mundo real en categorías que incluyen depuración, refactorización y resistencia a alucinaciones, con puntuaciones de 0 a 100 según qué tan bien completa el modelo cada categoría. La depuración cayó de 86,2 a 25,9, la refactorización de 73,6 a 38,4, y la resistencia a alucinaciones de 75,9 a 61,7.

De 12 tareas de depuración en TypeScript, solo tres llegaron realmente a Fable 5. Las nueve restantes fueron interceptadas por el nuevo clasificador de seguridad de Anthropic y redirigidas a Claude Opus 4.8. BridgeBench puntúa cada redireccionamiento como cero, porque el modelo que respondió no era el que se estaba evaluando. El clasificador fue entrenado para bloquear la técnica de jailbreak reportada por Amazon que hizo que Fable 5 identificara y demostrara vulnerabilidades de software. Depurar TypeScript se parece lo suficiente a trabajo de seguridad para que el clasificador active constantemente el redireccionamiento.

Votos de Preferencia Humana de Arena.AI Muestran un Rendimiento Plano o Mejorado

Arena.AI analizó la misma pregunta desde una óptica diferente. La plataforma recopila miles de votos ciegos de preferencia humana en múltiples categorías —texto, visión, documentos, código y agente— y clasifica los modelos mediante puntuación Elo. Cuando dos modelos se enfrentan de forma anónima y los humanos eligen un ganador, la puntuación refleja la calidad percibida real, no el enrutamiento de la infraestructura.

La comparación antes y después mostró que Fable 5 se mantenía firme en gran medida. El código frontend cayó de 1650 a 1623 Elo —una diferencia que Arena señaló que está dentro del intervalo de confianza a medida que se siguen acumulando datos. El rendimiento en documentos mejoró en 34 puntos. El texto experto subió 25 puntos. La escritura creativa subió ligeramente en 9 puntos. Las categorías que disminuyeron —Codificación en -18, prompts difíciles en -3— son precisamente donde el clasificador tiene más probabilidades de interceptar el prompt antes de que Fable pueda responder.

Cuando Fable 5 realmente maneja la tarea, sigue funcionando como Fable 5. Los usuarios generales que realizan escritura creativa, análisis de documentos, investigación y consultas de texto a nivel experto probablemente notarán poca o ninguna diferencia. Esas son las categorías donde Arena.AI muestra un rendimiento plano o mejorado. Los desarrolladores que trabajan en territorios cercanos a la seguridad —codificación de gestión de memoria, cualquier cosa que toque palabras como vulnerabilidad, exploit, hook o fix— se encontrarán con el redireccionamiento con frecuencia.

Anthropic Reconoce Falsos Positivos en Trabajo de Codificación Rutinario

Anthropic ha dicho que los clasificadores mejorarán con el tiempo, reconociendo que actualmente abarcan una red demasiado amplia. La prohibición original se produjo después de que investigadores de Amazon encontraran una técnica para lograr que Fable identificara y demostrara vulnerabilidades de software, y el gobierno de EE. UU. lo trató como una amenaza a la seguridad nacional. La solución fue hacer que el clasificador fuera lo suficientemente conservador como para atrapar eso y todo lo que lo rodea, y luego ajustarlo más adelante. Anthropic no ha dado una fecha objetivo para cuándo ocurrirá eso.

FAQ

¿Qué provocó que la puntuación de depuración de Claude Fable 5 cayera de 86,2 a 25,9 después del 1 de julio?

La caída resultó del nuevo clasificador de seguridad de Anthropic que enrutó nueve de doce tareas de depuración a Claude Opus 4.8 en lugar de permitir que Fable 5 las manejara. BridgeBench puntúa cada redireccionamiento como cero porque el modelo evaluado no respondió. El clasificador se implementó para bloquear la técnica de jailbreak reportada por Amazon que hizo que Fable 5 demostrara vulnerabilidades de software.

¿En qué se diferenciaron las pruebas de preferencia humana de Arena.AI de los resultados de BridgeBench?

Arena.AI recopiló miles de votos ciegos de preferencia humana en las categorías de texto, visión, documentos, código y agente. La plataforma encontró que el rendimiento de Fable 5 se mantuvo prácticamente plano en comparación con la versión de junio, con una mejora de 34 puntos en el rendimiento de documentos y un aumento de 25 puntos en texto experto. El código frontend cayó de 1650 a 1623 Elo, una diferencia que Arena señaló que está dentro del intervalo de confianza.

¿Cuándo refinará Anthropic el clasificador de seguridad para reducir los falsos positivos?

Anthropic ha reconocido que los nuevos clasificadores producen falsos positivos en tareas rutinarias de codificación y depuración, y ha afirmado que el sistema se refinará con el tiempo. La empresa no ha dado un cronograma para cuándo ocurrirán los refinamientos.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios