Показник налагодження Claude Fable 5 впав з 86,2 до 25,9 після відновлення 1 липня

Claude Fable 5 повернувся в мережу 1 липня, і того ж дня дві платформи для бенчмаркінгу ШІ опублікували суперечливі оцінки продуктивності. BridgeBench повідомив, що показник налагодження помилок Claude Fable 5 впав з 86,2 до 25,9 після відновлення, тоді як Arena.AI виявила, що продуктивність залишилася майже незмінною за результатами тисяч сліпих голосів людських уподобань. Розбіжність виникає через новий класифікатор безпеки Anthropic, який спрямовує більшість завдань з кодування та налагодження до Claude Opus 4.8, а не дозволяє Fable 5 виконувати їх безпосередньо. Anthropic визнав, що класифікатор дає хибні спрацьовування на звичайних завданнях кодування. Компанія розгорнула консервативний класифікатор як умову відновлення Fable 5 після демонстрації вразливості безпеки, про яку повідомили дослідники Amazon.

BridgeBench фіксує різке падіння балів у всіх категоріях кодування

BridgeMind повторно запустив свій повний набір тестів кодування для версії Fable 5 від 1 липня того ж дня, коли вона повернулася. BridgeBench тестує реальні завдання кодування в таких категоріях, як налагодження, рефакторинг та стійкість до галюцинацій, з оцінкою від 0 до 100 за те, наскільки добре модель виконує кожну категорію. Показник налагодження впав з 86,2 до 25,9, рефакторингу — з 73,6 до 38,4, а стійкості до галюцинацій — з 75,9 до 61,7.

З 12 завдань з налагодження TypeScript лише три фактично дійшли до Fable 5. Решта дев'ять були перехоплені новим класифікатором безпеки Anthropic і перенаправлені до Claude Opus 4.8. BridgeBench оцінює кожне резервне рішення як нуль, оскільки модель, яка відповіла, не була тією, що оцінювалася. Класифікатор був навчений блокувати техніку джейлбрейку, про яку повідомили в Amazon, яка змусила Fable 5 ідентифікувати та демонструвати вразливості програмного забезпечення. Налагодження TypeScript виглядає для класифікатора досить схожим на роботу з безпекою, тому резервне рішення спрацьовує постійно.

Голоси людських уподобань Arena.AI показують стабільну або покращену продуктивність

Arena.AI розглянула те саме питання під іншим кутом. Платформа збирає тисячі сліпих голосів людських уподобань у кількох категоріях — текст, зір, документи, код та агенти — і ранжує моделі за допомогою рейтингу Ело. Коли дві моделі зустрічаються анонімно, а люди обирають переможця, оцінка відображає фактичну сприйняту якість, а не інфраструктурну маршрутизацію.

Порівняння до та після показало, що Fable 5 в основному тримається. Показник фронтенд-коду впав з 1 650 до 1 623 бала Ело — різниця, яку Arena зазначила, знаходиться в межах довірчого інтервалу, оскільки дані продовжують накопичуватися. Продуктивність роботи з документами покращилася на 34 бали. Експертний текст зріс на 25 балів. Творче письмо незначно зросло на 9 балів. Категорії, які знизилися — кодування на -18, складні запити на -3 — це саме ті, де класифікатор найчастіше перехоплює запит до того, як Fable зможе відповісти.

Коли Fable 5 фактично виконує завдання, він все ще працює як Fable 5. Звичайні користувачі, які займаються творчим письмом, аналізом документів, дослідженнями та експертними текстовими запитами, швидше за все, не помітять або майже не помітять різниці. Це ті категорії, де Arena.AI показує стабільну або покращену продуктивність. Розробники, які працюють у сфері, суміжній з безпекою — кодування керування пам'яттю, все, що стосується таких слів, як вразливість, експлойт, хук або виправлення — регулярно стикатимуться з резервним рішенням.

Anthropic визнає хибні спрацьовування на звичайних завданнях кодування

Anthropic заявив, що класифікатори з часом покращаться, визнаючи, що наразі вони охоплюють надто широке коло. Первісна заборона настала після того, як дослідники Amazon виявили техніку, яка змушувала Fable ідентифікувати та демонструвати вразливості програмного забезпечення, і уряд США розцінив це як загрозу національній безпеці. Виправленням стало створення класифікатора, достатньо консервативного, щоб виявити це і все, що з цим пов'язане, а потім поступово налаштовувати його пізніше. Anthropic не назвав цільову дату, коли це станеться.

ЧаПи

Чому показник налагодження помилок Claude Fable 5 впав з 86,2 до 25,9 після 1 липня?

Падіння стало результатом того, що новий класифікатор безпеки Anthropic спрямував дев'ять з дванадцяти завдань з налагодження до Claude Opus 4.8, а не дозволив Fable 5 виконувати їх. BridgeBench оцінює кожне резервне рішення як нуль, оскільки оцінювана модель не відповідала. Класифікатор був розгорнутий для блокування техніки джейлбрейку, про яку повідомили в Amazon, яка змусила Fable 5 демонструвати вразливості програмного забезпечення.

Чим тестування людських уподобань Arena.AI відрізнялося від результатів BridgeBench?

Arena.AI зібрала тисячі сліпих голосів людських уподобань у категоріях тексту, зору, документів, коду та агентів. Платформа виявила, що продуктивність Fable 5 залишилася майже незмінною порівняно з червневою версією, при цьому продуктивність роботи з документами покращилася на 34 бали, а експертний текст зріс на 25 балів. Показник фронтенд-коду впав з 1 650 до 1 623 бала Ело — різниця, яку Arena зазначила, знаходиться в межах довірчого інтервалу.

Коли Anthropic вдосконалить класифікатор безпеки, щоб зменшити кількість хибних спрацьовувань?

Anthropic визнав, що нові класифікатори дають хибні спрацьовування на звичайних завданнях кодування та налагодження, і заявив, що система з часом буде вдосконалена. Компанія не назвала термінів, коли відбудуться вдосконалення.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів