Claude Fable 5 đã trở lại trực tuyến vào ngày 1 tháng 7, và cùng ngày, hai nền tảng đánh giá AI đã công bố những đánh giá hiệu suất trái ngược nhau. BridgeBench báo cáo điểm gỡ lỗi của Claude Fable 5 giảm mạnh từ 86,2 xuống 25,9 sau khi được phục hồi, trong khi Arena.AI cho thấy hiệu suất hầu như không thay đổi qua hàng nghìn phiếu bầu mù về sở thích của con người. Sự khác biệt này bắt nguồn từ bộ phân loại an toàn mới của Anthropic, thay vì để Fable 5 xử lý trực tiếp, đã chuyển hầu hết các tác vụ mã hóa và gỡ lỗi sang Claude Opus 4.8. Anthropic đã thừa nhận bộ phân loại tạo ra các kết quả dương tính giả đối với các tác vụ mã hóa thông thường. Công ty triển khai bộ phân loại thận trọng này như một điều kiện để phục hồi Fable 5 sau một cuộc trình diễn lỗ hổng bảo mật được các nhà nghiên cứu của Amazon báo cáo.
BridgeMind đã chạy lại toàn bộ bộ thử nghiệm mã hóa của mình trên phiên bản ngày 1 tháng 7 của Fable 5 ngay khi nó trở lại. BridgeBench kiểm tra các tác vụ mã hóa trong thế giới thực qua các hạng mục bao gồm gỡ lỗi, tái cấu trúc và khả năng chống ảo giác, chấm điểm từ 0–100 dựa trên mức độ hoàn thành mỗi hạng mục của mô hình. Gỡ lỗi giảm từ 86,2 xuống 25,9, Tái cấu trúc từ 73,6 xuống 38,4 và Khả năng chống ảo giác từ 75,9 xuống 61,7.
Trong số 12 tác vụ gỡ lỗi TypeScript, chỉ có ba tác vụ thực sự đến được Fable 5. Chín tác vụ còn lại đã bị chặn bởi bộ phân loại an toàn mới của Anthropic và chuyển hướng sang Claude Opus 4.8. BridgeBench chấm mọi phương án dự phòng là 0, vì mô hình trả lời không phải là mô hình đang được đánh giá. Bộ phân loại được huấn luyện để chặn kỹ thuật jailbreak do Amazon báo cáo đã khiến Fable 5 xác định và trình diễn các lỗ hổng phần mềm. Gỡ lỗi TypeScript trông đủ giống công việc bảo mật đối với bộ phân loại đến mức phương án dự phòng liên tục được kích hoạt.
Arena.AI đã xem xét cùng một câu hỏi qua một lăng kính khác. Nền tảng này thu thập hàng nghìn phiếu bầu mù về sở thích của con người qua nhiều hạng mục—văn bản, thị giác, tài liệu, mã hóa và tác tử—và xếp hạng các mô hình bằng điểm Elo. Khi hai mô hình đối đầu ẩn danh và con người chọn người thắng cuộc, điểm số phản ánh chất lượng cảm nhận thực tế, không phải định tuyến cơ sở hạ tầng.
So sánh trước và sau cho thấy Fable 5 hầu như giữ vững phong độ. Mã giao diện người dùng giảm từ 1650 xuống 1623 Elo—một chênh lệch mà Arena lưu ý nằm trong khoảng tin cậy khi dữ liệu tiếp tục được tích lũy. Hiệu suất tài liệu cải thiện 34 điểm. Văn bản chuyên gia tăng 25. Viết sáng tạo tăng nhẹ 9. Các hạng mục giảm—Mã hóa ở mức -18, câu hỏi khó ở mức -3—chính xác là những nơi bộ phân loại có nhiều khả năng chặn câu hỏi trước khi Fable có thể trả lời.
Khi Fable 5 thực sự xử lý tác vụ, nó vẫn hoạt động như Fable 5. Người dùng thông thường làm việc viết sáng tạo, phân tích tài liệu, nghiên cứu và truy vấn văn bản cấp chuyên gia có thể sẽ thấy ít hoặc không có sự khác biệt. Đó là những hạng mục mà Arena.AI cho thấy hiệu suất ổn định hoặc được cải thiện. Các nhà phát triển làm việc trong lĩnh vực liên quan đến bảo mật—mã hóa quản lý bộ nhớ, bất cứ thứ gì liên quan đến các từ như lỗ hổng, khai thác, móc nối hoặc sửa lỗi—sẽ thường xuyên gặp phải phương án dự phòng.
Anthropic cho biết các bộ phân loại sẽ được cải thiện theo thời gian, thừa nhận rằng hiện tại chúng đang bao phủ quá rộng. Lệnh cấm ban đầu xảy ra sau khi các nhà nghiên cứu của Amazon tìm ra kỹ thuật khiến Fable xác định và trình diễn các lỗ hổng phần mềm, và chính phủ Mỹ coi đó là mối đe dọa an ninh quốc gia. Giải pháp là làm cho bộ phân loại đủ thận trọng để bắt được điều đó và mọi thứ xung quanh nó, sau đó điều chỉnh giảm sau này. Anthropic chưa đưa ra ngày mục tiêu cho việc này.
Điều gì khiến điểm gỡ lỗi của Claude Fable 5 giảm từ 86,2 xuống 25,9 sau ngày 1 tháng 7?
Sự sụt giảm là do bộ phân loại an toàn mới của Anthropic chuyển chín trong số mười hai tác vụ gỡ lỗi sang Claude Opus 4.8 thay vì để Fable 5 xử lý. BridgeBench chấm mọi phương án dự phòng là 0 vì mô hình được đánh giá đã không trả lời. Bộ phân loại được triển khai để chặn kỹ thuật jailbreak do Amazon báo cáo đã khiến Fable 5 trình diễn các lỗ hổng phần mềm.
Việc kiểm tra sở thích con người của Arena.AI khác với kết quả của BridgeBench như thế nào?
Arena.AI đã thu thập hàng nghìn phiếu bầu mù về sở thích của con người qua các hạng mục văn bản, thị giác, tài liệu, mã hóa và tác tử. Nền tảng này nhận thấy hiệu suất của Fable 5 hầu như ổn định so với phiên bản tháng 6, với hiệu suất tài liệu cải thiện 34 điểm và văn bản chuyên gia tăng 25 điểm. Mã giao diện người dùng giảm từ 1650 xuống 1623 Elo, một chênh lệch mà Arena lưu ý nằm trong khoảng tin cậy.
Khi nào Anthropic sẽ tinh chỉnh bộ phân loại an toàn để giảm dương tính giả?
Anthropic đã thừa nhận các bộ phân loại mới tạo ra dương tính giả đối với các tác vụ mã hóa và gỡ lỗi thông thường và tuyên bố sẽ tinh chỉnh hệ thống theo thời gian. Công ty chưa đưa ra mốc thời gian cho việc tinh chỉnh.
Tin tức liên quan
Cổ phiếu KOSPI phục hồi lên 8000 sau khi giảm xuống 7300 do lo ngại về AI
Claude Fable 5 Cho Thấy Kết Quả Benchmark Trái Chiều Sau Khi Được Phục Hồi Vào Ngày 1 Tháng 7
Mỹ dỡ bỏ hạn chế xuất khẩu đối với các mô hình AI Fable 5 và Mythos 5 của Anthropic
Claude Sonnet 5 ra mắt, giá API rẻ hơn 60% so với Opus.