Claude Fable 5 กลับมาออนไลน์อีกครั้งในวันที่ 1 กรกฎาคม และแพลตฟอร์มวัดประสิทธิภาพ AI สองแห่งได้เผยแพร่ผลการประเมินที่ขัดแย้งกันในวันเดียวกัน BridgeBench รายงานว่าคะแนนการดีบักของ Claude Fable 5 ร่วงลงจาก 86.2 เป็น 25.9 หลังจากกลับมาใช้งานอีกครั้ง ขณะที่ Arena.AI พบว่าประสิทธิภาพโดยรวมไม่เปลี่ยนแปลงมากนัก ผ่านการโหวตความชอบของมนุษย์แบบไม่เปิดเผยตัวหลายพันครั้ง ความแตกต่างนี้เกิดจากตัวจำแนกความปลอดภัยใหม่ของ Anthropic ที่สั่งให้งานเขียนโค้ดและดีบักส่วนใหญ่ไปยัง Claude Opus 4.8 แทนที่จะให้ Fable 5 จัดการโดยตรง Anthropic ยอมรับว่าตัวจำแนกให้ผลบวกปลอมกับงานเขียนโค้ดทั่วไป บริษัทปรับใช้ตัวจำแนกแบบอนุรักษ์นิยมนี้เป็นเงื่อนไขในการกลับมาใช้งาน Fable 5 อีกครั้ง หลังจากการสาธิตช่องโหว่ด้านความปลอดภัยที่รายงานโดยนักวิจัยของ Amazon

BridgeBench บันทึกคะแนนลดลงอย่างรุนแรงในทุกหมวดการเขียนโค้ด

BridgeMind ดำเนินการทดสอบชุดเขียนโค้ดทั้งหมดอีกครั้งกับเวอร์ชันวันที่ 1 กรกฎาคมของ Fable 5 ในวันที่มันกลับมา BridgeBench ทดสอบงานเขียนโค้ดในโลกจริงในหมวดต่างๆ รวมถึงการดีบัก การปรับโครงสร้างโค้ด และการต้านทานภาพหลอน โดยให้คะแนน 0–100 ตามความสามารถของโมเดลในการทำแต่ละหมวดให้สำเร็จ การดีบักลดลงจาก 86.2 เป็น 25.9 การปรับโครงสร้างโค้ดจาก 73.6 เป็น 38.4 และการต้านทานภาพหลอนจาก 75.9 เป็น 61.7

จากงานดีบัก TypeScript 12 งาน มีเพียงสามงานเท่านั้นที่ถึง Fable 5 จริงๆ ส่วนที่เหลืออีกเก้างานถูกสกัดกั้นโดยตัวจำแนกความปลอดภัยใหม่ของ Anthropic และเปลี่ยนเส้นทางไปยัง Claude Opus 4.8 BridgeBench ให้คะแนนการส่งต่อทุกรายการเป็นศูนย์ เพราะโมเดลที่ตอบไม่ใช่โมเดลที่กำลังประเมิน ตัวจำแนกได้รับการฝึกเพื่อบล็อกเทคนิคเจลเบรกที่ Amazon รายงาน ซึ่งทำให้ Fable 5 ระบุและแสดงช่องโหว่ของซอฟต์แวร์ การดีบัก TypeScript ดูคล้ายกับงานด้านความปลอดภัยสำหรับตัวจำแนกมากพอที่การส่งต่อจะทำงานตลอดเวลา

การโหวตความชอบของมนุษย์จาก Arena.AI แสดงประสิทธิภาพคงที่ถึงดีขึ้น

Arena.AI ทดสอบคำถามเดียวกันผ่านมุมมองที่แตกต่าง แพลตฟอร์มรวบรวมการโหวตความชอบของมนุษย์แบบไม่เปิดเผยตัวหลายพันครั้งในหลายหมวด—ข้อความ ภาพ เอกสาร โค้ด และเอเจนต์—และจัดอันดับโมเดลโดยใช้คะแนน Elo เมื่อโมเดลสองตัวประลองตัวต่อตัวโดยไม่เปิดเผยตัวและมนุษย์เลือกผู้ชนะ คะแนนจะสะท้อนถึงคุณภาพที่รับรู้จริง ไม่ใช่เส้นทางของโครงสร้างพื้นฐาน

การเปรียบเทียบก่อนและหลังแสดงให้เห็นว่า Fable 5 ส่วนใหญ่คงประสิทธิภาพไว้ได้ โค้ดส่วนหน้า (Frontend code) ลดลงจาก 1650 เป็น 1623 Elo ซึ่งเป็นความแตกต่างที่ Arena ระบุว่าอยู่ในช่วงความเชื่อมั่นเนื่องจากข้อมูลยังคงสะสมต่อเนื่อง ประสิทธิภาพเอกสารดีขึ้น 34 จุด ข้อความระดับผู้เชี่ยวชาญเพิ่มขึ้น 25 จุด การเขียนเชิงสร้างสรรค์เพิ่มขึ้นเล็กน้อย 9 จุด หมวดที่ลดลง—การเขียนโค้ดที่ -18, พรอมต์ยากที่ -3—คือหมวดที่ตัวจำแนกมีแนวโน้มสูงที่สุดที่จะสกัดกั้นพรอมต์ก่อนที่ Fable จะตอบ

เมื่อ Fable 5 จัดการงานจริงๆ มันยังคงทำงานเหมือน Fable 5 ผู้ใช้ทั่วไปที่ทำการเขียนเชิงสร้างสรรค์ วิเคราะห์เอกสาร วิจัย และสอบถามข้อความระดับผู้เชี่ยวชาญแทบจะไม่เห็นความแตกต่างใดๆ หมวดเหล่านี้คือหมวดที่ Arena.AI แสดงประสิทธิภาพคงที่หรือดีขึ้น นักพัฒนาที่ทำงานในพื้นที่ใกล้เคียงกับความปลอดภัย—การเขียนโค้ดจัดการหน่วยความจำ อะไรก็ตามที่แตะคำเช่น vulnerability, exploit, hook หรือ fix—จะพบกับการส่งต่อบ่อยครั้ง

Anthropic ยอมรับผลบวกปลอมกับงานเขียนโค้ดทั่วไป

Anthropic กล่าวว่าตัวจำแนกจะดีขึ้นเมื่อเวลาผ่านไป โดยยอมรับว่าปัจจุบันมันครอบคลุมมากเกินไป การแบนเดิมเกิดขึ้นหลังจากนักวิจัยของ Amazon พบเทคนิคที่ทำให้ Fable ระบุและแสดงช่องโหว่ของซอฟต์แวร์ และรัฐบาลสหรัฐฯ ถือว่าเป็นภัยคุกคามความมั่นคงแห่งชาติ วิธีแก้ไขคือทำให้ตัวจำแนกเข้มงวดพอที่จะจับสิ่งนั้นและทุกอย่างรอบๆ แล้วค่อยปรับลดลงในภายหลัง Anthropic ยังไม่ได้กำหนดวันเป้าหมายเมื่อจะเกิดขึ้น

คำถามที่พบบ่อย

อะไรทำให้คะแนนการดีบักของ Claude Fable 5 ลดลงจาก 86.2 เป็น 25.9 หลังจากวันที่ 1 กรกฎาคม

การลดลงเกิดจากตัวจำแนกความปลอดภัยใหม่ของ Anthropic ที่สั่งให้งานดีบักเก้าในสิบสองงานไปยัง Claude Opus 4.8 แทนที่จะให้ Fable 5 จัดการ BridgeBench ให้คะแนนการส่งต่อทุกรายการเป็นศูนย์เพราะโมเดลที่ประเมินไม่ได้ตอบ ตัวจำแนกถูกปรับใช้เพื่อบล็อกเทคนิคเจลเบรกที่ Amazon รายงาน ซึ่งทำให้ Fable 5 แสดงช่องโหว่ของซอฟต์แวร์

การทดสอบความชอบของมนุษย์ของ Arena.AI แตกต่างจากผลลัพธ์ของ BridgeBench อย่างไร

Arena.AI รวบรวมการโหวตความชอบของมนุษย์แบบไม่เปิดเผยตัวหลายพันครั้งในหมวดข้อความ ภาพ เอกสาร โค้ด และเอเจนต์ แพลตฟอร์มพบว่าประสิทธิภาพของ Fable 5 ส่วนใหญ่คงที่เมื่อเทียบกับเวอร์ชันเดือนมิถุนายน โดยประสิทธิภาพเอกสารดีขึ้น 34 จุด และข้อความระดับผู้เชี่ยวชาญเพิ่มขึ้น 25 จุด โค้ดส่วนหน้าลดลงจาก 1650 เป็น 1623 Elo ซึ่งเป็นความแตกต่างที่ Arena ระบุว่าอยู่ในช่วงความเชื่อมั่น

Anthropic จะปรับปรุงตัวจำแนกความปลอดภัยเพื่อลดผลบวกปลอมเมื่อใด

Anthropic ยอมรับว่าตัวจำแนกใหม่ให้ผลบวกปลอมกับงานเขียนโค้ดและดีบักทั่วไป และกล่าวว่าระบบจะได้รับการปรับปรุงเมื่อเวลาผ่านไป บริษัทยังไม่ได้กำหนดกรอบเวลาสำหรับการปรับปรุงดังกล่าว

news.view.source

news.article.disclaimer

news.related.news

10 ชั่วโมง ที่แล้ว

คะแนนการดีบักของ Claude Fable 5 ลดลงจาก 86.2 เป็น 25.9 ในวันที่ 1 กรกฎาคม แต่ Arena.AI แสดงให้เห็นว่าประสิทธิภาพทรงตัว

07-03 21:11

Claude Fable 5 ประสิทธิภาพลดลงในการวัดประสิทธิภาพ แต่ตัวแยกประเภทความปลอดภัย—ไม่ใช่โมเดล—ถูกตำหนิสำหรับความล้มเหลวในการกำหนดเส้นทาง

07-03 02:57

Fable 5 เผชิญกับประสิทธิภาพที่ลดลงอย่างมีนัยสำคัญหลังการเปิดตัวอีกครั้งในวันที่ 3 กรกฎาคม

btc.bar.articles

หุ้น KOSPI ฟื้นตัวกลับไปที่ 8000 หลังจากร่วงลงไปที่ 7300 จากความกังวลเกี่ยวกับ AI

Lucas Bennett10 ชั่วโมง ที่แล้ว