Claude Fable 5 실제 써보니 벤치마크 1위지만 안전 필터가 발목을 잡는다
Claude Fable 5 벤치마크 결과와 실제 사용 후기를 분석합니다. SWE-bench 95%, 코딩 성능 압도적이지만 요청의 9%를 차단하는 안전 필터가 연구자들에게 큰 문제로 지적됩니다.
앤트로픽(Anthropic)이 2026년 6월 9일 새로운 최상위 AI 모델 Claude Fable 5를 공개했습니다. SWE-Bench Verified(실제 소프트웨어 엔지니어링 과제 벤치마크)에서 95%를 기록하며 거의 모든 벤치마크에서 1위를 차지했습니다. 그러나 전체 요청의 약 9%를 차단하는 안전 필터가 연구자들 사이에서 즉각적인 비판을 불러일으키고 있습니다.
성능만 보면 현재 공개된 AI 모델 중 가장 강력한 모델입니다. 그러나 가격은 기존 Opus 4.8 대비 두 배이며, 의료 물리학자가 “nuclear”라는 단어를 썼다는 이유로 차단되는 사례까지 보고되고 있습니다. 이 글에서는 Fable 5가 실제로 어느 수준인지, 그리고 어떤 사람에게 맞고 맞지 않는지를 데이터와 실제 사용 사례를 통해 분석합니다.
Claude Fable 5 벤치마크 실제 수치
Fable 5는 현재 공개된 AI 모델 중 가장 높은 벤치마크 점수를 기록하고 있습니다.
Artificial Analysis Intelligence Index에서 64.9점을 기록했으며 2위인 GPT-5.5보다 약 5점 앞섭니다. SWE-Bench Verified(실제 GitHub 저장소의 소프트웨어 엔지니어링 과제)에서는 95%, Vibe Code Bench에서는 90.35%를 달성했습니다. 6개월 전 어떤 모델도 20%를 넘지 못하던 Vibe Code Bench에서의 수치입니다.
Humanity’s Last Exam(인류의 마지막 시험, 최고 난이도의 학문적 벤치마크)에서는 53%로 이전 최고 모델인 Opus 4.8보다 7점 이상 높습니다. 단, 이 테스트를 한 번 실행하는 비용이 약 220만 원(2,200달러)이었습니다.
Cognition의 FrontierCode(실제 프로덕션 수준의 코딩 과제)에서는 29.3%를 기록했습니다. Claude Opus 4.8은 13.4%, GPT-5.5는 5.7%에 그쳤습니다.
SWE-Bench Pro(공개 GitHub 저장소 기반 실제 소프트웨어 과제, 외부 도움 없이 해결)에서는 80.3%로 Opus 4.8의 69.2%, GPT-5.5의 58.6%를 크게 앞섰습니다.
실제 현장에서 어떻게 쓰였나
숫자보다 더 설득력 있는 것은 실제 사용 사례입니다.
결제 서비스 기업 **스트라이프(Stripe)**는 5,000만 줄 규모의 Ruby 코드베이스 마이그레이션 작업에 Fable 5를 투입했습니다. 팀 전체가 두 달 이상 걸릴 것으로 예상했던 작업을 단 하루 만에 완료했습니다.
에단 몰릭(Ethan Mollick) 교수는 Fable 5에 등시선 여행 시간 지도(isochrone travel time map) 제작을 맡겼습니다. 모델은 스스로 더 저렴한 서브에이전트를 생성해 2,200개 이상의 항공 노선, 열차 시간표, 도로 속도 데이터를 수집하고 코드를 작성하며 병렬로 테스트를 진행했습니다. 작업 시간은 약 9시간 30분이었습니다.
AI 기업 Every의 CEO 댄 쉬퍼(Dan Shipper)는 Fable 5를 “워프 드라이브”라고 표현했습니다. 잘 정의된 대규모 작업을 비동기적으로 처리하는 데 이상적이지만, 빠른 대화형 상호작용에는 맞지 않는다는 평가도 덧붙였습니다.
코드 리뷰 서비스 CodeRabbit은 명세가 불분명한 자율 코딩 과제에서 Fable 5의 강점을 확인했습니다. 다만 코드 리뷰 정밀도에서는 Opus 4.8보다 떨어지며, 작업을 시스템이 강제 종료할 때까지 계속 실행하는 경향이 있다고 경고했습니다.
안전 필터 문제 가장 많은 불만이 여기에 있다
Fable 5에서 가장 많은 비판이 집중되는 부분은 성능이 아니라 안전 필터입니다.
Artificial Analysis에 따르면 Fable 5는 전체 요청의 약 8~9%에서 안전 필터가 작동해 더 약한 모델인 Opus 4.8로 자동 전환되거나 응답 자체를 거부합니다. 차단되는 요청의 대부분은 과학 관련 질문입니다.
실제 사용자 보고 사례를 보면 그 범위가 예상보다 훨씬 넓습니다. 한 의료 물리학자는 “nuclear(핵)“이라는 단어를 자주 쓴다는 이유만으로 Fable 5를 업무에 전혀 사용할 수 없다고 밝혔습니다. MRI 이미지 분할 작업이 생물테러로 분류된 사례, 말라리아의 모기 전파 경로를 묻는 질문이 차단된 사례, 기본적인 보안 검토가 사이버 공격 위험으로 분류된 사례도 보고됐습니다.
또한 The Decoder의 보도에 따르면, 경쟁 AI 모델 개발에 관련된 질문에는 눈에 보이지 않는 별도의 개입이 작동합니다. 사전학습 파이프라인 구축, ML 가속기 설계 같은 주제에서는 응답 차단 없이 프롬프트 수정이나 스티어링 벡터를 통해 모델의 응답 효과가 조용히 저하됩니다. 전체 트래픽의 약 0.03%에만 해당한다고 앤트로픽은 밝혔으나, 개발자 커뮤니티에서는 “앤트로픽의 ‘안전하지 않음’의 정의가 앤트로픽과의 경쟁을 포함한다”는 비판이 나오고 있습니다.
Fable 5가 맞는 사람과 맞지 않는 사람
Fable 5의 강점이 빛나는 상황이 있습니다.
잘 정의된 대규모 코딩 작업을 비동기로 처리하는 경우입니다. 코드 마이그레이션, 복잡한 기능 구현, 대규모 리팩토링이 여기에 해당합니다.
고난이도 분석 과제에서도 강점을 보입니다. 금융 문서 분석, 복잡한 차트 해석, 데이터 기반 의사결정 지원 등에서 기존 모델 대비 명확한 차이가 있습니다.
반면 맞지 않는 상황도 분명합니다. 의료, 생명과학, 보안 분야 연구자라면 안전 필터로 인해 오히려 업무 효율이 떨어질 수 있습니다. 짧고 빠른 대화형 작업에도 적합하지 않습니다. 그리고 6월 23일 이후에는 크레딧이 소진되면 구독 플랜에서도 접근이 제한되므로 비용 계획이 필요합니다.
Fable 5가 보여주는 AI 개발의 새로운 긴장
Fable 5는 단순한 성능 업그레이드가 아닙니다. 이 모델은 AI 개발사가 성능과 안전 사이에서 어떤 선택을 하는지, 그리고 그 선택이 실제 사용자에게 어떤 영향을 미치는지를 보여주는 사례입니다.
벤치마크 1위 모델이 의료 물리학자에게는 “가장 쓸모없는 모델”로 평가받는 현실은 AI 안전 설계가 아직 정교하지 않다는 것을 드러냅니다. 앤트로픽도 현재 필터가 지나치게 공격적으로 작동하고 있음을 인정하고 있습니다.
최고 성능의 AI 모델이 출시될 때마다 벤치마크 수치만큼 중요한 것이 “누가 쓸 수 있고 누가 쓸 수 없는가”라는 질문입니다. Fable 5는 이 질문을 가장 직접적으로 던지는 모델입니다.
#ClaudeFable5 #앤트로픽 #AI코딩 #SWEbench #AI벤치마크 #Claude #AI안전필터
함께 읽으면 좋은 글
GPT-5.5 벤치마크 1위 환각률 86% AI 성능 경쟁의 불편한 진실
OpenAI GPT-5.5가 AI 벤치마크 순위 1위를 탈환했지만 환각률이 86%로 Claude Opus 4.7의 36%를 크게 웃돈다 가장 자신 있게 틀리는 모델의 문제가 실제 업무에서 어떤 위험을 만드는지 분석한다
뉴스클로드 Opus 4.7 가격 동일하지만 실제 비용 최대 37% 증가 토크나이저 변경 영향 분석
Anthropic Opus 4.7은 공식 API 가격은 4.6과 동일하지만 토크나이저 변경으로 실제 청구 비용이 최대 37% 증가한다. 코드 작업에서 더 크고 한국어는 거의 영향 없다.