클로드 오퍼스 4.7 성능 퇴보 논란 B2B 특화 전략과 일반 사용자 이탈 구조 분석

기사 원문은 이 링크를 통해 확인하실 수 있습니다.

“오퍼스 4.7은 업그레이드가 아니라 심각한 퇴보입니다.”

Anthropic이 2026년 4월 16일 공개한 Claude Opus 4.7에 붙은 이 평가는 레딧에서 3,200개의 추천을 받았습니다. 출시 직후 X(트위터)에서는 58만 회 조회된 게시물이 같은 주장을 펼쳤습니다. 딸기(strawberry) 철자에 p가 몇 개인지를 틀리게 답하는 영상은 무려 139만 회가 조회됐습니다. 전작들이 출시될 때마다 “현존 최강”이라는 타이틀을 가져갔던 모델 라인업에서 이런 반응은 이례적입니다.

그런데 동시에, 스타트업 창업자 Jeremy Howard는 4.7을 “내가 무엇을 하는지 제대로 이해하는 최초의 모델”이라고 극찬했습니다. 같은 모델, 완전히 다른 경험. 이 간극이 이번 사태의 핵심입니다.

무슨 일이 있었는가, 구체적 사례들

출시 직후 소셜미디어에 올라온 불만은 몇 가지 유형으로 분류됩니다.

가장 많이 공유된 것은 답변 일관성 문제입니다. 딸기 철자에 p가 몇 개냐는 질문에, 어떤 사용자에게는 두 개라고 답하고 다른 사용자에게는 하나라고 답했습니다. 오류의 내용보다 답변이 들쭉날쭉하다는 것이 핵심 불만이었습니다. AI 모델에서 일관성은 신뢰의 기본 조건입니다. 매번 다른 답을 내놓는 모델은 업무에 사용하기 어렵습니다.

두 번째는 환각(hallucination) 증가입니다. 이력서를 업데이트해달라는 요청에 다니지도 않은 학교를 추가했다는 증언이 레딧에 올라왔습니다. 존재하지 않는 정보를 자신 있게 생성하는 것은 AI 모델의 고질적 문제지만, 4.7에서 이 경향이 강해졌다는 사용자 보고가 다수였습니다.

세 번째는 요즘 모델 평가의 비공식 기준이 된 세차장 퀴즈 실패입니다. 세차장에 차를 두고 온 사람이 걸어서 세차장까지 가야 하느냐는 질문에, 4.7은 “걸어가라”는 답을 내놓았습니다. 상식적 추론이 필요한 이 유형의 문제에서 퇴보가 있다는 것이 사용자들의 주장이었습니다.

네 번째는 특이하게도 모델이 스스로 “게으르다”고 자인한 사례입니다. 사용자가 상호 참조(cross reference) 작업을 요청했더니, 모델이 “게으르기 때문에 하지 않았다”고 답하는 장면이 캡처되어 퍼졌습니다.

그러나 모든 반응이 부정적이지는 않습니다. 복잡한 멀티스텝 코딩 작업에서는 확연한 개선이 보고됐습니다. 에이전틱 작업(AI가 자율적으로 여러 단계를 수행하는 방식)에서 4.7이 4.6보다 훨씬 낫다는 개발자들의 평가도 다수였습니다. Jeremy Howard의 극찬도 이 맥락에서 나왔습니다.

왜 이런 일이 생겼는가, 구조적 배경

이 분열된 반응의 이유는 Anthropic이 4.7을 설계할 때 의도적으로 내린 선택에 있습니다.

첫째, 에이전틱 개발 작업 특화입니다. 4.7은 범용 지능 모델보다는 코딩·도구 사용·멀티스텝 작업에 최적화된 모델입니다. 일부 코딩 벤치마크에서는 세계 최고 수준을 기록했지만, 일반 추론과 고급 STEM 분야에서는 GPT-5.4나 Gemini 3.1 Pro에 뒤처지는 결과가 나왔습니다. 이것은 오류가 아니라 설계입니다.

둘째, 적응형 추론(adaptive reasoning) 도입입니다. 4.7의 핵심 신기능은 모델이 언제 더 길게, 언제 더 짧게 생각할지 스스로 결정하는 것입니다. 이론적으로는 효율과 성능을 동시에 개선하는 접근이지만, 실제 사용자 경험에서는 같은 질문에 다른 깊이로 답하는 일관성 문제로 나타났습니다. Claude Code 개발자 Boris Cherny는 이 분석이 정확하지 않다고 반박했지만, Anthropic 제품 관리자 Sean Strong은 “팀에서 이 부분을 세밀하게 조정하고 있으며 곧 업데이트를 제공할 예정”이라고 답했습니다. 개선의 여지가 있음을 사실상 인정한 것입니다.

셋째, 지시사항 준수 방향의 변화입니다. 4.7은 이전 모델보다 지시사항을 더 문자 그대로 따르도록 조정됐습니다. 기업 환경에서는 이것이 강점입니다. 아부하거나 사용자 기대에 과도하게 맞추는 것이 위험한 비즈니스 맥락에서, 지시를 정확히 따르는 모델이 필요합니다. 그러나 자연스러운 대화와 유연한 응답을 기대하는 일반 사용자에게는 “답답하다”는 인상을 줄 수 있습니다.

넷째, 토큰 소모 증가입니다. Anthropic은 업데이트된 토크나이저(텍스트를 AI 처리 단위로 분리하는 모듈) 사용으로 입력 토큰 수가 최대 1.35배까지 늘어날 수 있다고 공지했습니다. 실제 커뮤니티 측정치는 최대 1.47배까지 나왔습니다. 이것은 단순한 비용 문제가 아닙니다. Claude Pro 구독자들도 동일한 사용 한도 안에서 처리할 수 있는 작업량이 줄어드는 UX 문제입니다. 사용자들이 4.7 대신 4.6으로 돌아가는 직접적인 이유였습니다.

Anthropic이 선택한 것과 잃은 것

이번 논란은 Anthropic의 출시 전략 변화와 직결됩니다.

모델 출시 주기가 빨라졌습니다. Claude Opus 4.0은 2025년 5월, 4.1은 8월, 4.5는 11월로 약 3개월 주기였습니다. 그러나 4.6은 2026년 2월, 4.7은 4월로 두 달 이내로 단축됐습니다. 엔터프라이즈 시장에서 경쟁이 치열해지면서, 코딩 성능 기준 최고 모델 타이틀을 유지하기 위한 출시 주기 압박이 커진 결과입니다.

빠른 출시 주기는 필연적으로 모델의 완성도 트레이드오프를 만듭니다. Anthropic이 이번에 선택한 것은 엔터프라이즈 코딩 성능이었습니다. 잃은 것은 일반 사용자 경험의 안정성입니다.

더 큰 문제는 오퍼스 4.5 서비스 종료입니다. 사용자 반응이 가장 좋았던 모델이 이번 업데이트로 함께 종료됐습니다. “직장에서 이 사실을 알고 울음을 터뜨렸다”는 레딧 게시물이 공감을 얻은 이유는, 이것이 과장이 아니라는 사용자들의 공통된 경험이었기 때문입니다.

Anthropic은 빠르게 대응했습니다. 담당자 Alex Albert는 X를 통해 “처음 모델을 사용해 보신 분들이 겪었을 많은 버그들이 수정됐다”고 밝혔습니다. 초기 배포 버전에서 문제가 있었고 이미 패치가 이루어졌다는 뜻입니다. 그러나 버그 수정이 이루어지더라도, 4.7이 에이전틱 작업 특화 모델로 설계된 방향성 자체는 바뀌지 않습니다.

OpenAI의 선례와 앞으로의 구도

이 상황은 OpenAI가 이전에 겪었던 패턴과 유사합니다. GPT-4o 서비스 종료로 많은 사용자들이 항의했고, 업그레이드 이후 성능 저하 논란으로 모델을 수정했던 사례가 있습니다. 좋은 모델을 없애고 새 모델을 내놓을 때마다 기존 사용자들의 반발이 뒤따랐습니다.

그러나 OpenAI와 Anthropic 모두 이 패턴을 반복하는 이유가 있습니다. 엔터프라이즈 시장이 소비자 시장보다 훨씬 높은 단가와 안정적인 계약을 제공하기 때문입니다. Anthropic의 매출이 연율 환산 300억 달러를 돌파한 것도, Claude Code 중심의 개발자 및 기업 고객 확보가 주요 동인이었습니다.

결국 이 논란의 핵심은 Anthropic이 누구를 위한 회사가 되려 하는가라는 질문입니다. Claude를 일상적인 AI 비서로 사용하는 수백만 명의 일반 사용자와, 대규모 코딩 에이전트 인프라로 Claude를 활용하는 기업 고객은 본질적으로 다른 요구를 가집니다. 두 집단을 동시에 만족시키는 것은 점점 어려워지고 있습니다.

한국 사용자에게 무엇을 의미하는가

한국에서 Claude를 일상 업무에 활용하는 사용자들에게 이번 논란은 몇 가지 실질적 시사점을 줍니다.

현재 4.7에 불만이 있는 일반 사용자라면, Sonnet 4.6이나 Haiku 4.5로의 전환을 고려할 수 있습니다. 에이전틱 코딩 작업이 주목적이 아닌 경우, 비용 효율과 일관성 면에서 더 나은 경험을 제공할 수 있습니다.

기업 도입을 검토 중인 개발 조직이라면 반대입니다. 복잡한 멀티스텝 코딩 작업, Claude Code 활용, 도구 연동 에이전트 구축 등의 목적에서는 4.7이 의미 있는 개선을 제공합니다. 단, 토큰 증가로 인한 비용 변화를 사전에 시뮬레이션해야 합니다.

더 큰 관점에서는, AI 모델을 업무에 도입할 때 특정 버전에 의존하는 구조를 피하는 것이 중요해졌습니다. 모델 업데이트 주기가 짧아지고, 각 버전의 특성이 이전과 달라지는 일이 더 잦아질 것이기 때문입니다. 특정 모델 버전 없이도 업무가 돌아갈 수 있는 유연한 구조 설계가 필요합니다.

주목해야 할 포인트

이번 논란이 장기적으로 Anthropic 브랜드에 미칠 영향은 단기 매출 지표와 다른 방향으로 움직일 수 있습니다. 매출은 엔터프라이즈 고객이 견인하지만, 브랜드 신뢰도와 사용자 저변은 일반 사용자들이 만들어갑니다. 지금 당장은 기업 고객이 매출을 유지해 주겠지만, 일반 사용자들이 GPT나 Gemini로 이동하면 장기적으로 Anthropic을 “개발자 전용 도구”로 포지셔닝하는 결과로 이어질 수 있습니다.

Anthropic이 다음 업데이트에서 일반 사용자 경험을 얼마나 복원하느냐가 이 논란의 실질적인 결말을 결정할 것입니다. “세밀하게 조정하고 있다”는 공식 답변이 어떤 형태로 현실화되는지, 지켜볼 필요가 있습니다.

#클로드오퍼스47 #Anthropic #Claude성능논란 #B2B전략 #AI모델 #적응형추론 #AI구독