GPT-5.5 벤치마크 1위 환각률 86% AI 성능 경쟁의 불편한 진실
OpenAI GPT-5.5가 AI 벤치마크 순위 1위를 탈환했지만 환각률이 86%로 Claude Opus 4.7의 36%를 크게 웃돈다 가장 자신 있게 틀리는 모델의 문제가 실제 업무에서 어떤 위험을 만드는지 분석한다
OpenAI의 GPT-5.5가 Artificial Analysis Intelligence Index에서 60점으로 1위를 탈환했습니다. Claude Opus 4.7과 Gemini 3.1 Pro Preview가 57점으로 공동 2위입니다. 3점 차이로 OpenAI가 AI 성능 순위 정상을 되찾은 것입니다.
그런데 이 발표와 함께 공개된 수치가 하나 더 있습니다. GPT-5.5의 환각률(AI가 사실이 아닌 내용을 생성하는 비율)은 86%입니다. Claude Opus 4.7은 36%, Gemini 3.1 Pro Preview는 50%입니다. 가장 높은 성능 점수와 가장 높은 환각률을 동시에 보유한 모델이 나왔습니다.
이 두 수치를 함께 읽어야 GPT-5.5의 실체가 보입니다.
관련 AI 뉴스 브리핑은 aikorea24.kr 2026년 4월 25일 브리핑에서 확인하실 수 있습니다.
GPT-5.5의 성능과 가격 구조
GPT-5.5는 명목상 API 가격이 이전 모델 GPT-5.4 대비 두 배로 인상됐습니다. 입력 100만 토큰당 5달러, 출력 100만 토큰당 30달러입니다. 그러나 이 모델은 GPT-5.4 대비 약 40% 적은 토큰을 사용해 같은 결과를 냅니다. 실질 비용 인상은 약 20%로 계산됩니다.
비용 대비 성능 비교를 보면 흥미로운 그림이 나옵니다. 중간 수준의 컴퓨팅 설정에서 GPT-5.5는 Claude Opus 4.7이 최고 설정에서 내는 점수와 동등한 성능을 약 4분의 1 비용으로 구현합니다. 약 1,200달러 대 4,800달러 수준입니다. Google의 Gemini 3.1 Pro Preview는 약 900달러로 비슷한 점수를 냅니다.
실사용 평가에서는 미묘한 차이가 드러납니다. GPT-5.5와 Anthropic 최신 모델은 코딩과 에이전트 작업에서 강점을 보이는 반면, Gemini 3.1은 Google 제품군 전반에 걸친 범용성과 비전(이미지 이해) 작업에서 앞선다는 평가입니다. 벤치마크 점수가 동일해도 용도에 따라 선택이 달라져야 하는 이유입니다.
환각률 86%가 의미하는 것

환각률 수치를 먼저 정확히 이해할 필요가 있습니다. Artificial Analysis의 AA Omniscience 벤치마크는 AI 모델이 사실을 얼마나 정확히 기억하는지 측정하면서, 동시에 모르는 것을 모른다고 말하는지도 함께 평가합니다.
GPT-5.5는 이 벤치마크에서 사실 정확도 57%로 1위를 기록했습니다. 그런데 환각률은 86%입니다. 이 조합이 뜻하는 것은, 이 모델이 아는 것에 대해서는 가장 정확하지만 모르는 것에 대해서도 가장 자신 있게 답한다는 것입니다. “모르겠습니다”라고 말하는 대신 틀린 답을 확신에 차서 제공하는 경향이 경쟁 모델 중 가장 강합니다.
비교 기준이 되는 Grok 4.20의 환각률은 17%로 가장 낮습니다. Claude Opus 4.7은 36%입니다. GPT-5.5는 이 두 모델의 2.4배에서 5배 수준입니다.
환각률 86%가 실제 업무에서 만드는 위험
환각률이 높은 모델이 위험한 이유는 단순히 틀린 답을 내기 때문이 아닙니다. 틀린 답을 확신에 차서 내기 때문입니다.
세 가지 업무 맥락에서 이 위험이 구체화됩니다.
첫째, 법률·의료·금융 문서 작업입니다. 이 영역에서는 오류의 비용이 높습니다. AI가 존재하지 않는 판례를 인용하거나, 잘못된 약물 상호작용을 자신 있게 설명하거나, 부정확한 규정을 사실인 것처럼 제시했을 때 발생하는 피해는 단순한 불편이 아닙니다. 높은 환각률 모델은 이 영역에서 사용 전 반드시 결과를 검증하는 워크플로우가 필수입니다.
둘째, 리서치 및 정보 수집 작업입니다. AI에게 시장 조사, 경쟁사 분석, 기술 동향 파악을 맡길 때, 모델이 출처를 지어내거나 존재하지 않는 데이터를 제시하면 의사결정이 잘못된 전제 위에 세워집니다.
셋째, 에이전트(자율 작업 실행 AI 시스템) 환경입니다. 사람이 모든 단계를 확인하지 않고 AI가 자율적으로 여러 작업을 연속 수행할 때, 중간 단계의 환각이 이후 단계 전체를 잘못된 방향으로 이끌 수 있습니다. 긴 자동화 파이프라인에서 환각률은 특히 중요한 변수입니다.
어떤 모델을 어떤 용도에 써야 하는가
GPT-5.5, Claude Opus 4.7, Gemini 3.1 Pro Preview의 벤치마크 점수가 거의 같은 상황에서 선택 기준은 용도와 위험 허용 수준이 되어야 합니다.
확신에 찬 오류가 허용되지 않는 고위험 작업에서는 Claude Opus 4.7의 낮은 환각률(36%)이 유리합니다. 의료 보조, 법률 검토, 재무 분석처럼 결과물을 전문가가 검토하더라도 초안의 신뢰성이 중요한 업무가 여기에 해당합니다.
코딩과 에이전트 작업에서 높은 처리량과 비용 효율이 필요하고 결과 검증 단계가 별도로 존재한다면 GPT-5.5의 가격 대비 성능이 경쟁력 있습니다.
Google 제품군과의 통합이 필요하거나 비전 작업 비중이 높은 경우에는 Gemini가 실용적 선택입니다.
같은 점수의 모델들 사이에서 차별화는 이제 벤치마크 숫자가 아니라 실제 업무 적합성에서 나옵니다.
결론
GPT-5.5의 벤치마크 1위 탈환은 OpenAI가 경쟁력을 유지하고 있다는 신호입니다. 그러나 86%의 환각률은 이 모델을 무비판적으로 신뢰해서는 안 된다는 동등하게 강력한 신호입니다. AI 성능 경쟁이 가속화될수록 “가장 높은 점수”보다 “내 용도에 가장 안전한 모델”을 선택하는 기준이 중요해집니다. 벤치마크는 출발점이지 결론이 아닙니다.
#GPT5.5 #OpenAI #AI환각률 #벤치마크 #ClaudeOpus #AI성능비교 #ArtificialAnalysis
함께 읽으면 좋은 글
OpenAI Codex 고블린 금지령 GPT-5.5 자발적 일탈과 AI 정렬 문제의 가장 일상적 표현
OpenAI가 Codex 시스템 지침에 고블린 그렘린 너구리 비둘기를 언급하지 말라고 네 번이나 적었다 GPT-5.5의 판타지 생물 집착 현상이 드러낸 AI 에이전트 정렬 문제의 본질을 분석한다
뉴스박사 과정생이 AI 산업의 심판이 됐다 Arena 리더보드와 나노 바나나 이야기
UC 버클리 연구 프로젝트에서 시작해 7개월 만에 기업가치 2.3조 원을 달성한 Arena. AI 모델의 순위를 매기는 심판이 된 이 플랫폼의 구조와 이해충돌, 그리고 나노 바나나의 탄생까지 분석합니다.