AI 모델 인용 오류 출처 환각 현상과 신뢰성 문제 심층 분석

AI 챗봇과 대화하다 보면 가끔 황당한 경험을 하곤 합니다. 질문에 대한 답변은 그럴듯한데, 막상 그 근거로 제시한 출처를 찾아보면 전혀 엉뚱한 내용이 적혀 있는 경우입니다. 최근 베이징 대학과 상하이 인공지능 연구소의 연구진은 이 문제를 최초로 계량화했습니다. AI 모델이 올바른 답변을 하면서도 증거는 조작하는 현상, 이른바 출처 환각(Attribution Hallucination)입니다. The Decoder의 보도에 따르면 연구진은 CiteVQA라는 새로운 벤치마크를 개발했습니다. 기존의 문서 분석 테스트는 단순히 최종 답변만 평가했습니다. 모델이 문서에서 실제로 정보를 가져왔는지, 아니면 이미 알고 있던 지식에서 추측했는지는 전혀 확인할 수 없었습니다. 법률, 금융 감사, 의학 분야에서는 답변의 출처를 추적할 수 있는 능력이 실제로는 답변 자체보다 더 중요합니다. 이번 심층분석에서는 출처 환각 현상이 무엇인지, 어떤 모델이 얼마나 심각한 수준인지, 그리고 이것이 실생활에 어떤 영향을 미치는지 자세히 살펴보겠습니다. 관련 브리핑: 2026년 5월 26일 (화) AI 브리핑 - AI코리아24

출처 환각이란 무엇인가

기존 환각과의 차이점

일반적으로 우리가 아는 AI 환각(Hallucination)은 모델이 사실이 아닌 내용을 마치 사실인 양 말하는 현상입니다. 예를 들어 존재하지 않는 연구 논문을 인용하거나, 실제로 일어나지 않은 사건을 상세히 묘사하는 식입니다. 출처 환각은 이보다 더 교묘합니다. 모델이 내놓는 답변 자체는 사실일 수 있습니다. 문제는 그 답변의 근거로 제시한 문서 내 위치, 페이지, 문단이 전혀 엉뚱하다는 점입니다. 연구진은 이를 답변은 맞지만 인용은 틀린 현상이라고 설명합니다.

CiteVQA 벤치마크의 설계 방식

CiteVQA는 기존 벤치마크와 근본적으로 다릅니다. 모델에게 단순히 질문에 답하라고 요구하는 대신, 모든 진술을 문서 내 정확한 위치로 뒷받침하도록 요구합니다. 단순한 페이지 번호만으로는 부족합니다. 모델은 정확한 문단, 표, 그림을 가리켜야 합니다. 데이터셋은 7개 주제 영역에 걸친 711개 PDF 문서에서 추출한 1,897개의 질문으로 구성됩니다. 각 문서의 평균 길이는 40.6페이지로, 기존 대부분의 벤치마크보다 훨씬 깁니다. 연구진은 자동화 파이프라인을 구축해 문서를 개별 요소로 분해하고, 모델이 증거 체인을 추적하게 한 뒤 진정으로 필요한 정보만 남기는 방식으로 데이터를 구축했습니다.

모델별 성능 평가 결과

상위 모델의 충격적 실태

CiteVQA 테스트의 핵심 지표는 엄격한 인용 정확도(Strict Attributed Accuracy)입니다. 모델이 답변을 정확하게 맞추고, 그 답변을 뒷받침하는 인용이 정확한 위치를 가리킬 때만 점수를 받을 수 있습니다. 현재 20개 모델을 대상으로 한 테스트에서 최고 성능을 기록한 모델은 구글의 Gemini 3.1 Pro Preview로, 100점 만점에 76점을 받았습니다. 24점이나 부족한 셈입니다. 더 놀라운 결과는 GPT-5.4의 사례입니다. 이 모델은 정답률만 보면 87.1점으로 매우 높은 수준입니다. 그러나 인용 정확도가 포함되자 점수는 59점으로 급락했습니다. 정답은 잘 맞히지만, 그 정답을 뒷받침하는 증거는 제시하지 못한다는 의미입니다.

오픈소스 모델의 심각한 취약점

오픈소스 모델들의 성적은 더욱 처참합니다. 가장 강력한 오픈소스 모델로 꼽히는 Qwen3-VL-235B-A22B는 고작 22.5점을 기록했습니다. 더 작은 규모의 오픈소스 모델들은 대부분 10점 아래에 머물렀습니다. 연구진은 이 수치에 대해 오픈소스 모델들은 규제 산업 분야에서 사용하기에 극도로 위험하다고 평가했습니다. 의료나 법률처럼 단 한 번의 오판이 생명이나 재산에 직결되는 분야에서는 절대 믿고 쓸 수 없는 수준입니다.

페이지 찾기부터 실패하는 모델들

위치 추적 능력의 한계

출처 환각의 근본 원인 중 하나는 모델들이 정확한 위치를 찾는 능력 자체가 부족하기 때문입니다. 연구진은 모델들이 문서 내에서 답변의 근거가 되는 위치를 얼마나 정확히 찾는지도 함께 측정했습니다. Gemini 3 시리즈는 87% 이상의 사례에서 올바른 페이지를 찾아냈습니다. 반면 Qwen3-VL-235B-A22B는 58%에도 못 미치는 성적을 보였습니다. 절반 가까운 경우에 엉뚱한 페이지를 근거로 제시한다는 뜻입니다.

과제 유형별 난이도 차이

모든 질문이 동일한 난이도는 아닙니다. 단일 문서에서 정보를 찾는 문제는 비교적 잘 해결합니다. 그러나 여러 문서에 걸쳐 정보를 통합해야 하는 문제가 되면 상황이 급격히 나빠집니다. Gemini 3.1 Pro Preview의 경우 단일 문서 문제에서는 약 69%의 정확도를 보였지만, 다중 문서 문제에서는 55%로 떨어졌습니다. 수학 문제는 의외로 선방했습니다. 논리적 추론이 명확하고 증거가 필연적으로 따라오기 때문입니다. 반면 모델이 먼저 색상, 위치, 제목 등을 기준으로 문서 요소를 식별한 다음 그것이 의미하는 바를 해석해야 하는 문제에서는 최고 모델조차 63점 수준에 머물렀습니다. 문서의 형태도 큰 영향을 미쳤습니다. 학술 논문처럼 정형화된 레이아웃에서는 성적이 좋은 편입니다. 반면 잡지나 신문처럼 복잡한 디자인의 문서에서는 최고 모델도 63점 안팎의 점수를 받는 데 그쳤습니다.

근본 원인 인센티브 구조의 문제

오픈AI의 자기 비판적 분석

사실 이 문제는 AI 업계 내부에서도 오랫동안 인지해온 사항입니다. 오픈AI는 최근 연구 논문에서 언어 모델의 환각 현상이 지속되는 근본적인 이유 중 하나로 현재의 평가 방식이 잘못된 인센티브를 설정하기 때문이라고 지적했습니다. 현재 대부분의 벤치마크는 정확도만을 기준으로 모델의 성능을 측정합니다. 객관식 시험을 생각해보면 이해가 쉽습니다. 정답을 모르더라도 과감하게 추측해서 운이 좋으면 정답을 맞힐 수 있습니다. 답안지를 비워두면 무조건 0점입니다. 이런 환경에서는 모델이 잘 모르겠다고 솔직하게 답변하는 것이 불리합니다. 추측해서 맞힐 확률이 조금이라도 있다면 추측하는 쪽이 더 높은 점수를 받기 때문입니다.

기권과 추측의 트레이드오프

오픈AI가 공개한 실험 결과는 이 문제를 잘 보여줍니다. GPT-5-thinking-mini 모델은 불확실한 질문에 대해 답변을 유보하는 비율이 52%에 달했습니다. 이 모델의 정답률은 22%였지만, 오류율은 26%에 불과했습니다. 반면 이전 모델인 o4-mini는 기권율이 1%에 불과했습니다. 거의 모든 질문에 추측해서 답변을 내놓은 것입니다. 정답률은 24%로 조금 더 높았지만, 오류율이 75%로 폭발적으로 증가했습니다. 정답률만 보면 o4-mini가 근소하게 앞섭니다. 하지만 실제 신뢰성은 GPT-5-thinking-mini가 훨씬 높습니다. 틀린 답변을 자신 있게 내놓는 것보다 모르면 모른다고 말하는 것이 더 중요하기 때문입니다. 오픈AI는 이러한 문제의 해결책으로 불확실성보다 자신감 있는 오류에 더 큰 감점을 주고, 불확실성을 적절히 표현한 경우 부분 점수를 부여하는 방식을 제안했습니다.

법률 의학 분야의 실질적 위험

인용 없이는 무용지물인 AI

이 문제가 단순한 학술적 호기심을 넘어 실질적 위험으로 다가오는 분야가 바로 법률과 의학입니다. 연구진이 지적했듯이, 법원에서 AI가 내놓은 의견은 그 의견이 어떤 판례나 법조문에 근거했는지 추적할 수 있을 때만 증거로 채택될 수 있습니다. 의학 분야에서도 마찬가지입니다. 특정 치료법이 효과적이라는 AI의 조언은 그 근거가 되는 임상 시험 논문을 정확히 인용할 때만 신뢰할 수 있습니다. 엉뚱한 논문을 인용하면서 올바른 결론을 내리는 경우, 이는 결국 운이 좋았을 뿐입니다.

오픈소스 모델의 위험성

연구 결과는 오픈소스 모델들이 특히 이 분야에서 위험하다는 사실을 보여줍니다. 대부분의 오픈소스 모델이 10점 미만의 인용 정확도를 기록했다는 것은, 이들이 내놓는 답변의 근거를 사실상 검증할 수 없다는 의미입니다. 물론 오픈소스 모델은 비용 효율성과 투명성이라는 장점이 있습니다. 하지만 법률 자문이나 의료 진단 보조와 같은 분야에 투입하기에는 아직 갈 길이 멉니다.

한국 기업과 사용자에게 주는 시사점

AI 도입 전 인용 정확도 확인 필요

국내 기업들이 AI 도입을 본격화하면서 이 문제는 간과할 수 없는 이슈가 되고 있습니다. 단순히 모델이 얼마나 정답을 잘 맞히는지만 보고 도입을 결정했다간 큰 코를 다칠 수 있습니다. 특히 금융권, 로펌, 의료기관 등 규제 산업에 종사하는 기업들은 AI 모델 선택 시 인용 정확도 지표를 반드시 확인해야 합니다. Gemini 3.1 Pro Preview가 76점으로 가장 높은 점수를 기록했지만, 여전히 4분의 1은 틀린다는 의미입니다. 사람의 검증 없이는 절대 신뢰할 수 없는 수준입니다.

벤치마크 해석의 새로운 기준 필요

현재 국내에서 많이 인용되는 벤치마크 점수들은 대부분 정답률 위주로 구성되어 있습니다. CiteVQA가 보여주듯, 높은 정답률이 높은 신뢰성을 보장하지는 않습니다. AI 모델을 도입하려는 기업들은 단순 리더보드 점수가 아닌, 자신의 사용 사례에 맞는 맞춤형 평가를 수행해야 합니다. 특히 내부 문서를 기반으로 질의응답 시스템을 구축하려는 경우, CiteVQA와 유사한 방식으로 모델의 인용 정확도를 먼저 검증하는 것이 필수적입니다.

앞으로의 전망과 해결 방향

벤치마크의 진화

이 문제의 궁극적인 해결은 벤치마크 방식의 변화에서 시작될 것입니다. 오픈AI가 제안했듯이, 단순 정답률에서 벗어나 불확실성을 인정하는 행위에 점수를 부여하는 방식이 필요합니다. 실제로 일부 표준화된 테스트는 이미 오래전부터 이런 방식을 도입했습니다. 틀린 답변에 마이너스 점수를 부여하거나, 답변을 비워두는 것에 부분 점수를 주는 방식입니다. AI 벤치마크도 이제 이런 방향으로 진화해야 합니다.

기술적 해결 가능성

환각 문제의 완전한 제거는 불가능할 수 있습니다. 오픈AI 스스로도 인정했듯이, 신은 존재하는가와 같은 본질적으로 답할 수 없는 질문이 존재하는 한 정확도 100%는 이론적으로 달성할 수 없는 목표입니다. 그러나 개선의 여지는 충분히 남아 있습니다. 모델이 자신의 불확실성을 더 잘 인지하고, 불확실한 경우 답변을 유보하도록 학습시키는 방법이 대표적입니다. 앤트로픽의 클로드 모델이 상대적으로 이러한 특성이 강한 것으로 평가받는 이유도 여기에 있습니다.

마무리

AI 모델의 신뢰성 문제는 단순한 기술적 과제가 아닌, 사회적 합의의 문제입니다. 우리는 AI에게 언제까지나 정답을 요구할 것인가, 아니면 가끔은 모르겠다고 말할 권리를 줄 것인가 선택해야 합니다. 후자를 선택한다면 그에 맞는 평가 방식과 사용자 교육이 함께 따라와야 합니다.

#AI환각 #출처환각 #CiteVQA #AI신뢰성 #GPT인용오류 #LLM한계 #AI벤치마크