법정 AI 할루시네이션 클로드 인용 오류 변호사 책임 Latham Watkins 사건 분석
앤트로픽을 변호한 Latham & Watkins가 클로드 AI 할루시네이션으로 잘못된 인용문을 법원에 제출한 사건. 변호사 책임과 Rule 11 의무를 중심으로 AI 전문직 리스크를 분석합니다.
2025년 5월, 미국 최고 로펌 중 하나인 Latham & Watkins가 법원에 제출한 서류에서 AI가 만들어낸 잘못된 인용 정보가 발견됐습니다. 아이러니한 것은, 그 서류가 바로 AI 저작권 침해 소송에서 클로드(Claude)를 만든 앤트로픽(Anthropic)을 변호하는 서류였다는 점입니다.
이 사건은 단순한 실수 보고가 아닙니다. AI를 가장 잘 알아야 할 사람들조차 AI 오류의 함정을 피하지 못했다는 사실은, 지금 우리 사회 전체가 AI 도구를 어떻게 다뤄야 하는지에 대한 근본적 질문을 던집니다. 기사 원문은 AI코리아24 브리핑에서 확인할 수 있습니다.
사건의 전말 클로드가 실재하는 논문을 잘못 설명하다
이 사건에서 클로드가 저지른 오류는 흔히 생각하는 완전한 가짜 출처 생성이 아니었습니다. 그것이 더 위험한 이유입니다.
담당 변호사는 실재하는 학술 논문을 먼저 구글 검색으로 찾았습니다. 그리고 클로드에게 해당 논문의 URL을 주면서 “정식 인용문 형식으로 정리해 달라”고 요청했습니다. 클로드는 연도와 링크는 맞게 가져왔지만, 저자 이름과 논문 제목을 틀리게 생성했습니다. 변호사팀은 링크가 정상적으로 열리는 것만 확인하고 제출했고, 나중에 상대방 변호사가 이 오류를 발견했습니다.
이것이 왜 더 위험한가 하면, URL이 실제로 존재하고 연도도 정확하기 때문에 육안 검토에서 이상 징후가 전혀 없습니다. 오류는 메타데이터 수준에 숨어 있습니다. 완전히 가짜인 인용문이라면 링크를 클릭했을 때 바로 탄로나지만, 이 경우는 링크를 클릭해도 아무 문제가 없어 보입니다. 완벽하게 그럴싸한 오류입니다.
Rule 11과 변호사 책임 AI가 썼어도 책임은 변호사에게
미국 연방민사소송규칙(Federal Rules of Civil Procedure) Rule 11은 변호사가 법원에 제출하는 서류에 서명할 때, 그 내용의 사실적 근거를 직접 확인했음을 보증하는 의무를 부과합니다. 이 서명은 형식적 절차가 아닙니다. 변호사의 직업적 평판과 면허를 거는 보증입니다.
법원은 이 사건을 기술적 오류가 아닌 전문직의 직무 태만으로 판단했습니다. 아울러 향후 모든 제출 서류에 AI 사용 여부를 명시하고 인간이 직접 검증했음을 확인하도록 명령했습니다. 텍사스 동부 연방지방법원이 처리한 별개 사건에서는 AI가 생성한 가짜 인용문을 제출한 변호사에게 2,000달러 제재금과 AI 관련 법조윤리 교육 이수를 명령하기도 했습니다.
핵심은 이것입니다. AI가 내용을 생성했다는 사실은 변호사의 검증 의무를 AI에게 이전하지 않습니다. 도구가 무엇이든, 최종 책임은 서명한 사람에게 남습니다.
왜 엘리트 로펌도 이 함정에 빠지는가 인지 편향의 문제
Latham & Watkins는 전 세계 최고 수준의 로펌 중 하나입니다. 파트너 시간당 요금이 2,000달러를 넘습니다. 그들이 부주의해서 이 실수를 한 것이 아닙니다. 이 오류의 구조 자체가 인간의 인지 방식을 역이용합니다.
심리학적으로 설명하면, 우리는 이미 어렵다고 생각했던 작업을 완료한 뒤 남은 작업을 사소하게 여기는 경향이 있습니다. 변호사는 논문을 찾는 것을 ‘진짜 작업’으로 인식했고, 클로드에게 인용 형식을 맡기는 것을 ‘마무리 작업’으로 인식했습니다. 클로드의 출력물은 형식적으로 완벽했고, 자신감 있는 어조였으며, 전문적으로 보였습니다. 인지적 경보가 울릴 이유가 없었습니다.
ABA(미국변호사협회)의 2024년 법률 기술 설문에 따르면, 변호사의 75%가 AI 도구의 정확성에 우려를 표명했습니다. 그러나 같은 설문에서 AI 도구 사용률도 높게 나타났습니다. 우려하면서도 사용하고, 사용하면서도 검증 체계는 갖추지 않은 상태입니다.
법률을 넘어 모든 전문직에 적용되는 문제
이 사건이 법조계만의 이야기가 아닌 이유는 명확합니다. AI를 보조 도구로 사용하는 모든 전문직에서 동일한 구조적 위험이 존재합니다.
의사가 AI 보조 진단 도구를 사용하고 그 결과를 충분히 검증하지 않은 채 처방한다면, 연구자가 AI로 문헌 인용을 정리하고 원본 확인을 생략한다면, 기자가 AI가 요약한 내용을 그대로 기사에 인용한다면 — 오류의 구조는 이 사건과 동일합니다.
AI는 틀릴 때 틀린 것처럼 보이지 않습니다. 자신 있고, 유창하고, 형식적으로 완벽합니다. 이것이 AI 출력물의 자신감이 정확도의 지표가 아니라는 것을 이해하지 못하면, 도구를 쓸수록 오히려 실수할 가능성이 높아지는 역설이 발생합니다.
우리에게 주는 시사점 AI 리터러시는 사용법이 아니라 검증법이다
이 사건은 “AI를 어떻게 잘 쓰는가”보다 “AI가 틀릴 때 어떻게 잡아내는가”가 더 중요한 역량임을 보여줍니다.
실질적으로 적용 가능한 원칙 몇 가지를 정리하면 다음과 같습니다. 첫째, AI에게 ‘정리’나 ‘형식화’ 같은 단순 작업을 맡길 때도 원본을 직접 확인해야 합니다. 링크가 열린다는 것과 내용이 맞다는 것은 다른 문제입니다. 둘째, 결과물이 그럴싸할수록 더 의심해야 합니다. 어색한 결과는 스스로 검토하게 만들지만, 자연스러운 결과는 검토를 생략하게 만듭니다. 셋째, AI 사용 여부를 팀 내에서 명시적으로 공유하고 검증 책임자를 지정하는 워크플로우가 필요합니다.
법원이 AI 사용 공시와 인간 검증을 의무화하기 시작했다는 것은, 이것이 더 이상 선택적 권장사항이 아님을 의미합니다. AI가 일상적 도구가 된 시대에, 전문직의 역량은 AI를 얼마나 잘 쓰느냐가 아니라 AI의 한계를 얼마나 잘 아느냐로 재정의되고 있습니다.
AI 할루시네이션은 드물고 예외적인 사건이 아닙니다. 일상적인 AI 사용에서 언제든 발생할 수 있는 구조적 특성입니다. Latham & Watkins 사건은 그 사실을 가장 설득력 있는 방식으로 증명했습니다. 가장 조심해야 할 이유가 있는 사람들이, 가장 조심해야 할 상황에서, 그 함정에 빠졌기 때문입니다.
도구가 강력할수록 그것을 다루는 사람의 판단력이 더 중요해집니다. AI 시대의 전문성은 도구 사용 능력과 도구 의심 능력을 동시에 요구합니다.
#AI할루시네이션 #클로드AI #Anthropic #변호사책임 #법률AI #AI오류 #AILiteracy #전문직AI
함께 읽으면 좋은 글
Claude Fable 5 실제 써보니 벤치마크 1위지만 안전 필터가 발목을 잡는다
Claude Fable 5 벤치마크 결과와 실제 사용 후기를 분석합니다. SWE-bench 95%, 코딩 성능 압도적이지만 요청의 9%를 차단하는 안전 필터가 연구자들에게 큰 문제로 지적됩니다.
뉴스Anthropic SpaceX 컴퓨트 계약 논란 머스크 발언과 공시 문서 충돌 AI 인프라 투자 분석
일론 머스크가 Anthropic과의 컴퓨트 계약을 단기 계약이라 했지만 SpaceX S-1 공시는 2029년까지 3년 계약을 명시합니다. AI 서버 인프라 투자와 AI 플랫폼 공급망에 미치는 영향을 분석합니다