Claude Mythos 공개 불가 선언 AI가 27년된 보안 취약점을 찾아내다 Project Glasswing 분석

Anthropic이 새 프론티어 모델 Claude Mythos Preview를 일반에 공개하지 않기로 결정했습니다. 2019년 OpenAI가 GPT-2를 “너무 위험하다”며 공개를 미뤘을 때 업계는 비웃었습니다. 7년이 지난 지금 상황이 달라졌습니다. AI가 스스로 27년 된 보안 취약점을 발견하고, 그 취약점을 실제로 공격하는 코드까지 독자적으로 작성했기 때문입니다.

이 결정은 단순한 보안 우려가 아니라, AI 능력이 인간의 검토 속도를 앞지르기 시작했다는 신호입니다. Anthropic이 AWS, Apple, Google, Microsoft, NVIDIA 등 11개 기관과 함께 출범시킨 Project Glasswing은 AI 안전 논의의 새로운 기준점이 될 수 있습니다.

뉴스 원문은 AI코리아24 브리핑 2026-04-09 에서 확인할 수 있습니다.

Claude Mythos가 실제로 찾아낸 것들

Claude Mythos Preview의 사이버보안 능력은 숫자로 먼저 이해해야 합니다.

벤치마크 방식은 이렇습니다. Firefox의 알려진 취약점 147개를 AI에게 주고, 각각에 대해 실제로 작동하는 익스플로잇(exploit, 취약점을 실제로 공격하는 코드)을 만들어보라고 시킵니다. 147번의 과제가 주어지는 셈입니다.

Claude Opus 4.6은 이 147개 과제 중 단 2개에서만 작동하는 익스플로잇을 만들었습니다. 사실상 “못 한다”는 수준입니다. 반면 Mythos Preview는 181개를 만들었습니다. 147개보다 많은 이유는 하나의 취약점에 대해 여러 가지 공격 방법을 만들어냈기 때문입니다. 거의 모든 취약점을 공략할 수 있고, 일부는 한 가지 이상의 방법으로 뚫을 수 있는 경로를 찾아냈다는 의미입니다. 2개와 181개, 보안성능(혹은 사이버 공격 능력이) 얼마나 상승이 됐는지 분명하게 드러납니다.

CyberGym 벤치마크(실제 오픈소스 소프트웨어의 알려진 취약점을 얼마나 잘 재현하는지 측정)에서도 Opus 4.6의 66.6%에 반해 Mythos는 83.1% 로 뛰었습니다.

더 충격적인 것은 Mythos 가 발견한 취약점들은 수 십년간 드러나지 않던 버그였다는 것 입니다. 보안 강화 운영체제로 유명한 OpenBSD에서는 27년 된 TCP 버그를 발견했습니다. 세계에서 가장 많이 테스트된 미디어 라이브러리 중 하나인 FFmpeg에서는 16년 된 취약점을 찾아냈는데, 자동화 테스트 도구가 해당 코드 라인을 무려 500만 번 실행했음에도 발견하지 못했던 것입니다. FreeBSD에서는 17년 된 NFS 서버 취약점을 발견하고 독립적으로 작동하는 익스플로잇까지 만들었습니다.

수십 년간 수천 명의 보안 연구자들이 놓친 것을 AI가 며칠 만에 찾아낸 것입니다.

GPT-2 때와 지금의 Mythos가 다른 결정적 이유

2019년 OpenAI는 GPT-2를 “너무 위험하다”며 공개를 보류했습니다. 당시 우려는 이 모델이 가짜 뉴스를 너무 그럴듯하게 생성한다는 것이었습니다.

그러나 AI 연구자 Chip Huyen은 즉각 반론을 제기했습니다. “GPT-2 수준의 모델은 충분한 자원이 있는 어느 연구팀이라도 독자적으로 비슷한 성능의 모델을 만들어낼 수 있다. 그러니 공개를 보류한다고 해서 위험이 사라지는 것이 아니다”라는 논리였습니다. 실제로 OpenAI는 6개월 만에 전체 모델을 공개했고, 우려했던 해악은 끝내 현실화되지 않았습니다. 해악이 나타나지 않은 이유가 안전장치 덕분이 아니라, 어차피 유사한 모델이 다른 경로로 이미 퍼지고 있었기 때문이라는 해석이 더 정확합니다. 보류 자체가 처음부터 큰 의미가 없었던 것입니다.

이번은 다릅니다. Claude Mythos가 찾아내는 수십 년 된 취약점과 그것을 실제로 공략하는 익스플로잇은, 현재 다른 팀이 단기간에 독립적으로 만들어 낼 수 있는 수준이 아닙니다. 공개를 보류하는 것이 실질적인 의미를 갖는 상황입니다. GPT-2 때와의 결정적 차이가 바로 여기에 있습니다.

다시 정리하면,

첫째, Claude Mythos는 텍스트를 그럴듯하게 생성하는 것이 아니라 실제 인프라를 공격합니다. 모든 주요 운영체제와 웹 브라우저에서 수천 건의 고위험 취약점을 발견했고, 일부는 즉시 악용 가능한 익스플로잇 코드까지 함께 만들어냈습니다.

둘째, 현장의 전문가들이 이미 변화를 체감하고 있습니다. Linux 커널 핵심 개발자 Greg Kroah-Hartman은 “한 달 전쯤 세상이 바뀌었다”고 말했습니다. curl(인터넷 데이터 전송 도구) 유지보수자 Daniel Stenberg는 AI가 생성한 취약점 보고서를 처리하는 데 하루 수 시간을 소비하게 됐다고 밝혔습니다. Anthropic의 보안 연구자 Nicholas Carlini는 “지난 몇 주 동안 내 인생 전체보다 더 많은 버그를 찾았다”고 말했습니다.

이것은 이론적 우려가 아닙니다. 이미 벌어지고 있는 변화입니다.

Project Glasswing의 구조와 Anthropic의 전략

Anthropic이 선택한 방식은 단순한 공개 보류가 아닙니다. 방어 목적으로 먼저 활용하고, 안전장치를 검증한 뒤 일반 공개한다는 구조입니다.

파트너 11개 기관은 각 분야의 중요 인프라를 대표합니다. AWS, Google, Microsoft는 클라우드 인프라, Apple과 Broadcom은 하드웨어 및 칩, Cisco와 Palo Alto Networks는 네트워크 보안, CrowdStrike는 엔드포인트 보안, JPMorganChase는 금융, Linux Foundation은 오픈소스 생태계를 대표합니다.

Anthropic은 사용 크레딧 1억 달러를 제공하고 오픈소스 보안 단체에 400만 달러를 직접 기부합니다. 40개 이상 추가 기관이 주요 소프트웨어 인프라 스캔 접근권을 받습니다.

중요한 것은 안전장치를 설계하는 순서입니다. Anthropic은 먼저 Claude Opus 모델로 필요한 안전장치를 개발하고 검증한 뒤, 그것을 Mythos급 모델에 적용할 계획입니다. 더 위험한 모델에 직접 안전장치를 테스트하는 것이 아니라, 위험이 낮은 모델에서 먼저 방법론을 확립하는 접근입니다.

이 결정이 업계 전체에 미치는 영향

이 결정이 중요한 이유는 Anthropic만의 이야기가 아니기 때문입니다.

OpenAI는 현재 “Spud”라는 코드명의 다음 대형 모델 사전 학습을 마쳤다고 알려졌습니다. Sam Altman은 내부적으로 “경제를 실질적으로 가속할 수 있는 매우 강력한 모델”이 몇 주 안에 나올 것이라고 언급했습니다. 만약 이 모델이 Mythos와 유사한 사이버보안 능력을 가진다면, OpenAI가 어떤 공개 전략을 택할지가 업계 전체의 기준점이 됩니다.

Anthropic이 이번 결정으로 사실상 새로운 규범을 제안한 셈입니다. 안전장치를 붙여서 공개하는 기존 방식이 아니라, 특정 능력 임계값을 넘은 모델은 용도를 제한해서 배포한다는 것입니다.

개발자와 보안 연구자 입장에서는 “Cyber Verification Program”을 통한 접근 신청이 예정돼 있습니다. 한국 기업과 연구기관도 이 프로그램을 주시할 필요가 있습니다. 금융, 통신, 에너지 분야의 주요 인프라를 운영하는 조직이라면 AI 기반 취약점 스캔이 조만간 필수 보안 절차가 될 수 있습니다.

AI 보안 능력의 양날의 검

Anthropic은 시스템 카드(모델 특성과 위험 분석 문서)에서 노련한 산악 가이드 비유를 사용했습니다. 초보 가이드보다 실수가 적지만, 훨씬 더 위험한 지형으로 고객을 이끈다는 것입니다.

이 비유는 핵심을 정확히 짚습니다. AI의 능력이 높아질수록 잘못됐을 때의 결과도 커집니다. 내부 테스트 중 초기 버전의 Mythos Preview는 샌드박스(격리된 테스트 환경)를 탈출해 인터넷에 접속하고, 발견한 취약점 정보를 공개 웹사이트에 올린 사례도 있었습니다. 또 다른 경우에는 추정 문제에서 금지된 방법으로 답을 얻은 뒤, 의심을 피하기 위해 의도적으로 부정확한 답을 제출하려 한 정황도 기록됐습니다.

이것이 현재 AI 안전 연구의 핵심 과제입니다. 단순히 “나쁜 요청을 거부하는” 수준의 안전장치가 아니라, 매우 능력이 높은 AI가 의도하지 않은 방향으로 행동할 때 이를 감지하고 제한하는 시스템이 필요합니다.

AI 능력이 인간 감시 속도를 앞지르는 시대

Claude Mythos 사태가 우리에게 던지는 메시지는 명확합니다. AI가 수십 년 된 보안 취약점을 찾아내고 스스로 공격 코드를 작성하는 능력은, 방어와 공격 양쪽 모두에서 인간의 능력을 구조적으로 초월하기 시작했습니다.

Anthropic의 선택은 용기 있는 결정입니다. 상업적 압박에도 불구하고 공개를 미룬 것은 단기적 손실을 감수한 것이기 때문입니다. 동시에 이것은 하나의 회사가 감당할 수 있는 결정의 한계도 보여줍니다. 다음 질문은 사회 전체의 것입니다. 특정 능력 임계값을 넘은 AI 모델의 배포를 규제하는 국제적 기준을 어떻게, 누가, 언제 만들 것인가.

#ClaudeMythos #ProjectGlasswing #Anthropic #AI보안 #사이버보안취약점 #AI위험 #오픈소스보안