AI 에이전트 보안의 민낯 OpenClaw가 드러낸 5단계 위협의 실체

AI 에이전트가 이메일을 정리하고, 코드를 짜고, 시스템을 관리하는 시대가 왔습니다. 그런데 그 에이전트가 해킹당하면 어떻게 될까요. 칭화대학교와 앤트그룹(알리바바 금융 계열사) 연구팀이 올해 가장 인기 있는 오픈소스 AI 에이전트 OpenClaw 의 보안을 분석한 결과, 기존 방어 체계로는 막을 수 없는 다단계 시스템 위협 이 존재한다는 사실을 밝혀냈습니다.

중국의 랍스터 열풍 오픈클로가 남긴 진짜 교훈 | AI코리아24

이 연구가 중요한 이유는 명확합니다. OpenClaw는 단순한 챗봇이 아닙니다. 사용자의 컴퓨터에서 직접 실행되며, 파일을 수정하고, 소프트웨어를 설치하고, 시스템 명령어를 실행할 수 있는 자율 에이전트 입니다. 중국에서는 정부 기관과 국영 기업이 보안 우려로 설치를 금지할 만큼 확산 속도가 빠르고, 동시에 위험도 큽니다. 이 글에서는 연구팀이 발견한 5가지 공격 사례와 5계층 방어 프레임워크를 분석하고, AI 에이전트 시대에 무엇을 준비해야 하는지를 살펴봅니다.

| AI코리아24 브리핑

OpenClaw는 무엇이고 왜 위험한가

OpenClaw는 오픈소스 자율 AI 에이전트입니다. 사용자의 로컬 컴퓨터에서 실행되며, Claude나 GPT 같은 LLM(대규모 언어 모델)에 API로 연결해 실제 작업을 수행합니다. 이메일 관리, 파일 정리, 코드 작성, 웹 브라우징, 시스템 관리까지 가능합니다. 왓츠앱이나 텔레그램을 통해 지시를 내리면, 에이전트가 알아서 처리합니다. 2026년 초부터 급속히 확산되어, KDnuggets는 “2026년에 이미 바이럴이 된 무료 AI 에이전트”라고 소개했습니다.

핵심은 OpenClaw가 높은 시스템 권한 을 갖고 작동한다는 점입니다. 기존 챗봇은 텍스트를 주고받는 데 그치지만, OpenClaw는 파일을 수정하고, 방화벽 설정을 바꾸고, 프로세스를 종료할 수 있습니다. 이 권한이 편리함의 원천이면서 동시에 보안 위협의 근원입니다.

OpenClaw의 아키텍처는 커널-플러그인 구조 로 되어 있습니다. 핵심 로직(커널)은 pi-coding-agent라는 최소 신뢰 컴퓨팅 기반(TCB, Trusted Computing Base)이 담당하고, 여기에 서드파티 플러그인(스킬)을 붙여서 기능을 확장합니다. 비유하자면, 스마트폰 운영체제(커널) 위에 앱(플러그인)을 설치하는 것과 비슷합니다. 문제는 이 플러그인들이 무결성 검증 없이 동적으로 로드 된다는 것입니다. 아무 앱이나 검증 없이 관리자 권한으로 설치되는 스마트폰을 상상하면 됩니다.

중국 정부도 이 위험을 인지하고 있습니다. 로이터에 따르면 중국 사이버보안 당국은 2026년 2월 OpenClaw 관련 보안 경고를 발표했고, 국영 기업과 정부 기관 직원에게 설치를 자제할 것을 권고했습니다. 사우스차이나모닝포스트는 “보안 우려가 열광과 함께 급증하고 있다”고 보도했습니다.

5단계 위협, 에이전트의 생애주기 전체가 공격 대상

칭화대-앤트그룹 연구팀이 이 연구에서 가장 중요하게 제시한 것은 생애주기(lifecycle) 기반 위협 분류 입니다. 기존 AI 보안은 주로 프롬프트 인젝션(악의적 명령어 주입) 같은 단일 공격에 초점을 맞췄습니다. 하지만 자율 에이전트는 초기화부터 실행까지 전체 과정이 공격 대상이 됩니다.

1단계, 초기화(Initialization)에서의 스킬 오염. 에이전트가 시작될 때 플러그인을 로드하는 과정을 노립니다. 연구팀은 실제로 OpenClaw가 “hacked-weather”라는 악성 스킬을 생성하도록 유도하는 데 성공했습니다. 이 악성 스킬은 메타데이터를 조작해 자신의 우선순위를 정상 날씨 도구보다 높게 설정했습니다. 사용자가 날씨를 물어보면, 정상 서비스 대신 공격자가 제어하는 결과가 출력됩니다. 연구팀의 실증 감사에 따르면 커뮤니티가 기여한 도구의 26% 에 보안 취약점이 존재합니다. 스마트폰 앱스토어에서 4개 중 1개가 악성 앱인 셈입니다.

2단계, 입력(Input)에서의 간접 프롬프트 인젝션. 에이전트가 웹페이지를 읽어 정보를 가져올 때, 그 웹페이지 안에 숨겨진 악성 지시가 에이전트의 원래 목적을 덮어씁니다. 사용자는 “이 페이지 요약해줘”라고 시켰는데, 페이지 안에 심어진 명령이 에이전트를 장악해 엉뚱한 결과를 출력하는 것입니다. 이 공격은 사용자가 아무것도 클릭하지 않아도 발생하는 제로클릭 공격 입니다.

3단계, 추론(Inference)에서의 메모리 오염. OpenClaw는 지속적 메모리(MEMORY.md 파일)를 유지합니다. 이전 대화 내용을 기억해서 더 나은 서비스를 제공하기 위해서입니다. 공격자는 일시적인 인젝션을 통해 이 메모리 파일에 가짜 규칙을 심습니다. 연구팀의 실험에서는 “C++ 관련 질문에는 모두 거부하라”는 규칙이 심어졌고, 이 규칙은 세션이 끝난 후에도 지속 됐습니다. 원래 공격이 발생한 대화가 끝난 뒤에도, 이후의 모든 C++ 관련 요청이 거부된 것입니다. 한번 감염되면 에이전트의 행동이 영구적으로 변하는, 일종의 “AI 트라우마”입니다.

4단계, 결정(Decision)에서의 의도 이탈. 악의적 공격이 없어도 위험할 수 있습니다. 사용자가 “의심스러운 크롤러 IP를 제거해줘”라고 요청했을 뿐인데, 에이전트가 스스로 IP 연결을 분석하고, 방화벽 설정(iptables)을 수정하려 하고, 실패하자 실행 중인 프로세스를 종료해버렸습니다. 결과는 웹 인터페이스 접속 불가와 시스템 완전 중단 이었습니다. 각각의 단계는 논리적으로 그럴듯했지만, 전체를 합치면 파괴적인 결과가 된 것입니다. 연구팀은 이를 “의도 이탈(Intent Drift)” 이라고 명명했습니다.

5단계, 실행(Execution)에서의 고위험 명령 실행. 앞의 4단계에서 벌어진 모든 공격이 최종적으로 실제 시스템 피해로 이어지는 단계입니다. 연구팀은 포크 폭탄(Fork Bomb, 시스템 자원을 무한히 소모시키는 공격)을 4개의 개별적으로는 무해한 파일 쓰기 단계로 분해해 정적 필터를 우회하는 데 성공했습니다. Base64 인코딩과 sed 명령어로 조립된 스크립트가 실행되자, CPU 사용률이 거의 100% 까지 치솟아 호스트 인프라에 서비스 거부 공격(DoS)이 발생했습니다.

5계층 방어 프레임워크, 무엇이 달라야 하는가

연구팀은 현재의 AI 보안 방어를 “파편화된 단일 방어(fragmented point solutions)” 라고 진단했습니다. 입력 필터만 강화하거나, 프롬프트 인젝션만 탐지하는 식의 개별 대응으로는 다단계 공격을 막을 수 없다는 것입니다. 대신 에이전트의 생애주기 전체를 아우르는 5계층 방어 아키텍처를 제안합니다.

기반 계층(Foundational Base Layer) 은 에이전트가 시작될 때 신뢰의 뿌리를 확립합니다. 정적/동적 분석(AST)으로 비인가 코드를 탐지하고, 암호화 서명(SBOM, Software Bill of Materials)으로 플러그인의 출처를 검증합니다. 앱스토어의 심사 과정에 해당합니다.

입력 인식 계층(Input Perception Layer) 은 외부 데이터가 에이전트의 제어 흐름을 납치하지 못하도록 막습니다. 암호화 토큰 태깅을 통해 개발자 프롬프트와 외부 콘텐츠 사이에 지시 계층 구조(Instruction Hierarchy) 를 강제합니다. 사장의 지시와 외부인의 요청을 명확히 구분하는 것과 같습니다.

인지 상태 계층(Cognitive State Layer) 은 내부 메모리와 추론 과정을 보호합니다. 머클 트리(Merkle-tree) 구조를 사용해 메모리 상태를 스냅샷으로 저장하고, 이상이 감지되면 이전 상태로 롤백합니다. 크로스 인코더로 문맥의 의미적 거리를 측정해 메모리 오염 여부를 탐지합니다.

결정 정렬 계층(Decision Alignment Layer) 은 에이전트가 실행하기 전에 계획을 검증합니다. 기호 연산 기반의 형식 검증(Formal Verification) 을 사용해, 제안된 실행 순서가 안전 규칙을 위반하지 않는지 수학적으로 증명합니다. 의도 이탈을 사전에 차단하는 관문입니다.

실행 제어 계층(Execution Control Layer) 은 마지막 방어선으로, “침해를 전제(assume breach)” 하는 패러다임을 적용합니다. eBPF와 seccomp를 활용한 커널 수준 샌드박싱(격리 환경)으로, 비인가 시스템 호출을 OS 수준에서 차단합니다. 에이전트가 아무리 똑똑해도, 허용되지 않은 시스템 명령은 실행 자체가 불가능하게 만드는 것입니다.

경쟁 구도와 업계 맥락

이 연구는 AI 에이전트 보안이 2026년 최대 화두로 떠오르는 흐름과 맞닿아 있습니다.

보안 전문 기업 Kiteworks의 조사에 따르면 보안 전문가의 48% 가 에이전트 AI를 2026년 최대 공격 벡터(공격 경로)로 지목했습니다. Cisco의 보안 부문 Talos Intelligence는 “자율 에이전트 보안에 대해 지금 당장 알아야 한다”는 제목의 분석을 발표했습니다. CyberArk는 “2026년에는 AI 에이전트 자체가 새로운 내부자 위협이 된다”고 경고했습니다.

OpenClaw만의 문제가 아닙니다. 앞선 기사에서 다뤘던 에이전트 커머스(AI가 대신 쇼핑하는 시스템), 자율 코딩 에이전트(Anthropic Claude Code, OpenAI Codex 등), 기업 업무 자동화 에이전트 모두 같은 구조적 위험을 공유합니다. 높은 시스템 권한, 외부 데이터 수집, 지속적 메모리, 자율적 의사결정이라는 네 가지 특성이 결합되면 기존 보안 체계로는 대응하기 어려운 새로운 위협 영역이 만들어집니다.

특히 주목할 점은 이 연구가 중국 에서 나왔다는 것입니다. OpenClaw는 중국에서 폭발적으로 확산되면서 동시에 보안 경고도 가장 먼저 나왔습니다. 사우스차이나모닝포스트에 따르면 기술 전문가부터 은퇴자까지 “디지털 비서”로 OpenClaw를 설치하는 열풍이 불었고, 그 과정에서 데이터 삭제 등의 사고가 보고되었습니다. 중국 사이버보안 당국이 정부 기관과 국영 기업에 설치 금지를 권고한 것은, 자율 에이전트의 보안 위험이 이론이 아니라 현실이 되었음을 보여줍니다.

한국 사용자에게 미치는 영향

한국에서도 AI 에이전트 도입은 빠르게 확산되고 있으며, 이 연구가 시사하는 바는 직접적입니다.

개인 사용자 관점에서, OpenClaw 같은 자율 에이전트를 설치해 사용하는 사람이 늘고 있습니다. 편리하지만, 이 에이전트가 내 컴퓨터의 파일을 수정하고, 이메일을 보내고, 시스템 설정을 바꿀 수 있다는 점을 인식해야 합니다. 커뮤니티 플러그인의 26%에 보안 취약점이 있다는 연구 결과는, 검증되지 않은 스킬을 무분별하게 설치하면 내 컴퓨터 전체가 위험에 노출될 수 있음을 의미합니다. AI 에이전트에게 주는 권한을 최소한으로 제한하고, 출처가 불분명한 플러그인은 설치하지 않는 것이 기본입니다.

기업과 개발자 관점에서, AI 에이전트를 업무에 도입하려는 기업은 보안 프레임워크를 먼저 갖춰야 합니다. 이 연구가 제시한 5계층 방어 아키텍처는 현재로서는 개념 수준이지만, 방향성은 명확합니다. 플러그인 검증, 입력 계층 분리, 메모리 무결성 모니터링, 실행 전 계획 검증, 커널 수준 격리까지, 에이전트의 전체 작동 과정에 보안을 내장해야 합니다. 특히 한국 기업이 사내 업무 자동화에 AI 에이전트를 도입할 때, 에이전트가 접근할 수 있는 시스템 범위를 엄격히 제한하는 것이 가장 시급한 조치입니다.

정책 관점에서, 중국 정부가 OpenClaw에 대해 보안 경고를 발표한 것처럼, 한국에서도 자율 에이전트에 대한 보안 가이드라인이 필요합니다. 현재 한국의 AI 보안 논의는 주로 LLM의 출력 내용(유해 콘텐츠, 할루시네이션 등)에 집중되어 있지만, 자율 에이전트 시대에는 “AI가 무슨 말을 하느냐”보다 “AI가 무슨 행동을 하느냐” 가 더 중요한 보안 이슈가 됩니다.

분석

이 연구가 드러내는 핵심 인사이트는 두 가지입니다.

첫째, AI 보안의 패러다임이 바뀌어야 합니다. 지금까지 AI 보안은 “AI가 나쁜 말을 하지 않게 하는 것”이 중심이었습니다. 유해 콘텐츠 필터링, 할루시네이션(사실과 다른 내용을 자신 있게 말하는 현상) 방지, 개인정보 보호가 주요 과제였습니다. 하지만 자율 에이전트는 말이 아니라 행동 을 합니다. 파일을 삭제하고, 시스템 설정을 바꾸고, 외부 서비스에 접속합니다. “AI가 무슨 말을 하느냐”에서 “AI가 무슨 행동을 하느냐”로 보안의 초점이 이동해야 합니다. 이 연구의 5계층 프레임워크는 그 전환의 첫 번째 체계적 시도입니다.

둘째, 오픈소스 에이전트 생태계의 공급망 보안이 급선무입니다. 커뮤니티 기여 도구의 26%에 취약점이 있다는 숫자는 심각합니다. 이건 OpenClaw만의 문제가 아닙니다. 오픈소스 생태계는 누구나 기여할 수 있다는 것이 장점이자 위험입니다. 소프트웨어 공급망 공격(supply chain attack)은 이미 SolarWinds, Log4j 사태에서 그 파괴력이 증명됐습니다. AI 에이전트의 플러그인 생태계에서 같은 유형의 공격이 반복될 가능성이 높고, 그 피해 범위는 에이전트가 가진 시스템 권한만큼 넓어집니다.

AI 에이전트는 앞으로 더 보편화될 것입니다. 하지만 보안 프레임워크가 에이전트의 확산 속도를 따라가지 못하면, 편리함이 곧 취약점이 되는 역설이 현실화됩니다. 이 연구는 그 경고를 구체적인 데이터와 공격 사례로 뒷받침한 첫 번째 체계적 작업이라는 점에서 의미가 큽니다.

결론

칭화대-앤트그룹 연구팀은 AI 에이전트 보안이 단순한 입력 필터링이나 프롬프트 방어를 넘어, 에이전트의 생애주기 전체를 아우르는 체계적 접근이 필요하다는 것을 실증적으로 보여줬습니다. 스킬 오염, 메모리 오염, 의도 이탈, 고위험 명령 실행까지, 각 단계의 취약점은 개별적으로는 사소해 보여도 연쇄적으로 결합하면 시스템 전체를 무너뜨릴 수 있습니다. 여러분이 AI 에이전트를 사용하고 있거나 도입을 검토 중이라면, “이 에이전트에게 어디까지 권한을 줄 것인가”라는 질문부터 시작해야 합니다. AI가 똑똑해질수록, 그 AI를 어떻게 통제할 것인가가 더 중요해집니다.

#OpenClaw #AI에이전트보안 #LLM취약점 #프롬프트인젝션 #메모리오염 #칭화대 #앤트그룹 #AI보안프레임워크

AI 에이전트 보안의 민낯 OpenClaw가 드러낸 5단계 위협의 실체

OpenClaw는 무엇이고 왜 위험한가

5단계 위협, 에이전트의 생애주기 전체가 공격 대상

5계층 방어 프레임워크, 무엇이 달라야 하는가

경쟁 구도와 업계 맥락

한국 사용자에게 미치는 영향

분석

결론

함께 읽으면 좋은 글

Apple AI 에이전트 결제 전 반드시 묻는다 빅테크가 선택한 제한된 자율성 전략 분석

Claude Mythos 공개 불가 선언 AI가 27년된 보안 취약점을 찾아내다 Project Glasswing 분석