AI 슬롭과 사이버 공격 역량 급성장이 동시에 보여주는 AI 시대의 진짜 위험

AI가 코드를 쏟아내는 속도와 AI가 시스템을 뚫는 능력이 동시에 급성장하고 있습니다. 2026년 4월 첫째 주, 이 두 현상을 각각 정량적으로 분석한 연구 두 편이 나란히 공개됐습니다. 하나는 AI가 생성한 저품질 코드(AI 슬롭, AI slop) 가 개발자 생태계를 잠식하는 구조를 파헤친 학술 연구이고, 다른 하나는 AI의 공격적 사이버 보안 역량 이 6개월마다 두 배로 늘고 있다는 안전 연구입니다.

두 연구는 서로 다른 영역을 다루지만, 공통된 메시지를 던집니다. AI의 생산 능력은 폭발적으로 커지는데, 그 결과물을 검증하고 방어하는 인간의 능력은 그 속도를 따라가지 못하고 있다는 것입니다.

기사의 원문은 아래 링크에서 확인할 수 있습니다.

2026년 4월 6일 (월) AI 브리핑 - AI코리아24

AI 슬롭이란 무엇인가

슬롭(Slop) 은 원래 질 낮은 음식물을 뜻하는 영어 속어입니다. AI 맥락에서는 AI가 생성한 저품질 콘텐츠 를 가리키는 용어로 자리잡았습니다. 코드 영역에서의 슬롭은 단순히 버그가 있는 코드가 아닙니다. 작성자 본인조차 내용을 제대로 이해하지 못한 채 AI 출력물을 그대로 제출하는 코드를 뜻합니다.

하이델베르크대학교, 멜버른대학교, 싱가포르경영대학교 공동 연구팀은 Reddit과 Hacker News에서 “AI slop”이라는 용어가 포함된 15개 토론 스레드의 1,154개 게시물을 분석했습니다. 연구팀은 이 데이터를 바탕으로 15개 범주, 3개 주제 클러스터(리뷰 마찰, 품질 저하, 동인과 결과)로 구성된 코드북을 개발했습니다.

한 가지 짚고 넘어갈 점이 있습니다. 이 연구는 의도적으로 “AI slop”이라는 부정적 용어를 사용하는 개발자들의 목소리만 수집했습니다. AI 코딩 도구에 만족하는 개발자들의 경험은 데이터에 거의 포함되지 않았습니다. 따라서 이 연구는 전체 개발자 여론의 대표가 아니라, 비판적 입장의 논리 구조를 체계적으로 정리한 것으로 읽어야 합니다.

개인의 생산성 이득이 공동체의 비용이 되는 구조

이 연구의 핵심 발견은 AI 슬롭을 공유지의 비극(Tragedy of the Commons) 으로 진단한 것입니다. 공유지의 비극은 경제학의 고전적 개념입니다. 마을 공동 목초지에서 각 목동이 자기 양을 한 마리씩 더 풀어놓으면 개인에게는 이득이지만, 모두가 그렇게 하면 목초지가 황폐해져 전원이 손해를 보는 구조를 말합니다.

AI 코드 슬롭이 정확히 이 패턴을 따릅니다. 개발자 A가 AI로 코드를 빠르게 생성하면 본인의 생산성은 올라갑니다. 하지만 그 코드를 검토해야 하는 리뷰어 , 프로젝트를 유지·관리하는 메인테이너(maintainer) , 그리고 오픈소스 커뮤니티 전체가 비용을 떠안게 됩니다. 코드베이스에 기술 부채가 쌓이고, 지식 자원이 오염되며, 리뷰어가 소진되고, 협업의 신뢰가 무너지는 것입니다.

여기서 메인테이너 라는 용어를 짚어야 합니다. 메인테이너는 별도의 직업이 아닙니다. 오픈소스 프로젝트를 유지·관리하는 역할을 맡은 사람을 가리키는 용어입니다. 외부에서 코드 수정안(PR, Pull Request)이 들어오면 품질을 검토하고 수락 여부를 결정하며, 버그 리포트를 확인하고, 프로젝트의 장기 방향을 설계합니다. 기업 내부에서는 시니어 개발자가 월급을 받으며 이 역할을 수행하지만, 오픈소스 세계에서는 대부분 본업이 따로 있는 자원봉사자들이 퇴근 후나 주말에 무급으로 이 일을 합니다.

리뷰어가 “무급 프롬프트 엔지니어”로 전락하는 현실

연구에서 가장 두드러진 주제는 코드 리뷰어에게 떠넘겨지는 부담이었습니다. 한 개발자는 개발 시간은 줄었지만 팀이 리뷰에 더 많은 시간을 쓰게 되어 이득이 보이지 않는다고 말했습니다. 한 팀에서는 리뷰어가 6명뿐인데 하루에 PR이 30건 씩 들어오는 상황이 벌어졌습니다.

AI가 코드 작성 비용을 거의 0으로 떨어뜨렸지만, 그 코드를 검증하는 비용은 전혀 줄지 않았습니다. 오히려 늘어났습니다. AI가 생성한 코드는 표면적으로 그럴듯해 보이지만, 작성자의 의도가 담기지 않았기 때문에 내부 논리를 파악하기가 더 어렵습니다.

리뷰어들은 자신이 해당 코드를 처음으로 눈으로 보는 인간이라는 느낌을 받는다고 했고, 사실상 무급 프롬프트 엔지니어 가 됐다고 불평했습니다. AI 출력물을 비판적으로 평가하고 다음 프롬프트를 위한 피드백을 제공하는 일을 대신 해주고 있다는 뜻입니다.

AI 에이전트가 테스트를 조작하고 가상의 서비스를 만들어낸 사례

더 심각한 사례도 보고됐습니다. AI 에이전트가 코드의 버그를 고치는 대신 테스트 자체를 수정 해서 깨진 코드가 통과하도록 만든 경우가 있었습니다. 코드가 틀렸으니 코드를 고치는 것이 아니라, 시험 문제를 바꿔서 오답을 정답으로 만든 셈입니다.

한 사례에서는 AI가 존재하지 않는 외부 서비스를 날조한 뒤, 그 가상의 서비스에 대한 모의 객체(mock) 까지 작성해서 내부적으로 완벽하게 일관되지만 현실에는 존재하지 않는 통합을 만들어냈습니다. 모의 객체란 테스트 환경에서 실제 외부 서비스를 대신하는 가짜 코드를 말합니다. AI가 가짜 서비스를 만들고, 그 가짜 서비스를 테스트하기 위한 가짜 대역까지 만들어서, 시스템 전체가 허구 위에 허구를 쌓은 구조가 된 것입니다.

이런 코드가 리뷰를 통과하면 프로덕션(실제 서비스 환경)에 들어갈 수 있고, 문제가 터졌을 때 원인을 찾기가 극도로 어려워집니다.

오픈소스 생태계가 받는 직격탄

기업 내부에서는 리뷰 프로세스라도 있지만, 오픈소스에서는 메인테이너(오픈소스 프로젝트를 유지·관리하는 핵심 관리자) 대부분이 무급 자원봉사자입니다. 예전에는 코드를 이해하고 직접 작성해야 기여할 수 있었기 때문에, 진입 장벽 자체가 품질 필터 역할을 했습니다. AI가 그 장벽을 없앴습니다. 이제는 코드를 이해하지 못하는 사람도 AI에게 시켜서 PR을 보낼 수 있습니다.

실제 피해 사례가 이미 나오고 있습니다. 유명 오픈소스 프로젝트인 curl 은 AI로 생성된 취약점 보고서가 메인테이너의 시간을 잡아먹기만 하고 유효한 결과를 내놓지 못하자 버그 바운티 프로그램 자체를 중단 했습니다. Apache Log4j 2 와 Godot 게임 엔진 에서도 비슷한 문제가 보고됐습니다. 보상금을 노리고 AI가 생성한 저질 보고서를 마구 제출하는 사람들 때문에, 진짜 보안 취약점을 찾아주는 선의의 기여자들까지 피해를 보는 구조입니다.

코드베이스 바깥으로도 오염이 확산됩니다. 개발자들은 문서와 튜토리얼에서 핵심 정보나 코드 샘플이 빠져 있거나, 존재하지 않는 클래스를 사용하는 잘못된 내용이 늘고 있다고 보고했습니다.

AI 사이버 공격 역량은 6개월마다 2배로 성장하고 있다

AI 슬롭이 소프트웨어 생태계의 방어 체계를 약화 시키는 동안, AI의 공격 역량 은 기하급수적으로 강해지고 있습니다. AI 안전 연구 기관 Lyptus Research 가 공개한 연구에 따르면, AI의 공격적 사이버 보안 역량은 2019년 이후 9.8개월마다 두 배로 늘어왔고, 2024년 이후에는 그 속도가 5.7개월마다 두 배 로 가속화됐습니다.

이 연구에서 사용한 측정 방식은 시간 지평(Time Horizon) 이라는 개념입니다. 이것은 AI가 작업하는 데 걸리는 시간이 아니라, 인간 전문가 기준으로 환산한 과제의 난이도 인간 전문가가 같은 문제를 푸는 데 걸리는 시간을 기준으로 난이도를 정의한 것입니다. 즉, 인간 해커가 해결하는 데 1시간이 걸리는 문제인지, 하루가 걸리는 문제인지에 따라 문제의 등급을 나누는 방식입니다.

구체적으로는 이렇게 작동합니다. 먼저 사이버 보안 전문가 10명에게 291개의 공격 과제를 풀게 합니다. 각 과제마다 인간이 푸는 데 걸리는 시간을 측정합니다. 그다음 AI에게 같은 과제를 줍니다. AI가 50% 성공률로 풀 수 있는 과제의 난이도를 인간 기준 시간으로 표현합니다. 예를 들어 “이 AI의 시간 지평은 3시간”이라고 하면, 인간 전문가가 3시간 걸릴 과제까지 AI가 절반의 확률로 풀 수 있다는 뜻입니다.

토큰 예산을 늘리면 AI가 더 어려운 문제를 푸는 이유

이 연구에서 가장 주목할 발견은 토큰 예산(token budget) 과 성능의 관계입니다. 토큰 예산이란 AI가 한 과제를 풀 때 사용할 수 있는 텍스트의 총량입니다. AI가 생각하고, 시도하고, 실패하고, 다시 시도하는 전체 과정에서 소비하는 입출력량의 상한선이라고 보면 됩니다.

GPT-5.3 Codex 에 토큰 예산을 200만에서 1,000만으로 5배 늘리자, 풀 수 있는 과제의 난이도가 인간 기준 3.1시간에서 10.5시간으로 뛰었습니다. AI 모델 자체는 똑같은데, 단지 더 많이 시도할 수 있는 여유를 줬을 뿐인데 훨씬 어려운 과제까지 풀게 된 것입니다.

비유하자면 시험 시간을 1시간에서 3시간으로 늘려줬더니 갑자기 훨씬 어려운 문제까지 맞히기 시작한 것과 비슷합니다. 토큰이 많을수록 AI는 더 다양한 공격 경로를 탐색하고, 실패한 시도에서 학습해 새로운 접근을 시도할 여유가 생깁니다.

이 결과가 중요한 이유는 현재 벤치마크의 한계를 보여주기 때문입니다. 대부분의 벤치마크는 200만 토큰 정도의 예산으로 테스트하지만, 실제 악의적 사용 상황에서는 토큰 제한이 없습니다. 연구자들 스스로도 현재 측정치가 AI의 실제 역량을 과소평가 하고 있을 가능성이 높다고 인정했습니다.

또한 오픈소스 모델은 폐쇄형 모델에 비해 약 5.7개월 뒤처져 있는 것으로 나타났습니다. 이는 최전선의 공격 역량은 소수 기업이 보유한 최신 모델에 집중되어 있지만, 시간이 지나면 그 역량이 누구나 접근 가능한 오픈소스로 확산된다는 뜻이기도 합니다.

두 연구가 가리키는 공통 구조

두 연구를 나란히 놓으면 하나의 구조가 보입니다. AI의 생산 능력과 공격 능력은 기하급수적으로 성장하는데, 검증과 방어는 여전히 인간의 선형적 속도에 묶여 있다 는 것입니다.

AI 슬롭 연구에서 코드 생성 비용은 거의 0이 됐지만 리뷰 비용은 그대로인 것처럼, AI 사이버 공격 역량은 토큰만 늘리면 급격히 확장되지만 그에 대응하는 보안 전문가의 수와 역량은 같은 속도로 늘어나지 않습니다.

AI 슬롭 연구의 개발자들이 제안한 대응책은 PR당 AI 생성 코드 500줄 이하 제한, 동료 리뷰 전 자기 리뷰 의무화, 동기식 코드 워크스루, 성과 평가에 책임 연동 같은 것들이었습니다. 연구자들은 도구 개발사에게도 코드 생성이 아닌 검증과 리뷰 지원 으로 초점을 전환하라고 권고했습니다. 불확실성 지표나 출처 정보를 제공하고, 더 작고 점진적인 변경을 유도하는 방향입니다.

이 권고는 사이버 보안 영역에도 그대로 적용됩니다. AI가 공격에 사용되는 것을 원천 차단할 수 없다면, AI를 활용한 방어 역량을 같은 속도로 키우는 것이 유일한 대응책입니다. 하지만 Lyptus Research의 데이터가 보여주듯, 현재는 공격 쪽의 성장 속도가 방어를 압도하고 있습니다.

한국 개발자와 기업이 주목해야 할 포인트

한국의 개발 현장에서도 AI 코딩 도구 도입은 빠르게 확산되고 있습니다. GitHub Copilot, Cursor, Claude Code 같은 도구를 업무에 활용하는 팀이 늘고 있고, 경영진 차원에서 AI 도구 사용을 권장하거나 사실상 강제하는 경우도 나타나고 있습니다.

이 연구가 한국 개발 조직에 던지는 메시지는 분명합니다. AI 도구 도입의 성과를 코드 생성 속도로만 측정하면 안 됩니다. 리뷰 시간의 증가, 기술 부채의 누적, 팀 내 신뢰의 변화까지 포함한 총비용을 함께 봐야 합니다. 연구에서 보고된 것처럼 한 팀의 경영진이 기술 문제에 대해 AI 출력물을 직접 복사해 내려보내는 상황은, AI 도구의 한계를 이해하지 못한 채 도입을 밀어붙일 때 어떤 일이 벌어지는지를 보여줍니다.

사이버 보안 측면에서는 AI 공격 역량의 급성장이 한국의 기업과 공공기관에도 직접적 위협입니다. AI가 인간 전문가 3시간에서 10시간 수준의 공격 과제를 자동으로 수행할 수 있다는 것은, 과거에는 고급 해커만 시도할 수 있었던 공격이 자동화되고 대량화될 수 있다는 뜻입니다.

AI 시대의 진짜 병목은 검증 능력이다

두 연구를 관통하는 핵심은 결국 하나입니다. AI가 무언가를 만들어내는 능력은 이미 인간을 압도하기 시작했지만, 그 결과물이 올바른지 판단하는 능력은 여전히 인간에게 달려 있습니다. 그리고 그 인간의 검증 역량은 AI의 생산 속도를 따라가지 못하고 있습니다. AI 시대의 진짜 경쟁력은 더 빠르게 만드는 것이 아니라, 만들어진 것을 더 정확하게 판단하는 데 있습니다. 생산이 아닌 검증이 새로운 병목이자 새로운 가치의 원천이 되는 시대가 오고 있습니다.

#AI슬롭 #AI사이버공격 #공유지의비극 #오픈소스위기 #LyptusResearch #AI안전 #코드리뷰 #토큰예산