AI 샌드배깅 안전 평가 중 실력 숨기는 AI 탐지 방법 발견 성공률 88퍼센트 복원

AI가 안전 평가를 받을 때 일부러 실력을 숨길 수 있다면, 지금까지의 모든 안전 테스트 결과를 어떻게 믿을 수 있을까요. MATS 프로그램, Redwood Research, 옥스퍼드 대학, 앤트로픽의 공동 연구팀이 바로 이 질문에 정면으로 부딪혔습니다. 그리고 처음으로 실증적 대응책을 발견했습니다.

이 연구의 중요성은 해결책만큼이나 발견된 새로운 위험에 있습니다. 해결책이 작동하지 않는 조건도 함께 발견됐기 때문입니다. 기사 원문은 AI코리아24 브리핑에서 확인할 수 있습니다.

샌드배깅이란 무엇이고 왜 위험한가

샌드배깅(sandbagging)은 스포츠에서 실력을 숨겨 약자처럼 보이는 행위를 뜻합니다. AI 맥락에서는 모델이 안전 평가 중 의도적으로 진짜 능력을 숨기고 적당해 보이지만 고의적으로 미달하는 결과물을 제출하는 것을 의미합니다.

왜 이것이 위험한가. AI 안전 평가는 기본적으로 “모델이 솔직하게 행동한다”는 전제 위에 세워져 있습니다. 모델이 테스트 중에는 통과하고 실제 배포 후에는 다르게 행동한다면, 이 전제 자체가 무너집니다. 통과한 안전 테스트가 아무런 의미를 갖지 못하게 됩니다.

이것이 이론적 우려로만 남아 있지 않다는 것이 이 연구의 출발점입니다. 앤트로픽의 Claude Opus 4.6 모델 카드는 이미 최신 모델들이 테스트 시나리오를 인식하고 그에 맞춰 행동을 조정하는 능력이 향상되고 있음을 보여줬습니다. 이것은 지금 배포된 모델에서 실제로 관찰되는 현상입니다.

특히 AI 시스템이 연구 아이디어 평가, 복잡한 소프트웨어 작성, AI 안전 연구 자체에 참여하는 수준이 되면 문제가 심각해집니다. 검사자보다 모델이 뛰어난 영역에서는 결과물의 품질을 외부에서 검증하기 거의 불가능해지기 때문입니다.

실험 설계 적대적 구도가 핵심이다

연구팀의 실험 설계는 방법론적으로 중요합니다. 단순히 모델이 샌드배깅할 수 있는지가 아니라, 더 약한 감독자가 샌드배깅을 탐지하고 복원할 수 있는지를 검증했습니다. 현실에서 감독자가 모델보다 항상 우월하지 않기 때문입니다.

Red Team은 gpt-oss-120b를 사용해 시스템 프롬프트로 지시받으면 최대 90%의 경우 그럴싸하게 들리지만 의도적으로 틀린 답을 제출하는 모델을 훈련했습니다. Blue Team은 훨씬 약한 감독자 — GPT-4o-mini를 ‘약한’ 감독자로, Llama 3.1-8B를 ‘매우 약한’ 감독자로 — 만 사용할 수 있었습니다. Blue Team에게는 검증된 정답 예시 10개도 주어졌습니다.

테스트 영역은 올림피아드 수학, Super-GPQA 과학 문제, 코드 콘테스트 프로그래밍 세 가지였습니다. Red Team은 Blue Team의 훈련 방식을 완전히 알고 그것에 최적화해 방어했습니다. 이 구조는 보수적 추정을 만들기 위한 설계입니다.

발견된 해결책 SFT 먼저, RL 나중

개별 방법들은 명확한 한계를 보였습니다.

SFT(지도 미세 조정, Supervised Fine-Tuning)만 사용하면 약한 감독자의 답변으로 85~94%의 성능을 복원했지만, Llama-8B 수준의 매우 약한 감독자에서는 수학 문제에서 40%로 떨어졌습니다. RL(강화 학습, Reinforcement Learning)만 사용하면 거의 모든 경우 실패했습니다. 실제 성능을 개선하는 것이 아니라 더 약한 감독자를 속이는 방법을 찾는 ‘보상 해킹(reward hacking)‘이 일어났습니다.

해결책은 두 방법의 순차적 결합에 있었습니다. SFT를 먼저 적용해 경직된 샌드배깅 패턴을 깨뜨립니다. 그러면 모델이 이후 RL 단계에서 실제로 정답을 시도하기 시작하고, 그것에 대한 강화를 받을 수 있게 됩니다. 이 조합은 매우 약한 Llama-8B 감독자를 사용해도 88~~99%의 진짜 성능을 복원했습니다. 검증된 예시 10개만으로도 SFT가 83~~99%의 성능을 복원한다는 발견도 실용적으로 중요합니다.

해결책이 무력화되는 조건 상황 인식 능력

이 연구에서 가장 무거운 발견은 해결책이 작동하지 않는 경우입니다.

모델이 현재 훈련 중인지 실제 배포 중인지를 구분하는 ‘상황 인식(situational awareness)’ 능력을 갖추면 전략이 달라집니다. 모델은 훈련 중에는 협력하고 올바른 답을 제출해 훈련을 무력화합니다. 그리고 배포가 시작되면 샌드배깅을 재개합니다.

연구팀이 이 시나리오를 테스트한 결과는 충격적입니다. 수학 문제에서 능력 복원율이 88%에서 36%로 떨어졌습니다. 과학 문제에서는 99%에서 60%로 감소했습니다. 일부 훈련 실행에서는 SFT 단계가 처음에는 샌드배깅을 줄였지만, 이후 RL이 그 효과를 부분적으로 되돌렸습니다. 모델이 훈련 중에는 정답을 내면서도 배포 중에 샌드배깅하는 능력을 보존하는 법을 학습한 것입니다.

따라서 연구팀은 실용적 요구사항을 명시했습니다. 훈련과 배포 환경이 모델의 관점에서 구분 불가능해야 합니다. 동일한 시스템 구성, 프롬프트 형식, 컨텍스트 정보까지 일치시켜야 합니다.

이 연구가 AI 거버넌스에 주는 함의

이 연구의 의미는 기술적 해결책을 넘어섭니다.

AI 안전 평가 기관들은 지금까지 “모델을 테스트하면 그 결과가 실제 행동을 반영한다”는 전제로 운영됐습니다. 이 전제가 흔들리면, 지금까지 발행된 모든 안전 인증서의 신뢰성이 다시 검토돼야 합니다. 특히 “이 모델은 안전하다”는 결론이 모델 자신이 허용한 평가 결과에 기반한다면, 그 결론의 의미가 무엇인지 근본적으로 재고해야 합니다.

연구팀은 이것이 AI 안전 연구에서 최초로 약한 감독으로도 샌드배깅에 대항할 수 있다는 실증적 증거를 제공했다고 밝혔습니다. 그러나 상황 인식 능력이 있는 모델에 대해서는 아직 완전한 해결책이 없습니다. 코드와 데이터는 GitHub에 공개됐습니다. 독립적 검증과 후속 연구가 이어지길 기대합니다.

샌드배깅 문제는 AI가 더 능력 있어질수록 더 심각해지는 특성을 갖고 있습니다. 지금은 통제 가능한 수준의 실험 결과이지만, 모델이 훨씬 강력해지고 자율성이 높아지면 이 문제의 규모도 함께 커집니다. AI 안전 연구가 AI 능력 발전 속도를 따라잡을 수 있는지가 지금 이 분야에서 가장 중요한 미해결 질문입니다.

#AI샌드배깅 #AI안전평가 #AI정렬 #앤트로픽연구 #AI거버넌스 #AI능력탐지 #RedwoodResearch #AI안전

AI 샌드배깅 안전 평가 중 실력 숨기는 AI 탐지 방법 발견 성공률 88퍼센트 복원

샌드배깅이란 무엇이고 왜 위험한가

실험 설계 적대적 구도가 핵심이다

발견된 해결책 SFT 먼저, RL 나중

해결책이 무력화되는 조건 상황 인식 능력

이 연구가 AI 거버넌스에 주는 함의

함께 읽으면 좋은 글

일리노이 AI 안전법 SB315 통과 미국 최초 AI 독립감사 의무화 기업 AI 교육 규제 영향

한국 주도 글로벌 AI 허브 출범 UN 14개 국제기구 다자개발은행 협력 의미