샤오미 MiMo-V2.5-Pro 오픈소스로 Claude Opus 4.6에 도전 4.3시간 자율 코딩과 토큰 효율 혁신 분석

스마트폰 회사가 Claude Opus 4.6에 도전했습니다. 샤오미(Xiaomi)가 2026년 5월 3일 공개한 MiMo-V2.5-Pro는 단일 컴파일러(compiler, 사람이 쓴 코드를 컴퓨터가 실행할 수 있는 형태로 변환하는 프로그램)를 4.3시간 만에 자율적으로 완성했고, 코딩 벤치마크에서 Anthropic의 Claude Opus 4.6과 대등한 수준을 기록했습니다. 더 중요한 것은 서방 경쟁 모델 대비 토큰을 40~60% 덜 쓰면서 이 결과를 냈다는 점입니다.

이 모델이 오픈소스(open-weight, 모델 가중치를 공개해 누구나 다운받아 쓸 수 있는 방식)로 공개됐다는 사실이 핵심입니다. Claude Opus 4.6을 쓰려면 Anthropic의 API 요금을 내야 합니다. MiMo-V2.5-Pro는 허깅페이스(Hugging Face, AI 모델 공유 플랫폼)에서 무료로 받아 직접 실행할 수 있습니다. 관련 브리핑과 기사원문은 AI코리아24에서 확인할 수 있습니다.

MiMo-V2.5-Pro가 무엇인지 먼저 이해하기

기술 구조부터 짚겠습니다.

MiMo-V2.5-Pro는 MoE(Mixture of Experts, 전문가 혼합) 구조입니다. 전체 파라미터는 1조 20억 개(1.02조)이지만, 한 번의 요청을 처리할 때 실제로 작동하는 것은 420억 개뿐입니다. 전체를 다 켜는 것이 아니라 해당 작업에 맞는 ‘전문가’ 부분만 활성화하는 방식입니다. 덕분에 1조 개 규모의 모델이지만 실제 연산 비용은 훨씬 적습니다.

컨텍스트 윈도우(context window, AI가 한 번에 처리할 수 있는 텍스트 양)는 최대 100만 토큰(token, AI가 텍스트를 처리하는 기본 단위로 대략 단어 수준)입니다. 현재 가능한 가장 큰 수준입니다. 27조 개의 토큰으로 사전 학습됐고, 이후 수학·보안·도구 사용 등 각 분야의 전문 모델이 먼저 최적화된 뒤, 하나의 학생 모델이 그 전문가들로부터 동시에 배우는 “교사-학생 구조”로 후훈련됐습니다.

4.3시간, 672번의 도구 호출, 그리고 100점 만점

샤오미가 공개한 세 가지 데모 중 가장 인상적인 것은 첫 번째입니다.

베이징대학교 수업 과제 수준의 완전한 컴파일러 프로젝트를 처음부터 끝까지 만드는 작업이었습니다. 보통 컴퓨터공학과 학생이 몇 주에 걸쳐 완성하는 과제입니다. MiMo-V2.5-Pro는 이것을 4.3시간, 672번의 도구 호출로 완성했습니다. 숨겨진 테스트 케이스 233개를 모두 통과해 233점 만점을 받았습니다.

작업 방식이 흥미롭습니다. 에이전트는 먼저 전체 파이프라인(pipeline, 작업의 처리 흐름)을 뼈대로 잡은 뒤, 각 단계를 층층이 완성해나갔습니다. 첫 번째 컴파일 실행에서 이미 233개 중 137개를 통과했습니다. 중간에 리팩토링(refactoring, 기존 코드를 더 깔끔하게 다시 쓰는 작업) 과정에서 일부 테스트가 오히려 떨어지는 상황이 발생했고, 에이전트는 이것을 스스로 진단하고 수정했습니다.

두 번째 데모는 더 큽니다. 몇 개의 프롬프트만으로 약 8,000줄의 코드로 이루어진 데스크톱 영상 편집기를 만들었습니다. 11.5시간, 약 1,870번의 도구 호출이 걸렸습니다. 세 번째 데모에서는 Claude Code를 통해 회로 시뮬레이터와 연결해 전압 조정기를 설계하는 작업을 1시간 안에 완성했습니다.

벤치마크 수치 — Claude Opus 4.6과 어깨를 나란히

내부 테스트라는 한계를 감안하면서 수치를 살펴보겠습니다.

코딩 벤치마크에서 MiMo-V2.5-Pro는 SWE-bench Verified 78.9점, SWE-Bench Pro 57.2점, Terminal-Bench 2.0에서 68.4점을 기록했습니다. 샤오미 자체 벤치마크인 MiMo Coding Bench에서는 73.7점으로, Claude Opus 4.6(77.1점)과 근소한 차이입니다. Gemini 3.1 Pro(67.8점)는 앞섰습니다. SWE-Bench Pro와 Terminal-Bench 2.0에서는 Claude Opus 4.6과 거의 동등한 수준을 보였습니다.

그런데 벤치마크 점수보다 더 주목할 숫자가 있습니다. 토큰 효율입니다. 샤오미의 에이전트 벤치마크 ClawEval에서 MiMo-V2.5-Pro는 태스크당 약 7만 토큰을 사용해 64%의 성공률을 기록했습니다. 같은 성능에서 Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.4는 40~60% 더 많은 토큰을 씁니다.

토큰이 중요한 이유가 있습니다. API 기반 AI 서비스는 토큰 수에 비례해 비용이 나옵니다. 같은 결과를 내는 데 토큰을 덜 쓴다는 것은 직접적인 비용 절감입니다. MiMo-V2.5-Pro를 자체 서버에 올려 쓰는 기업 입장에서 이 효율 차이는 운영 비용에서 실질적으로 나타납니다.

오픈소스가 핵심이다 — 중국 AI의 새로운 전략

이 모델의 가장 중요한 속성은 성능이 아니라 오픈소스라는 점입니다.

현재 최고 수준의 코딩 AI 에이전트는 대부분 API 형태로만 제공됩니다. Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro 모두 Anthropic·OpenAI·Google의 서버를 통해서만 쓸 수 있습니다. 이것은 두 가지를 의미합니다. 첫째, 비용이 계속 발생합니다. 둘째, 데이터가 해당 기업의 서버를 거칩니다.

MiMo-V2.5-Pro는 다릅니다. 허깅페이스에서 모델 가중치를 받아 자체 인프라에서 실행할 수 있습니다. 금융, 의료, 법률처럼 데이터 보안이 중요한 기업들에게 이것은 의미 있는 선택지입니다. API 비용 없이, 데이터를 외부로 보내지 않고, 원하는 방식으로 모델을 커스터마이징할 수 있습니다.

The Decoder의 분석이 이 맥락을 정확히 짚습니다. 중국 AI 오픈소스 경쟁은 “벤치마크 점수 경쟁이 아니라 얼마나 싸게, 얼마나 오랫동안 스스로 작업할 수 있느냐의 경쟁”이 됐습니다. MiMo-V2.5-Pro가 DeepSeek V4와 함께 이 경쟁에 합류했습니다.

MiMo-V2-Pro 이전 버전이 출시 직후 OpenRouter(AI 모델 API 통합 서비스) 사용량 순위 1위를 며칠간 유지했다는 사실도 주목할 만합니다. 당시 많은 사용자들이 처음에 새로운 DeepSeek 모델인 줄 알았습니다. 샤오미 AI 모델이 그만큼 시장의 주목을 받고 있다는 증거입니다.

한국 개발자와 기업에게 의미하는 것

실질적인 영향을 세 가지로 정리합니다.

코딩 에이전트 비용 절감 옵션이 생겼습니다. Claude Code나 GitHub Copilot Workspace를 팀 업무에 쓰는 비용이 부담스럽다면, MiMo-V2.5-Pro를 자체 서버에 올려 쓰는 것이 대안이 됩니다. 특히 이 대화에서 앞서 다룬 Claude Code 일일 비용 115% 인상 이슈와 연결해서 생각하면, 오픈소스 대안의 실용성이 더 높아집니다.

데이터 보안이 중요한 기업에게 선택지가 늘었습니다. 금융, 의료, 공공기관처럼 코드와 데이터를 외부 서버에 보낼 수 없는 환경에서 Claude Opus급 코딩 성능을 자체 인프라로 구현할 수 있는 가능성입니다.

단, 자체 운영 비용을 계산해야 합니다. MiMo-V2.5-Pro는 1.02조 파라미터 모델입니다. 자체 서버에서 실행하려면 상당한 GPU 자원이 필요합니다. 소규모 팀이 직접 돌리기보다 클라우드 GPU 임대 방식을 쓰는 것이 현실적이며, 이 비용이 Claude API 비용과 비교했을 때 실제로 유리한지를 계산해봐야 합니다.

중국 오픈소스 AI의 방향이 바뀌었다

DeepSeek이 2025년 초 저비용 고성능 오픈소스 모델로 업계를 충격에 빠뜨렸을 때, 많은 전문가들은 이것이 일시적 현상일 것이라 봤습니다. MiMo-V2.5-Pro는 그 방향이 일시적이지 않다는 것을 보여줍니다.

벤치마크 점수가 아닌 실제 작업 완수 능력, 시간 단위의 자율 작업 수행, 토큰 효율, 오픈소스 공개. 이 네 가지가 중국 AI 오픈소스의 새로운 경쟁 축이 됐습니다. 스마트폰 기업이 세계 최고 수준의 AI 코딩 에이전트를 오픈소스로 공개하는 것이 이제 일상이 됐습니다.

서방 AI 기업들은 더 강력한 폐쇄형 모델로 격차를 유지하려 합니다. 중국 오픈소스 생태계는 “충분히 좋은 성능을 무료로”라는 방향으로 시장을 잠식하고 있습니다. 이 두 전략이 충돌하는 지점에서 가장 이득을 보는 것은 선택지가 넓어진 사용자들입니다.

#샤오미MiMo #MiMoV25Pro #오픈소스AI #자율코딩 #ClaudeOpus대항 #중국AI #AI코딩에이전트 #토큰효율