샤오미 MiMo-V2.5-Pro 오픈소스로 Claude Opus 4.6에 도전 4.3시간 자율 코딩과 토큰 효율 혁신 분석
샤오미가 공개한 MiMo-V2.5-Pro가 4.3시간 만에 컴파일러를 완성하고 Claude Opus 4.6과 코딩 벤치마크에서 대등한 성능을 보였다 토큰을 40~60% 덜 쓰면서 비슷한 결과를 내는 이 오픈소스 모델이 AI 시장에 던지는 의미를 분석한다
스마트폰 회사가 Claude Opus 4.6에 도전했습니다. 샤오미(Xiaomi)가 2026년 5월 3일 공개한 MiMo-V2.5-Pro는 단일 컴파일러(compiler, 사람이 쓴 코드를 컴퓨터가 실행할 수 있는 형태로 변환하는 프로그램)를 4.3시간 만에 자율적으로 완성했고, 코딩 벤치마크에서 Anthropic의 Claude Opus 4.6과 대등한 수준을 기록했습니다. 더 중요한 것은 서방 경쟁 모델 대비 토큰을 40~60% 덜 쓰면서 이 결과를 냈다는 점입니다.
이 모델이 오픈소스(open-weight, 모델 가중치를 공개해 누구나 다운받아 쓸 수 있는 방식)로 공개됐다는 사실이 핵심입니다. Claude Opus 4.6을 쓰려면 Anthropic의 API 요금을 내야 합니다. MiMo-V2.5-Pro는 허깅페이스(Hugging Face, AI 모델 공유 플랫폼)에서 무료로 받아 직접 실행할 수 있습니다. 관련 브리핑과 기사원문은 AI코리아24에서 확인할 수 있습니다.
MiMo-V2.5-Pro가 무엇인지 먼저 이해하기
기술 구조부터 짚겠습니다.
MiMo-V2.5-Pro는 MoE(Mixture of Experts, 전문가 혼합) 구조입니다. 전체 파라미터는 1조 20억 개(1.02조)이지만, 한 번의 요청을 처리할 때 실제로 작동하는 것은 420억 개뿐입니다. 전체를 다 켜는 것이 아니라 해당 작업에 맞는 ‘전문가’ 부분만 활성화하는 방식입니다. 덕분에 1조 개 규모의 모델이지만 실제 연산 비용은 훨씬 적습니다.
컨텍스트 윈도우(context window, AI가 한 번에 처리할 수 있는 텍스트 양)는 최대 100만 토큰(token, AI가 텍스트를 처리하는 기본 단위로 대략 단어 수준)입니다. 현재 가능한 가장 큰 수준입니다. 27조 개의 토큰으로 사전 학습됐고, 이후 수학·보안·도구 사용 등 각 분야의 전문 모델이 먼저 최적화된 뒤, 하나의 학생 모델이 그 전문가들로부터 동시에 배우는 “교사-학생 구조”로 후훈련됐습니다.
4.3시간, 672번의 도구 호출, 그리고 100점 만점
샤오미가 공개한 세 가지 데모 중 가장 인상적인 것은 첫 번째입니다.
베이징대학교 수업 과제 수준의 완전한 컴파일러 프로젝트를 처음부터 끝까지 만드는 작업이었습니다. 보통 컴퓨터공학과 학생이 몇 주에 걸쳐 완성하는 과제입니다. MiMo-V2.5-Pro는 이것을 4.3시간, 672번의 도구 호출로 완성했습니다. 숨겨진 테스트 케이스 233개를 모두 통과해 233점 만점을 받았습니다.
작업 방식이 흥미롭습니다. 에이전트는 먼저 전체 파이프라인(pipeline, 작업의 처리 흐름)을 뼈대로 잡은 뒤, 각 단계를 층층이 완성해나갔습니다. 첫 번째 컴파일 실행에서 이미 233개 중 137개를 통과했습니다. 중간에 리팩토링(refactoring, 기존 코드를 더 깔끔하게 다시 쓰는 작업) 과정에서 일부 테스트가 오히려 떨어지는 상황이 발생했고, 에이전트는 이것을 스스로 진단하고 수정했습니다.
두 번째 데모는 더 큽니다. 몇 개의 프롬프트만으로 약 8,000줄의 코드로 이루어진 데스크톱 영상 편집기를 만들었습니다. 11.5시간, 약 1,870번의 도구 호출이 걸렸습니다. 세 번째 데모에서는 Claude Code를 통해 회로 시뮬레이터와 연결해 전압 조정기를 설계하는 작업을 1시간 안에 완성했습니다.
벤치마크 수치 — Claude Opus 4.6과 어깨를 나란히
내부 테스트라는 한계를 감안하면서 수치를 살펴보겠습니다.
코딩 벤치마크에서 MiMo-V2.5-Pro는 SWE-bench Verified 78.9점, SWE-Bench Pro 57.2점, Terminal-Bench 2.0에서 68.4점을 기록했습니다. 샤오미 자체 벤치마크인 MiMo Coding Bench에서는 73.7점으로, Claude Opus 4.6(77.1점)과 근소한 차이입니다. Gemini 3.1 Pro(67.8점)는 앞섰습니다. SWE-Bench Pro와 Terminal-Bench 2.0에서는 Claude Opus 4.6과 거의 동등한 수준을 보였습니다.
그런데 벤치마크 점수보다 더 주목할 숫자가 있습니다. 토큰 효율입니다. 샤오미의 에이전트 벤치마크 ClawEval에서 MiMo-V2.5-Pro는 태스크당 약 7만 토큰을 사용해 64%의 성공률을 기록했습니다. 같은 성능에서 Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.4는 40~60% 더 많은 토큰을 씁니다.
토큰이 중요한 이유가 있습니다. API 기반 AI 서비스는 토큰 수에 비례해 비용이 나옵니다. 같은 결과를 내는 데 토큰을 덜 쓴다는 것은 직접적인 비용 절감입니다. MiMo-V2.5-Pro를 자체 서버에 올려 쓰는 기업 입장에서 이 효율 차이는 운영 비용에서 실질적으로 나타납니다.
오픈소스가 핵심이다 — 중국 AI의 새로운 전략
이 모델의 가장 중요한 속성은 성능이 아니라 오픈소스라는 점입니다.
현재 최고 수준의 코딩 AI 에이전트는 대부분 API 형태로만 제공됩니다. Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro 모두 Anthropic·OpenAI·Google의 서버를 통해서만 쓸 수 있습니다. 이것은 두 가지를 의미합니다. 첫째, 비용이 계속 발생합니다. 둘째, 데이터가 해당 기업의 서버를 거칩니다.
MiMo-V2.5-Pro는 다릅니다. 허깅페이스에서 모델 가중치를 받아 자체 인프라에서 실행할 수 있습니다. 금융, 의료, 법률처럼 데이터 보안이 중요한 기업들에게 이것은 의미 있는 선택지입니다. API 비용 없이, 데이터를 외부로 보내지 않고, 원하는 방식으로 모델을 커스터마이징할 수 있습니다.
The Decoder의 분석이 이 맥락을 정확히 짚습니다. 중국 AI 오픈소스 경쟁은 “벤치마크 점수 경쟁이 아니라 얼마나 싸게, 얼마나 오랫동안 스스로 작업할 수 있느냐의 경쟁”이 됐습니다. MiMo-V2.5-Pro가 DeepSeek V4와 함께 이 경쟁에 합류했습니다.
MiMo-V2-Pro 이전 버전이 출시 직후 OpenRouter(AI 모델 API 통합 서비스) 사용량 순위 1위를 며칠간 유지했다는 사실도 주목할 만합니다. 당시 많은 사용자들이 처음에 새로운 DeepSeek 모델인 줄 알았습니다. 샤오미 AI 모델이 그만큼 시장의 주목을 받고 있다는 증거입니다.
한국 개발자와 기업에게 의미하는 것
실질적인 영향을 세 가지로 정리합니다.
코딩 에이전트 비용 절감 옵션이 생겼습니다. Claude Code나 GitHub Copilot Workspace를 팀 업무에 쓰는 비용이 부담스럽다면, MiMo-V2.5-Pro를 자체 서버에 올려 쓰는 것이 대안이 됩니다. 특히 이 대화에서 앞서 다룬 Claude Code 일일 비용 115% 인상 이슈와 연결해서 생각하면, 오픈소스 대안의 실용성이 더 높아집니다.
데이터 보안이 중요한 기업에게 선택지가 늘었습니다. 금융, 의료, 공공기관처럼 코드와 데이터를 외부 서버에 보낼 수 없는 환경에서 Claude Opus급 코딩 성능을 자체 인프라로 구현할 수 있는 가능성입니다.
단, 자체 운영 비용을 계산해야 합니다. MiMo-V2.5-Pro는 1.02조 파라미터 모델입니다. 자체 서버에서 실행하려면 상당한 GPU 자원이 필요합니다. 소규모 팀이 직접 돌리기보다 클라우드 GPU 임대 방식을 쓰는 것이 현실적이며, 이 비용이 Claude API 비용과 비교했을 때 실제로 유리한지를 계산해봐야 합니다.
중국 오픈소스 AI의 방향이 바뀌었다
DeepSeek이 2025년 초 저비용 고성능 오픈소스 모델로 업계를 충격에 빠뜨렸을 때, 많은 전문가들은 이것이 일시적 현상일 것이라 봤습니다. MiMo-V2.5-Pro는 그 방향이 일시적이지 않다는 것을 보여줍니다.
벤치마크 점수가 아닌 실제 작업 완수 능력, 시간 단위의 자율 작업 수행, 토큰 효율, 오픈소스 공개. 이 네 가지가 중국 AI 오픈소스의 새로운 경쟁 축이 됐습니다. 스마트폰 기업이 세계 최고 수준의 AI 코딩 에이전트를 오픈소스로 공개하는 것이 이제 일상이 됐습니다.
서방 AI 기업들은 더 강력한 폐쇄형 모델로 격차를 유지하려 합니다. 중국 오픈소스 생태계는 “충분히 좋은 성능을 무료로”라는 방향으로 시장을 잠식하고 있습니다. 이 두 전략이 충돌하는 지점에서 가장 이득을 보는 것은 선택지가 넓어진 사용자들입니다.
#샤오미MiMo #MiMoV25Pro #오픈소스AI #자율코딩 #ClaudeOpus대항 #중국AI #AI코딩에이전트 #토큰효율
함께 읽으면 좋은 글
딥시크 AGI 연구 우선 수익 후순위 전략 450억 달러 가치 투자 유치의 속내
딥시크가 약 450억 달러 기업가치로 100억 달러 투자 유치를 추진하며 AGI 연구를 수익보다 우선한다고 선언했습니다. 국가 펀드 참여와 오픈소스 지속 가능성에 관한 핵심 쟁점을 분석합니다.
뉴스저가 AI 확산이 OpenAI Anthropic IPO를 위협한다 오픈라우터 중국 모델 점유율 1에서 60으로
오픈라우터에서 중국 AI 모델 점유율이 1%에서 60%로 급등했다. 8000억 달러 기업가치를 내건 OpenAI와 Anthropic의 IPO가 저가 AI 확산이라는 구조적 위협에 직면한 이유를 분석한다.