스마트폰 회사가 Claude에 도전장을 내밀었다

2026년 3월 23일 (월) AI 브리핑 - AI코리아24

2026년 3월 19일, 샤오미가 AI 모델 3종을 동시에 공개했습니다. 코딩과 에이전트에 특화된 MiMo-V2-Pro, 이미지·비디오·오디오를 하나의 모델로 처리하는 MiMo-V2-Omni, 자연어로 감정을 지시할 수 있는 음성합성 모델 MiMo-V2-TTS입니다. 스마트폰과 가전을 만드는 회사가 프론티어급 AI 모델 3개를 한꺼번에 내놓은 것은 이례적이지만, 더 놀라운 것은 그 성능과 가격입니다.

MiMo-V2-Pro는 코딩 벤치마크 SWE-bench Verified에서 78%를 기록했습니다. Claude Opus 4.6이 80.8%, Claude Sonnet 4.6이 79.6%이니 거의 동급입니다. 에이전트 벤치마크 ClawEval에서는 81점으로 Claude Opus 4.6의 81.5점에 0.5점 차이입니다. 가격은 입력 100만 토큰당 1달러, 출력 3달러. Claude Sonnet 4.6(3/15달러)의 3분의 1에서 5분의 1 수준입니다.

Hunter Alpha의 정체

공식 발표 전 흥미로운 일이 벌어졌습니다. MiMo-V2-Pro는 API 플랫폼 OpenRouter에 “Hunter Alpha”라는 익명의 모델로 등록되었습니다. 개발자들은 정체를 모른 채 이 모델을 사용했고, 며칠간 일간 랭킹 1위를 유지하며 총 1조 토큰 이상이 소비됐습니다. 가장 인기 있는 용도는 코딩이었습니다.

많은 사용자가 Hunter Alpha를 DeepSeek V4로 추측했습니다. 하지만 DeepSeek의 차기 모델은 규모 확대로 출시가 지연되고 있었고, 정체는 샤오미였습니다. 이 전략은 영리합니다. 브랜드 편향 없이 순수하게 성능만으로 평가받은 뒤, “그 모델이 사실 우리 것이었다”고 밝히는 것은 어떤 벤치마크 수치보다 강력한 마케팅입니다.

세 모델이 그리는 하나의 그림

샤오미가 3종을 동시에 출시한 것은 우연이 아닙니다. 세 모델은 하나의 AI 에이전트 플랫폼을 구성하는 부품들입니다.

MiMo-V2-Pro는 에이전트의 “사고”를 담당합니다. 1조 개 이상의 파라미터 중 요청당 420억 개가 활성화되는 MoE(Mixture-of-Experts) 아키텍처이며, 최대 100만 토큰의 컨텍스트 윈도를 처리합니다. 한 번에 여러 토큰을 동시 생성하는 방식으로 속도를 높였습니다.

MiMo-V2-Omni는 에이전트의 “감각”입니다. 이미지, 비디오, 오디오 인코더를 하나의 백본에 통합하고, 도구 호출과 UI 조작을 네이티브로 지원합니다. 데모에서는 블랙박스 영상을 실시간 분석해 보행자와 위험 요소를 식별하고, 별도 시나리오에서는 브라우저를 자율적으로 열어 샤오홍슈에서 상품 리뷰를 검색한 뒤 JD.com에서 가격을 비교하고, 고객센터와 채팅으로 할인 협상까지 수행한 뒤 결제를 완료했습니다. 이 전체 과정에 사람의 개입이 없었습니다.

MiMo-V2-TTS는 에이전트의 “목소리”입니다. 1억 시간 이상의 음성 데이터로 훈련되었으며, “졸린, 방금 일어난, 약간 쉰 목소리”나 “화가 났지만 참으려는 톤”처럼 자연어로 감정을 지시할 수 있습니다. 기침, 한숨, 웃음 같은 부언어적 소리를 음성 클립을 이어 붙이는 방식이 아니라 모델이 직접 생성합니다. 음성과 노래를 하나의 모델에서 처리하는 유일한 상용 TTS API라고 샤오미는 주장합니다.

세 모델을 조합하면, “보고, 듣고, 생각하고, 말하고, 행동하는” 에이전트가 됩니다. 샤오미 MiMo 팀은 이렇게 썼습니다. “텍스트만 읽는 모델은 도서관에 산다. 보고, 듣고, 추론하고, 행동하는 모델은 세상에 산다.”

가격이 전략이다

성능에서 Claude와 거의 동급이면서 가격이 5분의 1이라는 것은 기술적 성취가 아니라 사업 전략입니다. 샤오미의 목표는 모델 자체로 돈을 버는 것이 아니라, 개발자 생태계를 빠르게 확보하는 것입니다.

이미 OpenClaw, OpenCode, KiloCode, Blackbox, Cline 등 5개 주요 에이전트 프레임워크와 파트너십을 맺었고, 출시 첫 주에는 전 세계 개발자에게 무료 API 접근을 제공합니다. 캐시 쓰기 비용도 현재 면제 중입니다. 이 전략은 알리바바가 2024년 Qwen 모델로 개발자를 끌어모은 뒤 클라우드 매출로 수확한 패턴과 유사합니다.

샤오미에게 AI 모델은 그 자체로 수익원이 아니라, 14억 대가 넘는 자사 디바이스 생태계(스마트폰, IoT, 전기차 SU7)에 AI 에이전트를 내장하기 위한 인프라입니다. 디바이스에서 발생하는 데이터가 모델을 훈련시키고, 훈련된 모델이 디바이스의 가치를 높이는 플라이휠 구조입니다.

중국 AI 모델 전쟁의 현재

샤오미의 등장은 중국 AI 시장의 경쟁 강도를 보여줍니다. Zhipu AI는 최근 744억 파라미터의 오픈소스 모델 GLM-5를 출시해 Claude Opus 4.5 및 GPT-5.2와 경쟁하고 있고, 문샷AI의 Kimi K2.5는 에이전트 군단을 병렬로 운영하는 접근을 취하고 있으며, 알리바바는 Qwen 3.5 라인업을 확장 중입니다. DeepSeek V4는 모델 규모 확대로 출시가 지연되고 있습니다.

한국 관점에서 주목할 점은 삼성과의 대조입니다. 삼성은 자체 AI 모델 가우스를 온디바이스(기기 내 구동)에 한정하고 있고, 클라우드 기반 범용 모델 경쟁에는 뛰어들지 않고 있습니다. 반면 같은 스마트폰 제조사인 샤오미는 프론티어급 모델 3종을 상용 API로 열고, 에이전트 프레임워크 파트너십까지 맺으며 플랫폼 전쟁에 정면으로 뛰어들었습니다. 동일한 하드웨어 기업이 AI에 대해 완전히 다른 전략적 판단을 내린 셈입니다.

#샤오미 #MiMo #HunterAlpha #AI에이전트 #Claude #가격전쟁 #중국AI #오픈소스

스마트폰 회사가 Claude에 도전장을 내밀었다

Hunter Alpha의 정체

세 모델이 그리는 하나의 그림

가격이 전략이다

중국 AI 모델 전쟁의 현재

함께 읽으면 좋은 글

중국의 랍스터 열풍 오픈클로가 남긴 진짜 교훈

Anthropic OpenClaw 창시자 계정 정지 사건 AI 플랫폼 오픈소스 생태계 갈등의 전말