MS 코파일럿 멀티모델 전략 GPT가 쓰고 Claude가 검토하는 시대가 온 이유
마이크로소프트가 코파일럿에 OpenAI GPT와 Anthropic Claude를 동시 적용해 DRACO 벤치마크 13.8% 향상을 달성한 멀티모델 전략의 구조와 배경을 분석한다
마이크로소프트가 MS 365 코파일럿의 심층 연구 에이전트 리서처(Researcher) 에 새로운 기능을 추가했습니다. 크리틱(Critique) 이라는 이름입니다. OpenAI의 GPT 계열 모델이 답변 초안을 생성하면, Anthropic의 Claude가 이를 검토하고 보완합니다.
단일 AI 모델에 모든 것을 맡기던 시대가 끝나고 있다는 신호입니다. 생성과 평가를 분리하는 것만으로 DRACO 벤치마크(심층 연구 품질 평가 기준)에서 13.8% 향상이 나왔습니다. 그런데 이 기능의 진짜 의미는 기술 개선이 아닙니다. 코파일럿 유료 사용자 1,500만 명 과 전체 오피스 사용자 4억 5,000만 명 사이의 간극을 메우기 위한 전략입니다.
관련 브리핑과 뉴스 원문은 AI코리아24 4월 1일 브리핑에서 확인할 수 있습니다.
크리틱 기능의 작동 구조와 DRACO 벤치마크 결과
크리틱의 작동 방식은 단순합니다. 사용자가 리서처에 질문을 하면 GPT 계열 모델이 먼저 답변 초안을 생성합니다. Claude가 이 초안을 검토하고, 사실 관계의 오류나 논리적 허점을 지적합니다. GPT는 피드백을 반영해 답변을 수정합니다.
생성과 평가를 같은 모델이 하면 자기 오류를 자기가 발견해야 하는 구조적 한계가 있습니다. AI의 환각(Hallucination, 사실이 아닌 내용을 사실처럼 생성하는 현상) 문제가 쉽게 줄지 않는 이유 중 하나입니다. 크리틱은 이 문제를 모델 하나를 더 좋게 만드는 것이 아니라, 서로 다른 모델 두 개를 교차시키는 것 으로 풀었습니다.
결과는 DRACO 벤치마크에서 13.8% 향상입니다. 마이크로소프트는 앞으로 방향을 바꿔 Claude가 먼저 생성하고 GPT가 검토하는 역방향 구조도 추가할 예정입니다. 카운슬(Council) 이라는 별도 기능에서는 동일한 질문에 대해 여러 모델의 답변을 한 화면에 나란히 보여주고, 사용자가 직접 비교해 선택할 수 있게 합니다.
니콜 허스코위츠 마이크로소프트 부사장은 “여러 공급업체의 다양한 모델이 서로 연동하여 실제로 이점을 얻을 수 있도록 한 단계 더 나아가고 있다”고 밝혔습니다.
마이크로소프트가 지금 멀티모델로 전환한 이유

기술적 이유보다 사업적 이유가 더 큽니다. 현재 코파일럿 유료 사용자는 약 1,500만 명 입니다. 전체 오피스 사용자 4억 5,000만 명 의 3.3% 입니다. 코파일럿은 기존 오피스 365 구독에 사용자당 월 30달러 를 추가하는 방식으로 판매됩니다. 나머지 96.7% 를 설득하려면 품질이 올라가야 합니다.
단일 모델의 품질 향상에는 한계가 있습니다. 모델 크기를 키우면 비용이 올라가고, 파인튜닝을 하면 범용성이 줄어듭니다. 환각 문제는 모델 하나를 아무리 개선해도 구조적으로 완전히 제거할 수 없습니다. 멀티모델은 이 한계를 우회하는 방법입니다. 생성 능력이 뛰어난 모델과 비판 능력이 뛰어난 모델을 조합하면, 각각의 모델을 개선하는 것보다 빠르게 결과 품질을 올릴 수 있습니다.
마이크로소프트는 OpenAI에 130억 달러 를 투자했고, Anthropic에도 최대 50억 달러 를 투자하면서 동시에 파트너십을 맺고 있습니다. Anthropic은 마이크로소프트의 Azure 클라우드에서 300억 달러 규모의 컴퓨팅 용량을 구매하기로 약속했습니다. 경쟁하는 두 AI 기업에 모두 투자하고, 두 기업의 모델을 자사 제품에서 교차 활용하는 구조입니다. 양다리가 아니라, 양쪽을 자사 플랫폼 안에 가두는 전략입니다.
모델은 부품이 되고 오케스트레이션이 제품이 된다
이번 크리틱 기능이 시사하는 방향은 명확합니다. AI 모델 자체는 부품 이 되고, 여러 모델을 조합하고 배치하는 오케스트레이션(Orchestration, 여러 모델을 목적에 맞게 조율하고 연결하는 것)이 제품 이 됩니다.
이 구도에서 OpenAI나 Anthropic 같은 모델 제조사는 마이크로소프트 플랫폼의 공급자가 됩니다. 모델이 좋을수록 코파일럿의 품질이 올라가지만, 최종 고객 관계와 결제는 마이크로소프트가 가져갑니다. OpenAI가 스스로를 “AI 슈퍼앱”이라고 선언한 것과 정반대의 접근입니다. OpenAI는 자기 플랫폼에 고객을 모으려 하고, 마이크로소프트는 오피스라는 기존 플랫폼 안에 여러 AI를 끌어들이려 합니다.
한국의 기업과 개발자에게 이 변화는 실용적 의미가 있습니다. 코파일럿이 멀티모델로 전환되면서 “어떤 AI 모델을 쓸 것인가”라는 선택이 최종 사용자의 몫이 아니라 플랫폼의 몫이 됩니다. 기업 입장에서는 개별 AI 서비스를 직접 비교하고 도입하는 것보다, 이미 쓰고 있는 오피스 안에서 AI 기능을 확장하는 것이 훨씬 간편합니다. 이것이 마이크로소프트가 노리는 전환 경로입니다.
현재 크리틱과 카운슬은 프론티어(Frontier) 프로그램 을 통해 일부 기업 고객에게만 제공되고 있습니다. 전면 확대 일정은 아직 공개되지 않았습니다. 그러나 방향은 분명합니다. 단일 모델 시대는 끝나고 있고, 여러 모델을 어떻게 조합하느냐가 AI 제품의 경쟁력을 결정하는 시대가 시작됐습니다.
#MS코파일럿 #멀티모델 #GPT #Claude #Anthropic #마이크로소프트 #DRACO #AI오케스트레이션
함께 읽으면 좋은 글
Claude Mythos 공개 불가 선언 AI가 27년된 보안 취약점을 찾아내다 Project Glasswing 분석
Anthropic이 신모델 Claude Mythos를 일반 공개하지 않기로 했다. 27년된 버그를 찾아내고 스스로 익스플로잇을 만든 AI, 이것이 왜 게임체인저인지 분석한다.
뉴스AI 제왕의 민낯 샘 알트먼 소시오패스 논란과 영국이 Anthropic에 프로포즈한 이유
뉴요커 100명 인터뷰로 드러난 샘 알트먼의 민낯과 영국 정부의 Anthropic 영입 시도 윤리가 AI 산업의 새로운 경쟁력으로 부상하고 있다