뉴스

마이크로소프트 Fara1.5 브라우저 에이전트 공개 OpenAI 구글 성능 추월 완전 분석

MS가 공개한 AI 브라우저 에이전트 Fara1.5가 OpenAI Operator와 구글 Gemini를 벤치마크에서 앞질렀습니다. 브라우저 자동화 AI 시대의 시작을 알리는 이 모델의 구조와 의미를 분석합니다.

#Fara1.5 #마이크로소프트 #브라우저에이전트 #OpenAIOperator #CUA #AI자동화 #MagenticLite
마이크로소프트 Fara1.5 브라우저 에이전트 공개 OpenAI 구글 성능 추월 완전 분석

마이크로소프트(MS)가 웹 브라우저를 직접 조작하는 AI 에이전트 모델 Fara1.5를 공개했습니다. 이 모델은 사용자 대신 상품 비교, 양식 작성, 일정 예약, 이메일 처리 같은 온라인 작업을 자율적으로 수행합니다. 그리고 주요 벤치마크에서 OpenAI의 Operator(58.3%)와 구글의 Gemini 2.5 Computer Use(57.3%)를 제치고 72%의 작업 성공률을 기록했습니다.

단순히 성능 경쟁에서 이긴 것 이상의 의미가 있습니다. MS가 이 모델을 오픈소스로 공개하고 소형 모델까지 포함한 라인업을 선보인 것은 브라우저 자동화 AI 시장 전체의 저변을 넓히려는 전략입니다. 이것이 실제로 무엇을 뜻하는지, 어떻게 작동하는지 풀어봅니다.

기사원문 보기: 2026년 5월 25일 (월) AI 브리핑 - AI코리아24

Fara1.5의 작동 방식 화면을 보고 판단하고 실행한다

Fara1.5는 ‘픽셀 투 액션(pixel-to-action)’ 방식으로 작동합니다. 브라우저 화면을 스크린샷 형태로 인식한 뒤, 마우스 클릭과 키보드 입력을 생성해 실제 웹사이트를 조작합니다. 사람이 눈으로 보고 손으로 클릭하는 방식과 동일합니다.

내부 구조는 관찰-사고-행동(observe-think-act) 루프입니다. 이전 대화 기록과 최근 3장의 브라우저 화면 이미지를 입력받아 현재 상황을 판단하고, 다음 행동 하나를 예측해 실행합니다. 단순 클릭을 넘어 메타 액션 기능도 갖추고 있습니다. 중요한 정보를 기억하거나, 필요한 개인정보가 없으면 사용자에게 질문하고, 되돌릴 수 없는 작업 전에는 반드시 사용자 승인을 요청합니다.

벤치마크 성능과 모델 라인업

Fara1.5는 4B, 9B, 27B 세 가지 크기로 공개됐습니다. B는 억(Billion)을 뜻하며 모델 파라미터(매개변수, 모델의 학습된 지식이 저장되는 숫자들의 집합) 수를 나타냅니다. 숫자가 클수록 일반적으로 성능이 높고 구동에 필요한 자원도 많습니다.

최상위 모델 Fara1.5-27B는 웹 에이전트 벤치마크 ‘Online-Mind2Web’에서 72% 성공률을 기록했습니다. 중간 모델 Fara1.5-9B도 63.4%로 이전 세대 Fara-7B(34.1%)에 비해 2배 가까이 향상됐습니다. 웹 브라우징 평가인 WebVoyager에서는 27B 모델이 88.6%를 기록하며 동급 오픈 모델 1위에 올랐습니다.

기반 모델로는 알리바바의 오픈소스 모델 Qwen3.5를 활용했습니다. 미국 기업이 중국 오픈소스 모델을 토대로 경쟁력 있는 에이전트를 만든 것은 그 자체로 AI 오픈소스 생태계의 복잡한 현실을 보여줍니다.

OpenAI Operator와 구글 Gemini와의 비교

현재 브라우저 에이전트 시장의 주요 플레이어는 OpenAI의 Operator, 구글의 Gemini 2.5 Computer Use, 그리고 이번에 등장한 MS의 Fara1.5입니다. 벤치마크 기준으로 Fara1.5-27B(72%) > 경쟁사 Utori Navigator n1(64.7%) > Fara1.5-9B(63.4%) > OpenAI Operator(58.3%) > 구글 Gemini 2.5 CU(57.3%) 순입니다.

중요한 차이점은 공개 범위입니다. OpenAI와 구글의 에이전트는 폐쇄형 서비스로 제공되지만, MS는 모델 가중치(모델의 학습 결과물로 외부에서 직접 실행 가능한 파일)를 공개했습니다. Fara1.5-9B는 이미 MS의 AI 플랫폼 Foundry에서 사용 가능하며, 4B와 27B도 순차 공개 예정입니다. 개발자들이 자체 서버에서 직접 구동할 수 있다는 점에서 활용 범위가 훨씬 넓습니다.

한국 개발자와 기업에 미치는 영향

국내 기업들 중 반복적인 웹 기반 업무를 처리하는 곳이라면 Fara1.5의 등장을 주목해야 합니다. RPA(Robotic Process Automation, 사람이 하던 반복 업무를 소프트웨어 로봇이 자동화하는 기술) 솔루션을 사용하던 기업들은 AI 기반 브라우저 에이전트가 더 유연한 대안이 될 수 있습니다. 기존 RPA는 화면 변경 시 스크립트를 재작성해야 하지만, AI 에이전트는 화면 변화에 스스로 적응합니다.

한국어 지원 수준은 아직 확인이 필요합니다. Qwen3.5 기반이라 한국어 처리 능력이 있을 것으로 예상되지만, 실제 국내 웹사이트에서의 성능은 별도 테스트가 필요합니다.

지금 주목해야 할 포인트

MS가 이 모델을 오픈소스로 공개한 전략적 의도는 명확합니다. 브라우저 에이전트 시장의 표준을 자사 생태계인 MagenticLite와 Azure Foundry 중심으로 형성하겠다는 것입니다. 성능이 좋은 오픈소스 모델이 배포될수록 그것을 실행하는 인프라로서 Azure의 수요도 커집니다.

앞으로의 관전 포인트는 데스크톱 애플리케이션과 기업용 소프트웨어로의 확장입니다. MS는 브라우저를 넘어 터미널 제어와 스크립트 실행까지 지원하는 방향으로 발전시킬 계획을 밝혔습니다. 이것이 실현된다면 AI 에이전트는 단순 웹 조작을 넘어 기업 내 IT 운영 전반을 자동화하는 도구로 진화할 수 있습니다.

MS의 Fara1.5는 브라우저 에이전트 경쟁에서 의미 있는 성과를 거뒀습니다. 그러나 더 중요한 것은 이 기술이 ‘언제 실무에서 안정적으로 쓸 수 있는가’입니다. 벤치마크 72%는 여전히 10번 중 3번은 실패한다는 의미이기도 합니다. 일상적인 업무 자동화 도구로 자리 잡으려면 안정성과 신뢰성이 성능 수치 이상으로 중요합니다. 이 기술을 지금 당장 업무에 적용하기보다는, 파일럿 테스트를 통해 실제 성능을 검증하는 접근이 현실적입니다.

#마이크로소프트 #Fara1.5 #브라우저에이전트 #AI자동화 #OpenAIOperator #CUA #AI에이전트

함께 읽으면 좋은 글

📋 CertKorea

2026년 국가자격증 시험일정을 한눈에 확인하세요. 613개 자격증의 필기·실기 D-day 카운트다운.

자격증 시험일정 확인하기 →
📊 한국인 AI 페르소나

나와 비슷한 한국인은 어떻게 살까? 나이·성별·지역만 입력하면 주거·직업·소득을 통계로 분석해드려요.

내 페르소나 분석하기 →
← 블로그 목록으로
링크가 복사되었습니다!