학습 데이터 12분의 1로 알리바바를 이긴 검색 에이전트

AI코리아24 브리핑 바로가기

AI 검색 에이전트는 인터넷에서 정보를 자율적으로 검색하고, 여러 단계에 걸쳐 추론하며, 최종 답을 도출하는 시스템입니다. 지금까지 이 분야는 빅테크의 영역이었습니다. OpenAI, 구글, 알리바바가 훈련 데이터를 독점하고, 모델 가중치를 공개하는 프로젝트조차 데이터는 비공개로 유지했습니다. 상하이 교통대학 연구팀에 따르면, 이 데이터 독점이 오픈소스 연구 커뮤니티를 거의 1년간 가로막아 왔습니다.

OpenSeeker 는 이 독점을 깨기 위해 만들어졌습니다. 훈련 데이터(MIT 라이선스), 코드, 모델 가중치가 모두 공개되어 있습니다. 그리고 놀라운 것은 그 결과입니다. 단 11,700개의 훈련 데이터, 단 한 번의 훈련으로 알리바바의 Tongyi DeepResearch를 이겼습니다.

숫자가 말하는 것

가장 극적인 비교는 MiroThinker와의 대결입니다. MiroThinker는 147,000개의 훈련 데이터를 사용했지만 중국어 벤치마크 BrowseComp-ZH에서 13.8%를 기록했습니다. OpenSeeker는 그 12분의 1 에 해당하는 11,700개 데이터로 48.4%를 달성했습니다. 3.5배 높은 성능입니다.

알리바바의 Tongyi DeepResearch는 확장 사전 학습, 지도 학습 파인튜닝, 강화학습이라는 3단계 과정을 거쳤지만 BrowseComp-ZH에서 46.7%에 그쳤습니다. OpenSeeker는 강화학습 없이, 지도 학습 파인튜닝 한 번만으로 이를 넘었습니다.

영어 벤치마크 BrowseComp에서는 29.5%로, 기존 완전 오픈소스 에이전트 중 1위였던 DeepDive(15.3%)의 거의 두 배입니다. 다만 OpenAI의 GPT-5-High(54.9%)나 DeepSeek-V3.2(51.4%)와는 여전히 격차가 있습니다. 모델 크기와 훈련 자원의 차이를 감안해야 하지만, 최정상급 시스템을 완전히 대체하기에는 아직 이른 단계입니다.

데이터의 양이 아니라 질이 결정한다

OpenSeeker의 핵심 혁신은 모델 아키텍처가 아니라 훈련 데이터를 만드는 방법 에 있습니다. 두 가지 아이디어가 결합됩니다.

첫째, 질문 생성 방식입니다. 실제 웹의 링크 구조에서 출발합니다. 약 68GB의 영어, 9GB의 중국어 웹 코퍼스에서 무작위로 시드 페이지를 선택하고, 하이퍼링크를 따라가며 관련 페이지의 핵심 정보를 추출합니다. 그런 다음 구체적인 이름과 용어를 모호한 설명으로 바꿉니다. “애플의 CEO 팀 쿡”을 “세계 최대 시가총액 기술 기업의 현직 최고경영자”로 치환하는 식입니다. 이렇게 하면 에이전트가 단순 키워드 검색으로는 답을 찾을 수 없고, 진짜 다단계 검색과 추론을 해야 합니다.

2단계 필터도 적용됩니다. 강력한 기본 모델이 도구 없이는 답을 못 하지만, 전체 맥락을 주면 풀 수 있는 질문만 남깁니다. 어느 한쪽 조건이라도 실패하면 질문은 버려집니다. 이 과정을 통해 “너무 쉬운 질문”과 “풀 수 없는 질문”을 모두 걸러냅니다.

둘째, 검색 경로 학습 방식입니다. 웹 페이지에는 노이즈가 많아서 검색 과정의 기록을 그대로 학습에 쓰면 품질이 떨어집니다. OpenSeeker는 “교사-학생” 구조를 도입합니다. 교사 모델에게는 정제된 검색 결과 요약을 제공해서 질 높은 판단을 내리게 합니다. 학생 모델에게는 노이즈가 섞인 원본 데이터를 주되, 교사의 판단 수준을 재현하도록 훈련합니다. 학생이 스스로 신호와 노이즈를 분리하는 법을 배우는 구조입니다.

트랜지스터 모먼트의 실증 사례

트랜지스터 모먼트

OpenSeeker는 최근 IT조선에 실린 이승현 포티투마루 부사장의 칼럼이 말하는 “트랜지스터 모먼트”의 실증 사례입니다. 칼럼의 핵심 주장은 AI 산업이 “얼마나 큰 공장을 가졌는가”에서 “누가 더 정밀하게 지능을 조향하는가”로 전환하고 있다는 것입니다.

OpenSeeker가 보여준 것은 정확히 이 전환입니다. 알리바바는 3단계 훈련 과정에 막대한 연산 자원을 투입했고, MiroThinker는 147,000개 데이터를 쏟아부었습니다. OpenSeeker는 11,700개의 정교하게 설계된 데이터와 한 번의 훈련으로 둘 다 넘었습니다. 데이터의 규모가 아니라 데이터를 만드는 방법론이 차이를 만든 것입니다.

칼럼이 언급한 메타의 “13개 파라미터로 수학 추론 성능을 SOTA급으로 끌어올린” 연구와 같은 맥락입니다. 수십억 개의 파라미터를 갈아엎는 대신, 이미 내재된 능력을 정밀하게 조향하는 것이 더 효율적이라는 발견입니다.

오픈소스 투명성의 대조

OpenSeeker가 데이터, 코드, 모델 가중치를 모두 MIT 라이선스로 공개한 것은 최근 Cursor-Kimi 사건과 정반대의 사례입니다. Cursor는 293억 달러 기업이면서 중국 오픈소스 모델 Kimi를 베이스로 쓴 사실을 공개하지 않았다가 외부 유저에게 발각됐습니다.

OpenSeeker는 학술 연구팀이 만든 프로젝트이므로 기업과 직접 비교하기는 어렵지만, 오픈소스의 가치가 “코드를 공개하는 것”에 그치지 않고 “데이터와 방법론까지 투명하게 밝히는 것”에 있다는 원칙을 상기시킵니다. AI 검색 에이전트 분야에서 빅테크의 데이터 독점이 깨지기 시작한 것은, 모델 크기 경쟁에서 데이터 품질 경쟁으로의 전환을 알리는 신호일 수 있습니다.

#OpenSeeker #AI검색에이전트 #오픈소스 #데이터품질 #알리바바 #학습효율 #BrowseComp

학습 데이터 12분의 1로 알리바바를 이긴 검색 에이전트

숫자가 말하는 것

데이터의 양이 아니라 질이 결정한다

트랜지스터 모먼트의 실증 사례

오픈소스 투명성의 대조

함께 읽으면 좋은 글

알리바바가 66000명을 자르고 그 자리에 토큰을 채운 이유

AI 저가 시대의 종말 무제한 요금제가 사라지고 전기처럼 계량되는 시대가 온다