박사 과정생이 AI 산업의 심판이 됐다 Arena 리더보드와 나노 바나나 이야기
UC 버클리 연구 프로젝트에서 시작해 7개월 만에 기업가치 2.3조 원을 달성한 Arena. AI 모델의 순위를 매기는 심판이 된 이 플랫폼의 구조와 이해충돌, 그리고 나노 바나나의 탄생까지 분석합니다.
AI코리아24 브리핑: https://aikorea24.kr/briefing/2026-03-19/#item-1
한 줄 요약
UC 버클리 박사 과정생 두 명이 만든 AI 모델 블라인드 테스트 사이트가 7개월 만에 기업가치 17억 달러(약 2.3조 원) 짜리 스타트업이 됐습니다. 문제는, 이 심판에게 돈을 주는 사람이 바로 심판을 받는 선수라는 것입니다.
1. Arena는 무엇인가
AI 모델이 쏟아지는 시대에, “어떤 모델이 가장 좋은가”를 결정하는 일은 생각보다 어렵습니다. 기업마다 자체 벤치마크를 발표하지만, 누구도 자기 성적표를 낮게 매기지 않습니다. 여기서 등장한 것이 Arena(구 LM Arena, 그 이전엔 Chatbot Arena) 입니다.
작동 방식은 단순합니다. 사용자가 프롬프트를 입력하면, 이름을 가린 두 개의 AI 모델이 각각 답변합니다. 사용자는 더 나은 답변에 투표하고, 그 뒤에야 모델의 정체가 공개됩니다. 이른바 블라인드 테스트 입니다. 와인 시음회에서 라벨을 가리고 맛을 평가하는 것과 같습니다. GPT든 Gemini든 Claude든, 이름값 없이 순수한 성능으로만 경쟁해야 합니다.
이 단순한 구조가 강력한 이유는 규모에 있습니다. 현재 Arena는 월간 500만 명 이상 의 사용자가 참여하고, 150개국 에서 매달 6,000만 건 의 대화가 이뤄지며, 누적 5,000만 건 의 투표가 쌓여 있습니다. 이 데이터는 텍스트, 이미지 생성, 웹 개발, 비전, 검색, 영상 등 다양한 영역의 리더보드를 만듭니다.
2. 나노 바나나, 이름 하나가 업계를 뒤흔든 사건
Arena의 파괴력을 가장 극적으로 보여준 사건은 “나노 바나나(Nano Banana)” 입니다.
2025년 8월 12일, Arena의 이미지 생성 리더보드에 정체불명의 모델이 하나 등록됐습니다. 이름은 “nano-banana”. 아무도 이 모델의 정체를 몰랐습니다. 그런데 이 모델이 GPT, DALL-E, Midjourney를 제치고 Arena 이미지 리더보드 역사상 가장 많은 투표를 받은 모델 이 됐습니다. 이름도 모르는 모델이 업계 최강자를 꺾은 것입니다.
뒤에 밝혀진 정체는 구글 DeepMind의 Gemini 2.5 Flash Image 모델이었습니다. 그럼 왜 “나노 바나나”라는 이름이 붙었을까요?
구글의 프로덕트 매니저 나이나 라이싱하니(Naina Raisinghani) 가 새벽 2시 30분에 혼자 모델을 Arena에 올려야 했는데, 주변에 아무도 없어서 임시 코드네임을 즉석에서 만들었습니다. 친구들이 그녀를 부르는 별명 두 개, “Naina Banana”(나이나 바나나)와 “Nano”(키가 작아서)를 합쳐서 “Nano Banana”를 만든 것입니다. 이 장난스러운 이름이 인터넷에서 바이럴을 일으켰고, 구글 CEO 순다르 피차이가 바나나 이모지로 화답하면서 결국 공식 브랜드명 으로 채택됐습니다.
이 에피소드가 중요한 이유는, Arena의 블라인드 테스트가 실제로 작동한다는 것을 증명 했기 때문입니다. 구글이라는 이름이 아니라 순수한 성능만으로 1등을 차지했습니다. 사용자들은 브랜드를 보지 못한 채 “이게 더 낫다”고 투표했고, 그 결과가 업계 전체의 판도를 바꿨습니다. 나노 바나나는 이후 “Nano Banana Pro”, “Nano Banana 2”로 진화하며 구글의 이미지 AI 전략의 핵심 브랜드가 됐습니다.
3. 7개월 만에 2.3조 원, 박사 프로젝트에서 유니콘으로
Arena의 성장 속도는 AI 시대의 특성을 보여주는 상징적 사례입니다.
2023년, UC 버클리의 박사 과정생 아나스타시오스 안젤로폴로스(Anastasios Angelopoulos) 와 웨이린 치앙(Wei-Lin Chiang) 이 연구 프로젝트로 “Chatbot Arena”를 시작했습니다. 보조금과 기부금으로 운영하던 사이드 프로젝트였습니다. 그런데 AI 기업들이 자사 모델의 Arena 순위를 마케팅에 인용하기 시작하면서 상황이 달라졌습니다.
2025년 5월, 시드 라운드에서 1억 달러 를 조달하며 기업가치 6억 달러 를 기록했습니다. 불과 7개월 뒤인 2026년 1월, 시리즈 A에서 1억 5,000만 달러 를 추가로 유치하며 기업가치는 17억 달러(약 2.3조 원) 로 뛰었습니다. 총 조달 금액은 2억 5,000만 달러 입니다. 투자자 명단에는 Felicis, UC Investments, Andreessen Horowitz(a16z), Kleiner Perkins, Lightspeed Venture Partners 등 실리콘밸리 최정상 VC들이 이름을 올렸습니다.
수익 모델도 빠르게 잡혔습니다. 2025년 9월에 기업용 AI 평가 서비스 “AI Evaluations” 를 출시했고, 출시 4개월 만에 연간 환산 매출(ARR) 3,000만 달러 를 돌파했습니다. AI 기업과 엔터프라이즈가 자사에 맞는 모델을 Arena 커뮤니티를 통해 평가받는 유료 서비스입니다.
4. 심판에게 돈을 주는 선수들, 이해충돌 문제

여기서 구조적 문제가 드러납니다.
Arena가 순위를 매기는 대상은 OpenAI, 구글, Anthropic의 모델입니다. 그런데 이 회사들은 Arena의 파트너이자 고객 이기도 합니다. 자사 플래그십 모델을 Arena에 제공하고, 기업용 평가 서비스를 구매하며, 일부는 투자사의 포트폴리오에 겹치기도 합니다. 심판에게 돈을 주는 선수인 셈입니다.
2025년 4월에는 경쟁사들이 논문을 발표해, Arena가 특정 AI 기업의 모델이 유리하도록 벤치마크를 조작하는 데 도움을 줬다고 주장했습니다. Arena 측은 이를 강하게 부인했지만, 의혹의 그림자는 남았습니다.
TechCrunch의 Equity 팟캐스트에서 공동 창업자들은 “구조적 중립성(structural neutrality)” 이라는 개념을 들어 반박했습니다. 블라인드 테스트라는 설계 자체가 조작을 어렵게 만든다는 것입니다. 모델 이름이 가려져 있으므로, 특정 모델에 유리하게 투표를 유도할 방법이 없다는 논리입니다.
이 주장에 일리가 있는 것은 사실입니다. 나노 바나나 사례가 그 증거이기도 합니다. 구글이라는 이름 없이도 1등을 한 것은 블라인드 테스트가 작동한다는 뜻입니다. 하지만 리더보드에 어떤 모델을 올리고 어떤 모델을 빼느냐 , 평가 항목을 어떻게 설계하느냐 는 여전히 Arena의 재량입니다. 블라인드 테스트가 투표 단계의 공정성을 보장하더라도, 게임의 규칙 자체를 설계하는 권한은 Arena에 있습니다. 이것은 근본적으로 다른 차원의 문제입니다.
5. Arena가 바꾸는 것들, 챗봇을 넘어 에이전트로
Arena의 확장 방향도 주목할 필요가 있습니다.
초기에는 단순한 텍스트 챗봇 비교에서 시작했지만, 현재는 이미지 생성, 웹 개발, 비전(이미지 이해), 코딩, 검색, 영상 편집까지 평가 영역을 넓히고 있습니다. 그리고 다음 단계는 AI 에이전트 평가 입니다.
TechCrunch 팟캐스트에서 창업자들은 “다음 리더보드의 대상은 에이전트”라고 밝혔습니다. 에이전트란 단순히 질문에 답하는 AI가 아니라, 실제로 업무를 수행하는 AI입니다. 코드를 작성하고, 이메일을 보내고, 예약을 잡고, 쇼핑을 대신하는 AI를 의미합니다. 이런 에이전트의 성능을 어떻게 비교하고 평가할 것인지가 Arena의 다음 과제입니다.
전문 영역 리더보드도 흥미롭습니다. 법률과 의료 분야의 전문가 리더보드(Arena Expert)에서는 현재 Anthropic의 Claude가 선두 를 달리고 있습니다. 전체 텍스트 리더보드에서도 2026년 3월 기준 Claude Opus 4.6(thinking 모드) 이 1위를 기록 중입니다. 이는 범용 성능과 전문 영역 성능이 반드시 일치하지 않으며, 기업이 AI를 선택할 때 “우리 업무에 맞는 모델”을 찾아야 한다는 시사점을 줍니다.
6. 왜 이 뉴스가 중요한가, AI 산업의 권력 이동
Arena의 부상은 단순한 스타트업 성공 스토리가 아닙니다. AI 산업에서 “누가 평가하느냐”가 곧 권력 이라는 것을 보여줍니다.
과거의 벤치마크는 학계가 만들었습니다. MMLU, HumanEval, GSM8K 같은 정적 테스트 세트로 모델을 평가했습니다. 문제는 AI 기업들이 이 테스트를 알고 있으니, 테스트에 최적화된 모델을 만드는 “시험공부” 현상이 벌어졌다는 것입니다. 실전 성능과 벤치마크 점수가 괴리되기 시작했습니다.
Arena는 이 문제를 크라우드소싱 블라인드 테스트 로 해결하려 했고, 실제로 업계에서 가장 신뢰받는 리더보드가 됐습니다. AI 기업들은 신모델 출시 시 Arena 순위를 마케팅에 적극 활용하고, 투자자들은 Arena 순위를 참고해 투자 결정을 내립니다. 리더보드 하나가 자금 흐름, 제품 출시 일정, 기업 홍보 전략 을 좌우하는 시대가 된 것입니다.
이것은 구글이 검색 시장을 지배하던 것과 구조적으로 유사합니다. 구글 검색 순위가 기업의 매출을 좌우하듯, Arena 순위가 AI 기업의 평판과 자금을 좌우합니다. 차이점은 구글은 기업가치가 2조 달러에 달하는 거대 기업이고, Arena는 박사 과정생 두 명이 만든 3년 차 프로젝트라는 것입니다.
7. 시사점
한국 AI 기업과 개발자에게 Arena의 부상은 세 가지 측면에서 중요합니다.
첫째, 모델 선택의 기준 이 바뀌고 있습니다. “GPT니까”, “구글이니까”가 아니라, 블라인드 테스트에서 어떤 성능을 보이느냐가 기준이 됩니다. 국내 기업이 AI를 도입할 때, 브랜드가 아닌 실무 태스크별 성능을 기준으로 선택하는 문화가 필요합니다.
둘째, 한국어 벤치마크의 부재 가 문제입니다. Arena의 사용자 대부분은 영어권이고, 리더보드도 영어 중심입니다. 한국어 법률 문서, 의료 기록, 고객 응대에서 어떤 모델이 가장 뛰어난지는 Arena에서 알 수 없습니다. 한국어 특화 평가 체계의 필요성이 더욱 커집니다.
셋째, 평가 플랫폼 자체가 사업 이 된다는 점입니다. Arena가 7개월 만에 유니콘이 된 것은, AI 생태계에서 “신뢰할 수 있는 평가”가 얼마나 희소한 자원인지를 보여줍니다. 한국에서도 특정 산업(금융, 의료, 법률)에 특화된 AI 평가 서비스는 사업 기회가 될 수 있습니다.
AI코리아24 인사이트
Arena의 이야기는 결국 하나의 질문으로 수렴합니다. “AI를 평가하는 자가 AI 산업을 지배한다.” 평가 기준을 만드는 사람이 시장의 방향을 결정하고, 자금의 흐름을 움직이고, 기술의 우선순위를 정합니다.
지금 AI 산업에서는 모델을 만드는 경쟁만큼이나, 모델을 평가하는 인프라 를 누가 장악하느냐의 경쟁이 벌어지고 있습니다. Arena가 그 중심에 서 있지만, 심판의 자격을 계속 유지하려면 중립성이라는 줄타기를 한 번도 실패하지 않아야 합니다. 한 번의 편향 논란이면 17억 달러의 가치가 무너질 수 있습니다.
그리고 작은 여담. 새벽 2시 30분에 즉흥적으로 지은 이름 하나가 구글의 공식 브랜드가 되고, AI 업계의 가장 유명한 코드네임이 됐습니다. AI 시대에서 가장 중요한 것은 거창한 전략이 아니라, 때로는 성능 그 자체라는 사실을 나노 바나나가 증명했습니다.
참고 자료#Arena #LMArena #AI벤치마크 #나노바나나 #NanoBanana #AI리더보드 #블라인드테스트 #AI평가 #유니콘스타트업 #OpenAI #Google #Anthropic