Nanbeige4.1 3B 설치부터 활용까지 Ollama로 시작하는 초소형 AI

Ollama 커뮤니티 모델 (fauxpaslife/nanbeige4.1)

2026년 2월, 중국 채용 플랫폼 BOSS Zhipin(Kanzhun) 산하의 Nanbeige LLM Lab이 Nanbeige4.1-3B 모델을 공개했습니다. 이름에서 알 수 있듯 파라미터 수가 겨우 30억(3B)에 불과한 초소형 모델이지만, 발표 직후 AI 커뮤니티에서는 “이게 정말 3B 모델이 맞는가”라는 반응이 쏟아졌습니다. Arena-Hard-v2에서 73.2점을 기록하며 Qwen3-32B(56.0점)를 크게 앞질렀고, 코딩 벤치마크인 LiveCodeBench-Pro-Easy에서는 81.4점으로 10배 이상 큰 모델들을 압도했기 때문입니다.

더 놀라운 것은 이 모델을 여러분의 맥북이나 일반 데스크톱에서 바로 돌릴 수 있다는 사실입니다. Ollama를 통해 터미널 명령어 한 줄이면 설치와 실행이 완료됩니다. 이 글에서는 Nanbeige4.1-3B가 어떤 모델인지, 어떻게 설치하고 사용하는지, 그리고 실제로 어떤 곳에 활용할 수 있는지 상세히 살펴보겠습니다.

Nanbeige4.1-3B는 어떤 모델인가

Nanbeige4.1-3B는 Nanbeige LLM Lab에서 개발한 오픈소스 언어 모델입니다. 남북阁(남북각, 영문 Nanbeige)이라는 이름의 이 연구팀은 중국 최대 온라인 채용 플랫폼인 BOSS Zhipin을 운영하는 Kanzhun Limited 소속입니다. 이전 버전인 Nanbeige4-3B-Base 위에 SFT(Supervised Fine-Tuning)와 RL(Reinforcement Learning)을 추가로 적용하여 만들어졌으며, 23조(23T) 토큰의 고품질 데이터로 사전 학습된 기반 모델의 잠재력을 극한까지 끌어올린 것이 특징입니다.

이 모델이 주목받는 이유는 크게 세 가지입니다. 첫째, 추론 능력 입니다. AIME 2026 I(수학 올림피아드 벤치마크)에서 87.40점을 기록하며, 같은 크기의 Qwen3-4B(81.46점)는 물론 Qwen3-32B(75.83점)까지 넘어섰습니다. 둘째, 선호도 정렬(Alignment) 성능입니다. Arena-Hard-v2에서 73.2점, Multi-Challenge에서 52.21점을 달성하여, 파라미터 수가 10배 이상인 대형 모델들과 대등하거나 더 나은 결과를 보여주었습니다. 셋째, 에이전트 역량 입니다. 500라운드 이상의 도구 호출을 안정적으로 수행할 수 있는 최초의 소형 범용 모델로, 딥서치(Deep Search) 작업까지 네이티브로 지원합니다.

벤치마크로 보는 압도적 성능

Nanbeige4.1-3B의 벤치마크 결과는 기존 소형 모델에 대한 인식을 완전히 바꿔놓았습니다. 구체적인 수치를 분야별로 살펴보면 그 격차가 더욱 선명합니다.

코딩 분야 에서 LiveCodeBench-V6 점수는 76.9점으로, Qwen3-4B(57.4점)와 Qwen3-32B(55.7점)를 모두 크게 앞섰습니다. 실제 LeetCode 위클리 콘테스트 484부터 488까지의 문제를 제출한 결과에서도 85.0%의 통과율을 기록하며, Qwen3-4B(55.0%)와 Qwen3-32B(50.0%)를 압도했습니다. LiveCodeBench-Pro-Medium에서는 28.1점으로, 다른 모델들이 1.8점에서 5.3점에 머무는 것과 비교하면 차원이 다른 수준입니다.

수학 분야 에서는 AIME 2026 I에서 87.40점, HMMT Nov에서 77.92점을 달성했습니다. 이는 Qwen3-30B-A3B(87.30점, 71.25점)와 맞먹는 수치입니다. 과학 분야 의 GPQA 벤치마크에서는 83.8점을 기록하며, Qwen3-32B(68.4점)를 15점 이상 앞섰고, 최고 난이도 벤치마크인 HLE(Text-only)에서도 12.60점으로 모든 비교 대상 모델을 넘어섰습니다.

딥서치 벤치마크 는 더욱 인상적입니다. 기존 소형 범용 모델들이 딥서치 작업에서 거의 성과를 내지 못하던 것과 달리, Nanbeige4.1-3B는 xBench-DeepSearch-2505에서 75점을 기록하며 8B 규모의 전문 검색 에이전트(MiroThinker-v1.0-8B, 61점)를 넘어섰습니다. GAIA 벤치마크에서도 69.90점을 달성하여, 소형 모델과 대형 모델 사이의 경계를 사실상 허물었습니다.

Ollama로 설치하는 방법

Nanbeige4.1-3B를 로컬 환경에서 사용하는 가장 간편한 방법은 Ollama 를 이용하는 것입니다. 현재 Ollama 공식 라이브러리에는 아직 등록되지 않았지만 커뮤니티 사용자가 업로드한 버전을 통해 바로 사용할 수 있습니다.

커뮤니티 모델로 바로 실행하기

커뮤니티 사용자 fauxpaslife가 Q8_0 양자화 버전을 Ollama에 올려두었습니다. Ollama가 설치되어 있다면 터미널에서 아래 명령어 한 줄로 다운로드와 실행이 동시에 이루어집니다.

ollama run fauxpaslife/nanbeige4.1

이 버전은 약 4.2GB 크기이며, Q8_0 양자화가 적용되어 있어 품질 손실이 거의 없으면서도 일반적인 노트북에서 충분히 구동됩니다. 권장 추론 하이퍼파라미터는 Temperature 0.6, Top-p 0.95입니다.

Hugging Face GGUF 파일로 직접 설치하기

원하는 양자화 수준을 직접 선택하고 싶다면 Hugging Face에 올라와 있는 GGUF 변환 파일을 활용할 수 있습니다. 대표적인 GGUF 제공 저장소로는 Akicou/Nanbeige4.1-3B-GGUF, tantk/Nanbeige4.1-3B-GGUF, Mungert/Nanbeige4.1-3B-GGUF, mradermacher/Nanbeige4.1-3B-GGUF 등이 있습니다. Q2_K(약 1.62GB)부터 Q8_0, f32까지 다양한 양자화 옵션이 제공됩니다.

GGUF 파일을 다운로드한 뒤 Modelfile을 작성하여 Ollama에 등록하는 방식입니다. 먼저 원하는 GGUF 파일을 다운로드하고, 같은 디렉토리에 Modelfile이라는 이름의 텍스트 파일을 생성합니다.

FROM ./Nanbeige4.1-3B-Q8_0.gguf

PARAMETER temperature 0.6
PARAMETER top_p 0.95
PARAMETER num_ctx 8192

그런 다음 터미널에서 아래 두 명령어를 순서대로 실행하면 됩니다.

ollama create nanbeige4.1 -f Modelfile
ollama run nanbeige4.1

이 방법의 장점은 메모리가 제한된 환경에서는 Q4_K_M(약 2.2GB) 같은 경량 양자화를 선택하고, 성능을 최대한 유지하고 싶다면 Q8_0이나 f16을 선택할 수 있다는 유연성에 있습니다.

실제 사용 후기와 활용 가능성

저는 이전에 Qwen 3.5 Coder Instruct 7B 모델을 16GB 메모리 M4 맥북에어에 설치해서 테스트해 본 적이 있습니다. 모델 자체는 구동이 되었지만, 실제 활용 측면에서는 개인 메모 관리용도로 사용하기에도 응답 품질이 아쉬웠습니다. 7B 모델임에도 불구하고 간단한 텍스트 정리나 요약 작업에서 기대에 못 미치는 결과가 나왔기 때문입니다. 로컬 LLM 7B 모델을 어디에 사용하냐는 질문에 파비콘 만들 때 사용한다는 답변을 받기도 했습니다.

Threads

그런데 Nanbeige4.1-3B의 벤치마크 결과를 보면 이야기가 완전히 달라집니다. 파라미터 수가 7B의 절반도 안 되는 3B에 불과한데, 코딩과 수학 추론에서 32B 모델을 앞지르는 성능을 보여줍니다. Q8_0 양자화 기준으로 약 4.2GB만 차지하므로 16GB 맥북에어에서 여유 있게 돌아가며, Q4_K_M을 사용하면 약 2.2GB로 더 가볍게 실행할 수 있습니다. 3B 모델이 이 정도의 성능을 보인다면 충분히 활용 가능한 곳이 많을 것 같습니다.

구체적으로 기대해볼 수 있는 활용 시나리오는 다음과 같습니다. 로컬 코딩 어시스턴트로 활용하여 간단한 함수 작성이나 코드 리뷰를 맡길 수 있습니다. 개인 메모나 문서의 요약, 번역, 재작성 같은 텍스트 처리 업무에도 투입할 수 있습니다. 에이전트 기능을 활용하면 외부 도구와 연동하여 검색 기반 리서치 보조 역할도 가능합니다. 무엇보다 인터넷 연결 없이 완전히 로컬에서 동작하므로, 민감한 데이터를 다루는 환경에서도 안심하고 사용할 수 있다는 점이 큰 장점입니다.

파이썬 코드 생성에 특화된 파인튜닝 버전도 이미 Ollama에 올라와 있습니다. 아래 명령어로 바로 사용할 수 있어, 개발 업무에 집중적으로 활용하고 싶은 분들에게 적합합니다.

ollama run fauxpaslife/nanbeige4.1-python-deepthink:3b

기술적 배경과 향후 전망

Nanbeige4.1-3B의 놀라운 성능 비결은 정교한 포스트 트레이닝 파이프라인에 있습니다. 기술 논문(arXiv:2602.13367)에 따르면, 23조 토큰으로 사전 학습된 Nanbeige4-3B-Base 위에 SFT를 적용한 뒤, 일반적인 RLHF를 넘어서는 Pair-wise RL 기법을 도입했습니다. 이 Pair-wise RL이 Arena-Hard-V2 점수를 66.6에서 73.8로 끌어올리는 데 결정적인 역할을 했다고 합니다.

또한 이 모델은 Llama 아키텍처 기반으로 설계되어 있어, 기존 Llama 생태계의 도구와 프레임워크를 그대로 활용할 수 있습니다. vLLM, llama.cpp 등 다양한 추론 프레임워크에서 호환되며, Ollama 공식 라이브러리 등록도 시간문제로 보입니다.

소형 언어 모델(SLM) 시장의 경쟁은 갈수록 치열해지고 있습니다. Qwen3, Llama, Gemma 등 기존 강자들이 소형 모델 라인업을 꾸준히 강화하는 가운데, BOSS Zhipin이라는 예상 밖의 곳에서 등장한 Nanbeige가 벤치마크 기준으로 최정상에 올라선 것은 주목할 만한 사건입니다. 로컬 AI 실행이 점점 대중화되면서, 적은 자원으로 높은 성능을 내는 모델의 가치는 앞으로 더욱 커질 것입니다.

마무리

Nanbeige4.1-3B는 “작은 모델은 성능이 떨어진다”는 고정관념을 정면으로 깨뜨린 모델입니다. 3B 파라미터로 32B 모델을 넘어서는 벤치마크 결과, Ollama를 통한 간편한 설치, 그리고 일반 노트북에서도 구동 가능한 가벼운 크기까지 갖추고 있어, 로컬 AI를 처음 시작하는 분들에게도, 이미 경험이 있는 분들에게도 충분히 시도해볼 가치가 있는 모델입니다.

M시리즈 맥북이나 16GB 이상의 메모리를 가진 일반 PC가 있다면, 터미널에서 ollama run fauxpaslife/nanbeige4.1 한 줄로 지금 바로 체험해볼 수 있습니다. 클라우드 API 비용 없이, 개인정보 유출 걱정 없이, 나만의 AI 어시스턴트를 로컬에서 운영하는 시대가 성큼 다가왔습니다. 로컬 llm을 사용하단면 이 모델부터 사용해볼 거 같습니다.

#Nanbeige4.1 #Ollama #로컬AI #소형언어모델 #SLM #맥북AI #GGUF #오픈소스AI #3B모델 #로컬LLM

Nanbeige4.1 3B 설치부터 활용까지 Ollama로 시작하는 초소형 AI

Nanbeige4.1-3B는 어떤 모델인가

벤치마크로 보는 압도적 성능

Ollama로 설치하는 방법

실제 사용 후기와 활용 가능성

기술적 배경과 향후 전망

마무리

함께 읽으면 좋은 글

과기정통부 AI 학습 데이터 전수조사 착수 공공데이터 100종 개방과 특허정보 에이전트 전략 분석

Anthropic OpenClaw 창시자 계정 정지 사건 AI 플랫폼 오픈소스 생태계 갈등의 전말