LG가 만든 한국어를 이해하는 로컬 LLM 엑사원 3.5 7.8B 설치부터 활용까지 완전 정리

ChatGPT, Claude, Gemini 같은 클라우드 AI는 익숙하지만, 내 컴퓨터에서 직접 돌리는 AI 모델은 아직 생소한 분들이 많습니다. 로컬 LLM이라고 불리는 이 방식은 인터넷 없이도 작동하고, API 비용이 들지 않으며, 내 데이터가 외부 서버로 나가지 않는다는 장점이 있습니다. 문제는 대부분의 로컬 LLM이 영어 중심이라는 점입니다.

그런데 한국어를 제대로 이해하는 로컬 LLM이 있습니다. LG AI연구원이 만든 EXAONE 3.5 7.8B 입니다. 2024년 12월에 오픈소스로 공개된 이 모델은 영어와 한국어를 동시에 지원하는 이중 언어 모델로, 동급 크기의 글로벌 모델들을 벤치마크에서 압도하는 성능을 보여줬습니다. 맥북 하나로 돌릴 수 있는 크기이면서도, 한국어 요약과 분류 작업에서 놀라운 결과를 내놓습니다.

이 글에서는 EXAONE 3.5 7.8B가 무엇인지, 왜 주목할 만한지, 그리고 내 컴퓨터에 어떻게 설치해서 쓸 수 있는지를 처음부터 끝까지 정리합니다.

EXAONE이란?

EXAONE(엑사원)은 LG AI연구원이 2021년부터 개발해 온 자체 대규모 언어 모델입니다. 이름은 EX pert A I for Ever ONE 의 약자로, “모두를 위한 전문가 AI”라는 의미를 담고 있습니다. LG AI연구원은 LG 그룹 산하의 독립 AI 연구 조직으로, 삼성의 삼성리서치, 네이버의 하이퍼클로바와 함께 국내 3대 자체 LLM 개발 기관 중 하나입니다.

EXAONE의 발전 과정을 보면 그 성장세가 뚜렷합니다. 2024년 8월에 EXAONE 3.0 7.8B가 처음 오픈소스로 공개되었고, 같은 해 12월에 EXAONE 3.5가 2.4B, 7.8B, 32B 세 가지 크기로 출시되었습니다. 2025년 3월에는 수학과 코딩 추론에 특화된 EXAONE Deep이 나왔고, 2025년 7월에는 추론과 범용을 결합한 하이브리드 모델 EXAONE 4.0이 공개되었습니다. 2026년 1월에는 MoE(Mixture-of-Experts) 아키텍처를 적용한 K-EXAONE이 등장해 글로벌 7위, 국내 1위 성능을 기록했습니다.

이 글에서 다루는 EXAONE 3.5 7.8B 는 이 계보에서 개인 사용자가 로컬에서 가장 실용적으로 활용할 수 있는 모델입니다. 최신 모델인 K-EXAONE은 236B 파라미터로 일반 PC에서 돌리기 어렵지만, 3.5 7.8B는 맥북에어 16GB에서도 충분히 구동됩니다.

왜 EXAONE 3.5 7.8B인가

로컬에서 돌릴 수 있는 7B에서 8B급 모델은 여러 가지가 있습니다. Meta의 Llama 3.1 8B, 알리바바의 Qwen 2.5 7B, 구글의 Gemma 2 9B, 마이크로소프트의 Phi 3 7B 등이 대표적입니다. 이 중에서 EXAONE 3.5 7.8B를 주목해야 하는 이유는 명확합니다.

첫째, 한국어 성능이 압도적 입니다. LG AI연구원이 MT-Bench를 한국어로 번역해 만든 KoMT-Bench에서 EXAONE 3.5 7.8B는 7.96점을 기록했습니다. 같은 크기의 Qwen 2.5 7B가 5.19점, Llama 3.1 8B가 4.85점인 것과 비교하면 격차가 큽니다. 한국어 논리 추론 벤치마크인 LogicKor에서도 9.08점으로 1위를 차지했습니다. Gemma 2 9B가 8.05점으로 그나마 가까웠고, 나머지 모델들은 6점대 이하였습니다.

둘째, 영어 성능도 동급 최강 입니다. 영어 벤치마크에서도 EXAONE 3.5 7.8B는 MT-Bench 8.29점, Arena-Hard 68.7점, AlpacaEval 54.2점으로 모든 항목에서 동급 모델 1위를 기록했습니다. 한국어만 잘하는 것이 아니라 영어도 잘하는 진정한 이중 언어 모델입니다.

셋째, 32K 토큰의 긴 문맥을 처리 할 수 있습니다. 32,768개의 토큰을 한 번에 처리할 수 있어서 긴 대화나 문서를 다룰 때 유리합니다. LG AI연구원의 기술 보고서에 따르면 장문 처리 벤치마크 4개 항목에서 동급 최고 성능을 달성했습니다.

LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct · 올라마 성능 비교

넷째, 크기가 실용적 입니다. Q4_K_M 양자화 기준으로 약 4.7GB이므로 16GB RAM 맥북에서 다른 작업을 하면서도 동시에 돌릴 수 있습니다. 32B 모델은 성능이 더 좋지만 최소 32GB RAM이 필요하고 응답 속도도 느려집니다. 7.8B는 성능과 속도의 균형이 가장 좋은 지점입니다.

모델의 기술적 구조

EXAONE 3.5 7.8B의 내부를 간단히 살펴보겠습니다. 기술적인 내용이지만, 이 모델이 왜 효율적인지를 이해하는 데 도움이 됩니다.

이 모델은 임베딩을 제외하면 실제 파라미터 수가 69.8억 개입니다. 32개의 트랜스포머 레이어로 구성되어 있고, 어텐션 헤드는 GQA(Grouped Query Attention) 방식을 사용합니다. Q-헤드 32개에 KV-헤드 8개로 구성되어 메모리 효율이 좋습니다. 어휘 크기는 102,400개로, 한국어 토큰이 충분히 포함되어 있어 한국어 처리 시 토큰 낭비가 적습니다. 영어 중심 모델은 한국어 한 글자를 여러 토큰으로 쪼개는 경우가 많아 같은 문장이라도 더 많은 토큰을 소비하는데, EXAONE은 한국어에 최적화된 토크나이저를 사용합니다.

Instruction-tuned 모델이므로 대화형 지시를 잘 따릅니다. “다음 대화를 요약해줘”, “핵심 키워드를 추출해줘” 같은 지시에 즉시 반응합니다. 시스템 프롬프트를 활용하도록 학습되어 있어서 역할 지정도 효과적입니다.

Ollama로 5분 만에 설치하기

EXAONE 3.5 7.8B를 로컬에서 돌리는 가장 쉬운 방법은 Ollama 를 사용하는 것입니다. Ollama는 로컬 LLM을 Docker처럼 간단하게 관리해주는 도구입니다. 복잡한 Python 환경 설정이나 CUDA 드라이버 설치 없이, 명령어 두 줄이면 모델이 돌아갑니다.

설치 순서

먼저 Ollama를 설치합니다. macOS 사용자는 ollama.com에서 설치 파일을 다운로드하면 됩니다. Linux 사용자는 터미널에서 curl 명령어 한 줄로 설치할 수 있습니다.

Ollama 설치가 완료되면 터미널을 열고 다음 명령어를 실행합니다.

ollama pull exaone3.5:7.8b

약 4.8GB를 다운로드합니다. 인터넷 속도에 따라 몇 분 정도 걸립니다. 다운로드가 끝나면 바로 대화를 시작할 수 있습니다.

Copyollama run exaone3.5:7.8b

프롬프트가 나타나면 한국어로 질문해 보세요. “대한민국의 수도는 어디야?”라고 물으면 자연스러운 한국어로 답변합니다.

다른 프로그램에서 호출하기

Ollama는 로컬에서 API 서버를 제공합니다. 기본 주소는 localhost:11434 입니다. 크롬 확장, Python 스크립트, Node.js 앱 등에서 이 주소로 요청을 보내면 모델의 응답을 받을 수 있습니다.

Copycurl http://localhost:11434/api/chat \
  -d '{"model": "exaone3.5:7.8b", "messages": [{"role": "user", "content": "안녕하세요"}]}'

이 방식으로 EXAONE 3.5 7.8B를 자신의 프로젝트에 통합할 수 있습니다. 실제로 AI 대화 요약, 문서 분류, 키워드 추출 같은 작업에 활용하는 개발자들이 늘고 있습니다.

CORS 설정 (크롬 확장 연동 시)

크롬 확장 프로그램에서 Ollama에 접근하려면 CORS 설정이 필요합니다. Ollama를 실행할 때 환경 변수를 추가하면 됩니다.

CopyOLLAMA_ORIGINS='*' ollama serve

이 설정 없이는 크롬 확장에서 Ollama API를 호출할 때 CORS 오류가 발생합니다. 바이브코딩으로 크롬 확장을 만들 때 가장 자주 부딪히는 문제 중 하나입니다.

실제 활용 사례

EXAONE 3.5 7.8B가 실전에서 어떻게 쓰이는지 구체적인 예를 들어보겠습니다.

대화 요약에 강합니다. AI와 나눈 긴 대화를 EXAONE에게 넘기면 핵심 내용을 구조화된 형태로 요약합니다. “프로젝트명, 주요 토픽, 기술 스택, 핵심 결정 사항을 추출해줘”라고 지시하면 JSON 형태로 깔끔하게 정리해줍니다. 이런 작업은 ChatGPT API로도 할 수 있지만, 호출당 비용이 발생합니다. EXAONE은 로컬에서 무한 호출이 가능하므로 대량의 대화를 자동 처리할 때 비용 부담이 없습니다.

한국어 문서 분류에 적합합니다. 한국어 텍스트의 카테고리를 자동으로 분류하는 작업에서 영어 모델보다 정확도가 높습니다. 블로그 글의 태그를 자동으로 붙이거나, 고객 문의를 유형별로 분류하는 데 활용할 수 있습니다.

프롬프트에 민감합니다. 로컬 LLM은 클라우드 모델보다 프롬프트 품질에 더 민감합니다. 지시가 모호하면 엉뚱한 결과가 나옵니다. 반대로 시스템 프롬프트에 역할과 출력 형식을 명확하게 지정하면 놀랍도록 정확한 결과를 냅니다. 예를 들어 “당신은 대화 요약 전문가입니다. 다음 대화를 읽고 JSON 형태로 요약하세요”라고 시스템 프롬프트를 주면, 단순히 “요약해줘”라고 했을 때보다 훨씬 구조화된 결과를 얻을 수 있습니다.

주의할 점

EXAONE 3.5 7.8B는 강력한 모델이지만 몇 가지 한계가 있습니다.

라이선스가 비상업적 사용으로 제한됩니다. EXAONE AI Model License Agreement 1.1 - NC에 따라 상업적 목적으로는 사용할 수 없습니다. 개인 프로젝트, 연구, 학습 목적으로는 자유롭게 사용 가능하지만, 이 모델로 유료 서비스를 만들려면 LG AI연구원과 별도의 상업용 라이선스 계약이 필요합니다. 바이브코딩으로 개인 도구를 만드는 용도로는 전혀 문제가 없습니다.

짧은 입력에서 할루시네이션이 발생할 수 있습니다. 4턴 미만의 짧은 대화를 요약하라고 하면 실제로 없는 내용을 만들어내는 경우가 있습니다. 이는 학습 데이터에서 요약 태스크가 주로 긴 텍스트를 대상으로 했기 때문으로 보입니다. 프롬프트에 “입력에 없는 내용은 생성하지 마세요”라는 제약 조건을 추가하면 상당 부분 완화됩니다.

하드웨어 요구 사항이 있습니다. Apple Silicon Mac 16GB 이상을 권장합니다. Intel Mac이나 RAM 8GB 환경에서는 응답 속도가 매우 느리거나 아예 구동이 안 될 수 있습니다. Windows에서도 Ollama를 통해 사용 가능하지만, 공식적으로 검증된 환경은 macOS와 Linux입니다.

EXAONE의 현재와 미래

EXAONE 3.5 7.8B는 2024년 12월 모델입니다. 그 이후로 LG AI연구원은 빠르게 후속 모델을 내놓고 있습니다.

2025년 3월에 출시된 EXAONE Deep 은 수학, 과학, 코딩 추론에 특화된 모델입니다. 7.8B 크기로 MATH-500에서 94.8점을 기록했고, 2025학년도 수능 수학 영역에서 94.5점으로 전체 AI 모델 중 최고점을 받았습니다. 이 모델 역시 Ollama에서 사용할 수 있습니다.

2026년 1월에는 K-EXAONE 이 공개되었습니다. MoE 아키텍처를 적용한 236B 파라미터 모델로, 글로벌 7위 성능을 기록하며 국내 AI 모델 중 처음으로 세계 상위권에 진입했습니다. 2026년 3월 MWC에서는 텍스트와 이미지를 동시에 이해하는 비전 언어 모델 EXAONE 4.5 의 공개도 예고되었습니다.

이런 흐름을 보면 EXAONE 생태계는 계속 확장되고 있습니다. 지금 EXAONE 3.5 7.8B로 로컬 LLM에 익숙해지면, 후속 모델이 나올 때마다 자연스럽게 업그레이드할 수 있습니다. Ollama에서 모델을 바꾸는 것은 명령어 한 줄이면 되니까요.

AIKeep24가 이 모델을 선택한 이유

현재 AI코리아24에서 제작 중인 AI 대화 맥락 주입기 AIKeep24 도 EXAONE 3.5 7.8B를 핵심 엔진으로 사용하고 있습니다. AIKeep24는 AI와 나눈 대화를 실시간으로 감지하고, 로컬 LLM이 자동으로 요약과 태깅을 수행하는 크롬 확장 프로그램입니다.

이 모델을 선택하기까지 약 두 달간 다양한 로컬 LLM을 테스트했습니다. 처음에는 알리바바의 Qwen 2.5 7B Coder Instruct 모델을 사용했습니다. 코딩 작업에는 나쁘지 않았지만, 한국어 대화를 요약하고 프로젝트명이나 기술 스택을 자동으로 분류하는 작업에서는 정확도가 떨어졌습니다. 한국어 맥락을 제대로 이해하지 못하니 요약 결과에 엉뚱한 내용이 섞이거나, 핵심 결정 사항을 놓치는 일이 잦았습니다.

EXAONE 3.5 7.8B로 바꾸고 나서 체감 차이가 확연했습니다. 같은 한국어 대화를 넣어도 요약의 정확도가 달랐고, 특히 한국어로 된 기술 용어와 프로젝트 맥락을 구분하는 능력이 뛰어났습니다. 한국어에 특화된 이중 언어 모델이라는 점이 실전에서 이렇게까지 차이를 만들 줄은 솔직히 예상하지 못했습니다.

두 달 전만 해도 로컬 LLM을 직접 돌려본다는 것 자체가 낯선 경험이었습니다. 그런데 지금은 매일 수십 건의 대화를 EXAONE이 자동으로 처리하고 있습니다. 로컬에서 이 정도 성능의 한국어 AI를 무료로 쓸 수 있다는 사실이 아직도 신기합니다. 그리고 두세 달 후에는 EXAONE Deep이나 EXAONE 4.0 계열의 경량 모델이 더 발전된 형태로 나올 것입니다. 그때가 되면 AIKeep24의 요약 품질도 모델 교체 한 번으로 한 단계 더 올라갈 수 있을 거라 기대하고 있습니다.

마무리

EXAONE 3.5 7.8B는 한국어를 제대로 이해하는 몇 안 되는 로컬 LLM입니다. 4.7GB 크기로 맥북 하나에서 돌아가고, API 비용 없이 무한으로 호출할 수 있으며, 내 데이터가 외부로 나가지 않습니다. 바이브코딩으로 무언가를 만들 때, 특히 한국어 텍스트를 다루는 프로젝트라면 EXAONE 3.5 7.8B는 가장 먼저 고려해볼 선택지입니다.

설치는 Ollama 설치 후 명령어 한 줄이면 끝납니다. 오늘 한번 설치해보고, 간단한 한국어 질문부터 던져보세요. 로컬에서 AI가 돌아가는 경험은 클라우드 AI와는 또 다른 종류의 놀라움을 줍니다.

#EXAONE #엑사원 #로컬LLM #Ollama #LG AI연구원 #한국어AI #바이브코딩 #오픈소스AI