뉴스

AIKeep24 로컬 LLM 모델을 엑사원에서 Qwen으로 교체한 이유와 체감 성능 변화

AI 대화 자동 저장 크롬 확장 AIKeep24가 요약 엔진을 EXAONE 3.5에서 Qwen3.5로 교체했다 체감 30% 속도 향상과 발열 트레이드오프 실사용 후기

#AIKeep24 #로컬LLM #Qwen3.5 #엑사원 #EXAONE #크롬확장 #AI대화저장 #Ollama
AIKeep24 로컬 LLM 모델을 엑사원에서 Qwen으로 교체한 이유와 체감 성능 변화

ChatGPT와 대화하다가 “그때 그 결정이 뭐였지?” 싶을 때가 있습니다. Claude에서 코드 리뷰를 받았는데, 며칠 뒤 그 맥락이 통째로 사라져 있을 때도 있습니다. AI 대화는 쌓이는데, 정작 필요할 때 찾을 수가 없습니다. AIkeep24 는 이 문제를 해결하기 위해 만든 오픈소스 크롬 확장 프로그램입니다. 크롬에서 AI와 대화하면 확장이 실시간으로 감지하고, 로컬 LLM이 자동으로 요약·태깅하여 DB에 저장합니다.

이번에 AIKeep24의 요약 엔진을 기존 엑사원(EXAONE) 3.5 7.8B 에서 Qwen3.5 계열 로 교체했습니다. 결론부터 말하면, 체감 속도가 약 30% 빨라졌습니다. 다만 공짜 점심은 없었습니다.

관련 브리핑: 알리바바, 단 며칠 만에 세 번째 독자적 AI 모델 Qwen3.6-Plus 출시

AIKeep24는 어떤 도구인가

클로드 화면에서 작동하는 aikeep24

20260328124411.webp

AIKeep24는 AI코리아24에서 개발한 AGPL-3.0 오픈소스 크롬 확장 프로그램입니다. 핵심 기능은 단순합니다. ChatGPT(chat.openai.com)나 Claude(claude.ai)에서 AI와 대화하면, 확장이 대화를 실시간으로 감지하고, 50턴마다 로컬 LLM이 자동으로 요약합니다. 요약된 내용에는 프로젝트명, 기술 스택, 핵심 결정사항이 자동 태깅되며, Cloudflare Vectorize를 통한 의미 기반 시맨틱 검색(semantic search, 키워드가 아닌 의미를 기준으로 검색하는 방식)도 지원합니다.

여기서 중요한 설계 원칙이 하나 있습니다. 클라우드 API를 사용하지 않습니다. 요약과 태깅은 전부 사용자 PC에서 돌아가는 로컬 LLM이 처리합니다. AI에게 업무상 민감한 질문을 던지는 일이 많아지는 시대에, 그 대화 내용을 다시 다른 클라우드 서버로 보내지 않는다는 것은 프라이버시 측면에서 의미가 큽니다.

이 구조에서 로컬 LLM의 성능은 곧 사용자 경험입니다. 요약이 느리면 대화 흐름이 끊기고, 태깅이 부정확하면 나중에 검색이 안 됩니다. 그래서 어떤 모델을 쓰느냐가 AIKeep24의 체감 품질을 좌우합니다.

왜 엑사원에서 Qwen으로 바꿨나

AIKeep24는 처음부터 LG AI연구원의 엑사원(EXAONE) 3.5 7.8B 를 기본 모델로 채택했습니다. 선택 이유는 명확했습니다. 한국어 특화 모델이고, 7.8B라는 비교적 작은 크기에서 동급 글로벌 모델 대비 한국어 벤치마크 1위를 기록한 성능이었습니다. LG AI연구원 자체 평가에서도 20개 벤치마크에서 글로벌 오픈소스 모델 중 최고 성능을 보였다고 발표한 바 있습니다.

그러나 실제 운용 과정에서 속도 문제 가 점차 체감되었습니다. AIKeep24의 요약 작업은 50턴 분량의 대화 맥락을 읽고, 핵심을 추출하고, 프로젝트명과 기술 스택을 태깅하는 비교적 무거운 추론 작업입니다. 엑사원 3.5 7.8B는 이 작업을 충실히 수행했지만, 대화가 빠르게 진행되는 코딩 세션이나 브레인스토밍 상황에서 요약 완료까지 기다리는 시간이 사용 흐름을 방해하는 경우가 생겼습니다.

ICfwxGpC1.webp

한편 Qwen3.5 계열 소형 모델은 2026년 초 출시 이후 로컬 LLM 커뮤니티(r/LocalLLaMA)에서 동급 최강이라는 평가를 빠르게 획득했습니다. XDA Developers의 벤치마크 리뷰에서도 “Qwen3.5-9B는 다국어 작업과 학술 수준 추론에서 이 크기대에서 이길 모델이 없다”고 평가했습니다. 이 성능이 실제 요약 작업에서도 체감될 수 있는지 직접 테스트한 것이 이번 모델 교체의 배경입니다.

체감 30% 속도 향상, 그리고 발열이라는 대가

동일한 하드웨어, 동일한 양자화(quantization, 모델 파일 크기를 줄여 경량화하는 기법) 조건에서 엑사원 3.5 7.8B를 Qwen3.5 계열로 교체한 결과, 요약 완료까지의 체감 속도가 약 30% 빨라졌습니다.

50턴 분량의 대화를 요약하는 작업에서 엑사원이 처리하는 동안 잠깐 멈칫하는 느낌이 있었다면, Qwen에서는 그 멈칫함이 눈에 띄게 줄었습니다. 특히 코딩 관련 대화처럼 기술 용어가 많이 포함된 맥락에서 차이가 두드러졌습니다. 요약의 정확도 면에서도 프로젝트명 인식과 기술 스택 태깅이 안정적이었습니다.

다만 발열은 확실히 증가했습니다. 동일한 노트북 환경에서 장시간 구동 시, 엑사원 대비 팬 소음이 커지고 본체 표면 온도가 올라가는 것을 체감할 수 있습니다. 이는 Qwen3.5 계열이 추론 과정에서 GPU 활용률을 더 적극적으로 끌어올리는 구조 때문으로 보입니다. 속도를 얻은 만큼 하드웨어 부하가 커진 것입니다. 데스크탑 환경이라면 큰 문제가 아니지만, 노트북이나 소형 PC에서 상시 구동하는 경우에는 고려해야 할 트레이드오프입니다.

ChatGPT와 Claude 양쪽에서 모두 동작한다

AIKeep24는 현재 ChatGPT(chat.openai.com)Claude(claude.ai) 양쪽 플랫폼에서 대화를 감지하고 저장할 수 있습니다. 어떤 AI 서비스를 메인으로 쓰든, 확장 프로그램이 브라우저에서 대화 흐름을 실시간으로 읽고, 로컬 LLM이 요약과 태깅을 처리합니다.

이 구조의 장점은 AI 서비스에 종속되지 않는다는 것 입니다. ChatGPT에서 시작한 프로젝트 논의를 Claude에서 이어가더라도, AIKeep24가 양쪽 대화를 모두 저장하고 있기 때문에 맥락이 끊기지 않습니다. 저장된 데이터는 사용자의 로컬 환경에 남으므로, 특정 AI 서비스가 대화 기록을 삭제하거나 정책을 변경해도 영향을 받지 않습니다.

요약을 담당하는 로컬 LLM 역시 사용자가 자유롭게 교체할 수 있습니다. Ollama를 통해 Qwen, 엑사원, Llama 등 원하는 모델을 설치하고 연결하면 됩니다. 이번 엑사원에서 Qwen으로의 교체도 이 구조 덕분에 코드 변경 없이 모델만 바꿔 끼우는 것으로 가능했습니다.

ChatGPT 환경에서 작동하는 aikeep24

20260328124234.webp

로컬 LLM 모델 선택이 왜 중요한가

이번 모델 교체 경험에서 얻은 인사이트는 단순히 “Qwen이 엑사원보다 빠르다”가 아닙니다. 로컬 LLM 기반 도구에서는 모델 선택이 곧 사용자 경험을 결정한다 는 점입니다.

클라우드 API 기반 서비스는 서버 사양을 사용자가 신경 쓸 필요가 없습니다. 하지만 프라이버시를 위해 로컬에서 모든 것을 처리하겠다고 결정한 순간, 어떤 모델을 어떤 양자화로 돌리느냐가 속도, 정확도, 발열, 배터리 소모까지 모두 좌우합니다.

GitHub - aikorea24/aikeep24: AI 대화 맥락 관리 도구

알리바바가 이번 주 Qwen3.6-Plus를 폐쇄형으로 출시하면서 중국 AI 기업들의 오픈소스 전략에 변화가 감지되고 있지만, 이미 공개된 Qwen3.5 소형 모델의 경쟁력은 실제 프로덕션 환경에서 검증되고 있습니다. 국산 모델인 엑사원 3.5도 한국어 특화라는 강점이 있으나, 범용 추론 속도에서 Qwen에 밀리는 것이 현실입니다. 향후 엑사원의 후속 버전이 이 격차를 어떻게 좁히는지가 국내 로컬 LLM 생태계의 중요한 관전 포인트입니다.

AIKeep24를 사용하면서 로컬 LLM의 성능 차이를 직접 체감해보고 싶다면, AI코리아24에서 프로젝트를 확인할 수 있습니다. ChatGPT든 Claude든, 내 AI 대화를 내 PC에서 지키면서 정리하는 경험을 해보시기를 권합니다.

#AIKeep24 #로컬LLM #Qwen #엑사원 #EXAONE #ChatGPT #Claude #AI대화저장

함께 읽으면 좋은 글

📋 CertKorea

2026년 국가자격증 시험일정을 한눈에 확인하세요. 613개 자격증의 필기·실기 D-day 카운트다운.

자격증 시험일정 확인하기 →
링크가 복사되었습니다!