뉴스

과기정통부 AI 학습 데이터 전수조사 착수 공공데이터 100종 개방과 특허정보 에이전트 전략 분석

과기정통부가 전 부처 AI 학습용 데이터 첫 전수조사를 시작했다. 1억 4천만 건 특허 데이터에 에이전트 AI를 연결하는 전략과 한국 공공 AI 인프라의 실질적 의미를 분석한다

#과기정통부 #AI학습데이터 #KIPRIS #특허정보에이전트 #공공AI #AX프로젝트 #AI기본법
과기정통부 AI 학습 데이터 전수조사 착수 공공데이터 100종 개방과 특허정보 에이전트 전략 분석

과학기술정보통신부와 지식재산처가 4월 10일부터 전 부처를 대상으로 AI 학습용 데이터 첫 전수조사를 시작했습니다. 같은 날, 국내 29개국 약 1억 4천만 건의 특허 정보를 보유한 KIPRIS(지식재산정보검색 서비스)에 AI 에이전트를 연결하는 사업 2년 차 착수보고회도 열렸습니다. 두 사건이 같은 날 나란히 발표된 것은 우연이 아닙니다.

기사 원문은 이곳에서 확인할 수 있습니다: AI코리아24 브리핑

왜 지금 전수조사인가, 현황과 문제의식

공공기관이 보유한 데이터는 방대하지만 부처별로 분산 관리되어 왔습니다. 어떤 기관이 어떤 데이터를 얼마나 보유하는지에 대한 국가 차원의 종합 파악이 없었습니다. AI 기업이 공공 데이터를 학습에 활용하고 싶어도 어디에 무엇이 있는지 알기 어려운 구조였습니다.

이번 조사의 법적 근거는 올해 시행된 AI 기본법 제15조 입니다. 조사 범위는 현재 AI 학습에 바로 쓸 수 있는 데이터뿐 아니라, 가공을 거치면 활용 가능한 잠재적 데이터까지 포함합니다. 단순 현황 파악이 아니라 실제로 쓸 수 있는 데이터 후보군 100종을 발굴하는 것이 목표입니다.

KIPRIS 특허 에이전트가 노리는 것

지식재산처가 추진하는 Easy 특허정보 Agent 는 구체적인 활용 모델을 보여줍니다. 특허 문서는 법률 언어와 기술 용어가 뒤섞인 고난도 텍스트입니다. 일반인이 KIPRIS에서 특허를 검색해도 내용을 이해하기 어려운 경우가 많습니다.

이 에이전트는 두 가지 기능을 제공합니다. 첫 번째는 특허 문서 자동 요약 입니다. 복잡한 특허 문서를 사용자 수준에 맞게 쉬운 언어로 변환합니다. 두 번째는 대화형 기술 탐색 입니다. 챗봇 인터페이스로 “이 기술과 비슷한 특허가 있나요?”처럼 자연어로 질문하면 유사 기술을 검색해줍니다.

1억 4천만 건의 데이터에 AI 에이전트를 연결하는 것은 기술적으로 간단하지 않습니다. 특허 문서의 다국어 처리, 기술 분류 체계와 AI 응답의 정합성, 오류 정보 제공 시 법적 책임 문제 등 풀어야 할 과제가 남아 있습니다.

f8x0M73Q.webp

공공 AI 데이터 전략의 실질적 과제

이번 전수조사가 실질적인 성과로 이어지려면 몇 가지 조건이 필요합니다.

양보다 품질 입니다. 데이터 100종을 발굴하는 것 자체보다 그 데이터의 라벨링 수준, 형식 표준화, 갱신 주기가 더 중요합니다. 잘못 정제된 학습 데이터는 오히려 AI 모델의 품질을 떨어뜨립니다.

민간 수요와의 정합성 입니다. 정부가 선정하는 100종이 실제 AI 기업들이 필요로 하는 데이터와 일치해야 합니다. 공급자 중심이 아니라 수요자 중심으로 우선순위를 설정하는 과정이 투명하게 진행되어야 합니다.

접근성과 라이선스 명확화 입니다. 데이터를 발굴해도 이용 조건이 불명확하거나 접근 절차가 복잡하면 활용률이 낮아집니다. AI허브를 통한 통합제공체계(60억 원 규모)가 실제로 쉽게 쓸 수 있는 구조로 구현되어야 합니다.

한국 AI 경쟁력에 미치는 영향

생성형 AI 시대에 고품질 학습 데이터는 핵심 경쟁력입니다. 미국은 민간 빅테크가 방대한 데이터를 확보하고 있고, 중국은 국가 주도로 공공 데이터를 집중 관리합니다. 한국은 상대적으로 공공 데이터의 AI 활용 체계화가 늦었습니다.

이번 전수조사가 실질적인 데이터 개방으로 이어진다면, 국내 AI 스타트업과 연구기관이 고품질 한국어 및 전문 분야 데이터에 접근하는 비용이 낮아집니다. 특히 법률, 특허, 행정, 의료처럼 민간이 자체 확보하기 어려운 전문 도메인 데이터에서 효과가 클 수 있습니다.

정부 주도 AI 데이터 인프라의 성패는 발굴보다 개방에 달려 있습니다. 조사 결과가 실제로 누구나 쓸 수 있는 형태로 공개되는지를 지켜봐야 합니다.

#과기정통부 #AI학습데이터 #KIPRIS #특허정보에이전트 #공공AI #AX프로젝트 #AI기본법

함께 읽으면 좋은 글

📋 CertKorea

2026년 국가자격증 시험일정을 한눈에 확인하세요. 613개 자격증의 필기·실기 D-day 카운트다운.

자격증 시험일정 확인하기 →
링크가 복사되었습니다!