수학이 AGI로 가는 길이다 42년 난제를 12시간에 OpenAI 연구자들이 설명하는 AGI 타임라인

기사 원문은 이 링크를 통해 확인하실 수 있습니다.

40시간 동안 풀지 못했습니다. AI와 함께 12시간 만에 풀었습니다.

UCLA 수학 교수 출신 Ernest Ryu가 OpenAI 팟캐스트에서 공개한 이 경험은 수치 이상의 의미를 담고 있습니다. 그가 풀어낸 것은 42년간 미해결 상태였던 네스테로프(Nesterov) 최적화 이론 난제입니다. 수학자가 AI를 보조 도구가 아닌 연구 파트너로 활용해 실제 미해결 수학 문제를 해결한 사례입니다. OpenAI 연구자 Sebastian Bubeck은 같은 팟캐스트에서 이 사례를 하나의 데이터 포인트로 제시하며 더 큰 그림을 그렸습니다. 수학이 AGI(인공일반지능)의 핵심 벤치마크가 된 이유, 그리고 AI가 지금 어디까지 와 있는지입니다.

2년 전 존재하지 않던 추론 모델이 지금은 필즈 메달 수상자의 일상적 연구를 보조하고 있습니다. 이 변화의 속도와 방향이 이 글에서 다루는 핵심입니다.

왜 수학이 AGI의 벤치마크가 됐는가

Bubeck은 수학이 AGI 진전의 측도(測度)가 된 것이 우연이 아니라고 말합니다. 수학이 정확히 범용 지능 시스템에 필요한 능력을 요구하기 때문입니다.

수학적 증명은 긴 일관된 추론을 요구합니다. 몇 분이 아니라 몇 시간, 며칠, 심지어 몇 년에 걸친 논리의 연쇄입니다. 그리고 단 하나의 오류가 아무리 훌륭한 나머지 부분을 모두 무너뜨립니다. 이것을 처리할 수 있는 시스템은 자신의 오류를 발견하고 수정하는 능력을 반드시 갖춰야 합니다.

Bubeck이 강조하는 또 다른 이유는 명확성입니다. 수학은 문제가 명확하게 정의되고, 답이 검증 가능하며, 결과가 맞는지 틀린지에 대한 논쟁이 없습니다. AI의 창의적 글쓰기 능력이나 추론 능력은 측정이 어렵습니다. 수학 문제의 풀이는 틀렸거나 맞거나 둘 중 하나입니다. 이 명확성이 AI 능력을 객관적으로 측정하는 데 수학을 이상적인 영역으로 만듭니다.

세 번째 이유는 전이 가능성입니다. 연구자들이 수학 훈련을 통해 모델에 심어주려는 것은 수학 그 자체가 아닙니다. 논리적 일관성, 오류 감지, 장기 추론입니다. 이 능력들이 수학을 넘어 생물학, 재료과학, 공학 등 모든 과학 분야로 전이된다는 것이 이들의 주장입니다. Bubeck은 이것을 학교 교육의 비유로 설명합니다. 학생들이 수학을 배우는 이유는 나중에 증명을 쓰기 위해서가 아니라, 논리적으로 생각하는 훈련을 위해서입니다.

“AGI 타임”이라는 새로운 개념

Bubeck이 이 팟캐스트에서 제안한 개념 중 가장 주목할 만한 것은 “AGI 시간(AGI time)” 입니다.

2년 전, AI 모델이 시뮬레이션할 수 있는 지적 작업의 시간 범위는 분(minutes) 단위였습니다. 30분 분량의 인간 사고 과정을 시뮬레이션하는 것이 한계였습니다.

지금은 다릅니다. Bubeck은 현재 모델들이 일(days) 또는 일주일(a week) 단위의 지적 작업을 시뮬레이션할 수 있는 수준에 도달했다고 밝힙니다. 그리고 다음 목표는 주(weeks)와 달(months)입니다.

이 프레임워크가 유용한 이유가 있습니다. AI의 능력을 단순히 “문제를 풀 수 있는가 없는가”로 측정하는 대신, 얼마나 긴 사고 과정을 지속할 수 있는가로 측정합니다. 현실의 어려운 문제들은 수십 분 안에 해결되지 않습니다. 연구 프로젝트는 몇 달, 몇 년에 걸칩니다. AI가 이 시간 범위에서 의미 있는 기여를 할 수 있는지가 AGI로의 진전을 판단하는 실질적 기준이라는 것입니다.

OpenAI가 추구하는 “자동화된 연구자”라는 개념도 이 맥락에서 나옵니다. 장시간에 걸쳐 스스로 문제를 연구하고, 중간 오류를 수정하며, 새로운 통찰에 도달하는 AI 시스템입니다.

에르되시 문제와 논란의 전말

헝가리 수학자 폴 에르되시(Paul Erdős)는 생전에 수백 개의 미해결 수학 문제를 남겼습니다. 이 에르되시 문제들은 수십 년간 수학자들이 도전해온 미해결 문제들의 모음입니다.

Bubeck은 지난해 이 에르되시 문제와 관련해 공개적 논란에 휘말렸습니다. 그가 OpenAI 내부 모델이 에르되시 문제 10개를 풀었다는 트윗을 올렸고, 이것이 “새로운 증명을 발견했다”는 의미로 읽혔습니다. 구글 CEO 데미스 허사비스가 직접 이 주장에 의문을 제기했고, 수학 커뮤니티에서도 논란이 됐습니다. 실제로는 상당수가 심층 문헌 검색을 통해 찾아낸 기존 결과였습니다.

그러나 팟캐스트에서 Bubeck은 업데이트된 상황을 밝혔습니다. 처음의 혼란스러운 주장과 달리, 지금은 ChatGPT와 내부 모델들이 실제로 학술 저널 게재 수준의 새로운 해답 10개 이상을 생성했다는 것입니다. “처음에는 불가능해 보였던 것이 이제 현실이 되었고, 속도가 빨라지고 있다”는 것이 Bubeck의 평가입니다.

이 발전의 의미는 단순한 수학적 성취를 넘어섭니다. AI가 기존 지식을 재조합하는 단계에서 진정으로 새로운 수학적 지식을 생성하는 단계로 넘어가고 있다는 주장입니다. 과학적 진보가 결국 영리한 재조합과 약간의 추론에 불과한가라는 철학적 질문은 여전히 열려있지만, 결과물은 분명히 새롭습니다.

Ryu의 42년 난제 해결, 어떻게 이루어졌는가

Ernest Ryu의 경험은 이 모든 논의를 가장 인간적이고 구체적인 방식으로 보여줍니다.

그는 네스테로프 최적화 이론의 한 오래된 문제에 40시간을 쏟았지만 진전이 없었습니다. 그리고 ChatGPT를 파트너로 삼아 3일 저녁 총 12시간 만에 해결했습니다. 중요한 것은 그가 AI를 어떻게 활용했는지입니다.

Ryu는 AI를 답을 생성하는 도구로 쓴 것이 아닙니다. 그는 검증자이자 방향 설정자였습니다. AI가 제안하는 방향이 수학적으로 타당한지를 검증하고, 오류를 잡아내며, 유망한 방향으로 대화를 이끌었습니다. AI가 제안을 하고 인간이 검증하는 구조입니다.

이 협업 방식이 중요한 이유가 있습니다. AI가 수학 문제를 “혼자” 푸는 것이 아닙니다. 전문 수학자가 AI의 제안을 평가하고 방향을 조정하는 과정이 핵심입니다. AI의 역할은 탐색 공간을 넓히고 빠르게 가설을 생성하는 것이고, 인간의 역할은 그 가설들의 수학적 타당성을 판단하는 것입니다.

Ryu는 이 경험에서 중요한 패턴을 발견했습니다. 수학에서 AI를 생산적으로 활용하려면 전문 수학자의 훈련이 필수적이라는 것입니다. 비전문가가 AI와 함께 수학 증명을 시도하면 AI의 오류를 잡아낼 능력이 없어서 틀린 결과를 맞다고 받아들이는 경우가 많습니다. 전문성의 역할이 줄어드는 것이 아니라 달라지는 것입니다.

위험 경고, 정신적 위축과 가짜 증명

두 연구자 모두 낙관적 전망과 함께 구체적인 위험을 경고했습니다.

**정신적 위축(mental atrophy)**입니다. Ryu는 프로그래밍 분야에서 이미 이 현상이 나타나고 있다고 말합니다. 젊은 세대 개발자들이 디버거 사용 능력을 잃어가고 있다는 것입니다. AI가 코드를 자동으로 수정해주니 직접 오류를 추적하는 능력을 훈련할 기회가 줄어듭니다. 수학에서도 같은 일이 일어날 수 있습니다. AI가 증명의 세부 단계를 처리해주면, 수학자가 직접 그 단계들을 생각하는 능력을 유지하는 훈련이 줄어듭니다. 이것이 장기적으로 수학 연구 능력 전체를 위축시킬 수 있다는 우려입니다.

가짜 증명의 확산도 심각한 문제입니다. 수학 훈련 없이 AI를 활용해 긴 수학적 증명을 소셜미디어에 올리는 비전문가들이 늘고 있습니다. 이런 증명들은 대부분 틀립니다. AI가 그럴듯해 보이는 수학적 언어를 사용해 오류를 포장하기 때문입니다. Bubeck은 학술 기관들이 이런 가짜 증명을 걸러내는 검증 역할을 적극적으로 재확립해야 한다고 강조합니다. AI가 증명 검증을 가속할 수 있다는 점도 있지만, 동시에 가짜 증명의 생성도 가속하기 때문에 검증 인프라의 강화가 시급합니다.

현재 수학 논문 검증 프로세스는 수년이 걸리는 경우도 있습니다. AI가 이 속도를 높이는 동시에 게재된 논문의 오류도 더 빠르게 발견할 수 있다는 것이 연구자들의 기대입니다.

다른 과학 분야로의 전이 가능성

Bubeck은 수학 훈련의 방법론이 수학에만 국한되지 않는다고 강조합니다. OpenAI의 훈련 방법은 수학에 특화된 것이 아니라 범용적이라는 것입니다. 따라서 수학에서의 진전은 다른 과학 분야에서의 진전을 예고합니다.

생물학에서는 단백질 구조 예측을 넘어 실제 생물학적 메커니즘의 발견으로 나아갈 수 있습니다. 재료과학에서는 원하는 특성을 가진 신소재를 설계하는 역방향 접근이 가능해집니다. 물리학에서는 실험 데이터에서 새로운 이론적 법칙을 도출하는 것을 AI가 보조할 수 있습니다.

이 모든 것의 공통 요소는 수학에서 훈련된 능력들, 즉 장기 일관 추론, 오류 감지, 자기 수정입니다. 수학이 AGI의 길인 이유가 여기에 있습니다. 수학은 이 능력들을 가장 순수한 형태로 요구하고 검증하는 분야입니다.

한국 수학 교육과 연구에 주는 시사점

이 발전이 한국의 수학 교육과 연구에 어떤 함의를 갖는지는 중요한 질문입니다.

한국은 수학 교육 수준이 높고, 국제 수학 올림피아드에서 꾸준히 좋은 성적을 내는 나라입니다. 이 기반이 AI 협업 수학 연구에서 강점이 될 수 있습니다. Ryu의 사례가 보여주듯, AI와 효과적으로 협업하려면 AI의 오류를 잡아낼 수 있는 전문적 수학 역량이 필요합니다. 한국의 수학 교육 기반은 이 협업 구조에서 유리한 출발점입니다.

그러나 교육 방향의 재검토도 필요합니다. AI가 계산과 절차적 증명 단계를 대부분 처리할 수 있게 된다면, 수학 교육이 강조해야 할 것은 계산 능력보다 문제 설정 능력, 가설 검증 능력, 그리고 AI의 오류를 판단하는 메타 수준의 이해입니다. 이것은 현재 수학 교육의 방향과 상당히 다릅니다.

연구 환경에서는 더 직접적입니다. 국내 수학·과학 연구자들이 AI를 연구 파트너로 활용하는 방법론을 체계적으로 개발하는 것이 시급합니다. Ryu가 발견한 “AI 제안, 인간 검증” 구조가 어떤 유형의 문제에 효과적이고 어떤 유형에는 그렇지 않은지에 대한 연구가 필요합니다.

이 발전이 가리키는 방향

1년 반 전 수학자의 80%가 불가능하다고 봤던 것이 지금 현실이 됐습니다. 에르되시 문제의 새로운 해답들이 학술 저널 수준에 도달했습니다. 42년 된 난제가 12시간 만에 풀렸습니다.

이 속도의 변화가 단선적으로 계속될 것이라고 가정하는 것은 무리입니다. 그러나 수학이 AI 능력의 진전을 가장 명확하게 드러내는 분야라는 점, 그리고 그 진전이 가속되고 있다는 점은 데이터로 뒷받침됩니다.

Bubeck의 마지막 말이 이 상황을 압축합니다. “과학자가 더 이상 필요하지 않다는 주장은 위험합니다.” AI가 아무리 발전해도 결과를 검증하고 방향을 설정하는 인간 전문가의 역할은 없어지지 않습니다. 그 역할의 내용이 달라질 뿐입니다. 지금 필요한 것은 그 변화를 인식하고 준비하는 것입니다.

#AGI수학 #OpenAI #에르되시문제 #AI수학연구 #SebastianBubeck #ErnestRyu #AGI타임라인