AI와 대화하는 법 - 챗gpt 입력 형태 총정리

대화형 AI에게 텍스트만 입력하던 시대는 이미 지났습니다. 2026년 현재 ChatGPT, Claude, Gemini, Grok은 사진, PDF, 엑셀, 프레젠테이션, 심지어 영상과 음성까지 이해할 수 있습니다. 문제는 어떤 AI가 어떤 형태를 받아들이는지, 무료 사용자와 유료 사용자 사이에 어떤 차이가 있는지 정확히 아는 사람이 많지 않다는 점입니다. 각 플랫폼이 지원하는 파일 형식, 용량 제한, 무료와 유료의 차이, 그리고 실전에서 바로 쓸 수 있는 팁까지 담았습니다. 글을 끝까지 읽으시면 어떤 파일을 어떤 AI에게 보내야 가장 좋은 답변을 받을 수 있는지 감이 잡히실 것입니다.

AI에게 말을 거는 다섯 가지 방법

대화형 AI에게 정보를 전달하는 방식은 크게 다섯 가지로 나뉩니다. 텍스트 입력, 파일 업로드, 이미지 첨부, 음성 입력, 그리고 영상 및 오디오 파일 제출입니다. 텍스트 입력은 모든 AI에서 기본으로 지원하며, 한국어를 포함한 대부분의 언어가 가능합니다. 파일 업로드는 PDF, Word, Excel, CSV, 코드 파일 등 문서 형태를 AI에게 직접 건네는 방식이고, 이미지 첨부는 사진이나 스크린샷을 올려서 AI가 시각적으로 분석하도록 하는 기능입니다.

음성 입력은 마이크를 통해 말로 질문하는 방식인데, ChatGPT의 고급 음성 모드(Advanced Voice Mode)가 대표적입니다. Gemini 역시 모바일 앱과 웹에서 음성 대화를 지원합니다. 마지막으로 영상 및 오디오 파일은 Gemini가 가장 앞서 있는 영역으로, 유료 사용자는 최대 1시간 분량의 영상과 3시간 분량의 오디오를 업로드할 수 있습니다.

문서 파일, 어디까지 읽히나

가장 많이 사용하는 입력 형태는 문서 파일입니다. PDF, Word(DOCX), 텍스트 파일(TXT), CSV, Excel(XLSX), 파워포인트(PPTX) 등이 여기에 해당합니다. 각 플랫폼별 지원 현황을 정리하면 다음과 같습니다.

ChatGPT 는 가장 넓은 범위의 파일 형식을 받아들입니다. PDF, DOCX, TXT, CSV, XLSX, PPTX는 물론 Python, JavaScript 등 코드 파일과 ZIP 압축 파일까지 지원합니다. 파일 하나당 최대 512MB 까지 업로드할 수 있어 용량 면에서도 가장 넉넉합니다. 다만 무료 사용자는 하루 3개 파일만 올릴 수 있고, Plus 사용자(월 20달러)는 3시간마다 80개까지 가능합니다. 한 가지 주의할 점은 PDF 속에 삽입된 이미지나 차트를 시각적으로 분석하는 기능(Visual Retrieval)은 Enterprise 요금제에서만 제공된다는 것입니다. 일반 사용자가 올린 PDF에서는 텍스트만 추출됩니다. (OpenAI 파일 업로드 FAQ)

Claude 는 PDF, DOCX, CSV, TXT, HTML, ODT, RTF, EPUB, JSON, XLSX 등 10가지 문서 형식 을 지원합니다. 파일당 최대 30MB, 대화당 최대 20개 파일 까지 올릴 수 있습니다. Claude의 강점은 PDF 처리입니다. 100페이지 이하의 PDF라면 무료 사용자도 텍스트와 이미지를 모두 시각적으로 분석받을 수 있습니다. ChatGPT가 Enterprise에서만 제공하는 기능을 Claude는 무료로 열어둔 셈입니다. 엑셀 파일을 다루려면 설정에서 분석 도구(Analysis tool)를 활성화해야 합니다. (Claude 파일 업로드 안내)

Gemini 는 무료와 유료 사이의 격차가 가장 큽니다. 무료 사용자는 PDF, DOCX, TXT, PPTX, 이미지, 짧은 영상(5분)을 올릴 수 있지만, 엑셀과 CSV 그리고 코드 파일은 유료(Gemini Advanced, 월 19.99달러)에서만 지원됩니다. 파일당 최대 100MB, 영상은 최대 2GB 까지 가능합니다. Google Drive에서 바로 파일을 불러올 수 있는 점은 Google 생태계 사용자에게 큰 장점입니다. (Google Gemini 파일 업로드 도움말)

Grok (xAI)은 PDF, CSV, XLSX, TXT, Markdown, DOCX, JSON, ZIP 등을 지원하며, 파일당 최대 25~50MB 입니다. 스프레드시트는 20만 행 이하를 권장합니다. 아직 다른 플랫폼에 비해 파일 처리 기능이 초기 단계이지만, 빠르게 확장 중입니다. (xAI Files API 문서)

AI에게 PDF가 어려운 이유

앞서 살펴본 것처럼 대부분의 AI가 PDF를 지원한다고 표시하지만, 실제로는 완벽하게 읽어내지 못하는 경우가 많습니다. 1990년대에 만들어진 PDF 형식은 사람이 화면이나 종이 위에서 보기 위해 설계된 것이지, AI가 구조를 파악하도록 만들어진 것이 아닙니다. 같은 PDF라도 텍스트가 디지털로 살아 있는 파일과 종이를 스캔한 이미지 파일은 AI 입장에서 완전히 다른 입력입니다.

스캔된 PDF, 복잡한 표가 포함된 PDF, 다단 레이아웃 PDF 등은 AI가 텍스트를 정확히 추출하지 못하거나 순서를 뒤섞어 읽는 경우가 발생합니다. 이 문제에 대한 더 자세한 설명은 AI는 왜 PDF 읽기가 그렇게 어려운가에서 확인하실 수 있습니다. PDF를 AI에게 보내기 전에 OCR 처리가 되어 있는지, 텍스트 선택이 가능한 파일인지 먼저 확인하시는 것을 권장합니다.

이미지와 영상, 눈이 달린 AI

이미지 입력은 모든 주요 AI가 지원합니다. JPEG, PNG가 공통으로 가능하고, GIF와 WebP는 플랫폼에 따라 다릅니다. ChatGPT는 JPEG, PNG, WebP, GIF를 받으며, 이미지당 최대 20MB 입니다. 무료 사용자는 하루 2장, Plus 사용자는 하루 50장까지 올릴 수 있습니다. 사진 속 텍스트 인식(OCR), 물체 식별, 도표 분석 등이 가능합니다.

Claude는 JPEG, PNG, GIF, WebP 네 가지 이미지 형식을 지원합니다. 이미지를 PDF에 포함해서 보내면 시각 분석까지 받을 수 있다는 점은 앞서 설명드린 대로입니다. Gemini는 JPEG, PNG, WebP, HEIF를 지원하고, 특히 영상 분석 에서 독보적입니다. 무료 사용자도 5분 이하 영상을 업로드해 내용을 분석받을 수 있고, 유료 사용자는 최대 1시간 분량까지 가능합니다. Grok은 JPEG, PNG, GIF, WebP를 지원합니다.

영상과 오디오 파일을 직접 업로드해서 분석받을 수 있는 플랫폼은 현재 Gemini 가 유일합니다(유료 기준 영상 1시간, 오디오 3시간). ChatGPT와 Claude는 영상이나 오디오 파일의 직접 업로드를 지원하지 않으므로, 먼저 다른 도구로 텍스트를 추출(트랜스크립션)한 뒤 텍스트 파일로 전달하는 방법을 사용해야 합니다.

사진의 경우 코딩을 할 때에도 유용하게 사용할 수 있습니다. 화면을 캡쳐해서 대화창에 업로드하고 “버튼의 위치를 오른쪽 아래로”

“가독성이 좋은 폰트칼라로 교체해줘”

“이 화면에서 토큰은 어디에 저장할 수 있지?”

음성 대화와 실시간 입력

파일 업로드 외에도 마이크를 통한 음성 대화 가 점차 보편화되고 있습니다. ChatGPT는 고급 음성 모드(Advanced Voice Mode)를 통해 실시간 음성 대화가 가능합니다. 모바일 앱에서 마이크 버튼을 누르면 바로 대화를 시작할 수 있고, 한국어도 자연스럽게 인식합니다. Gemini 역시 모바일 앱과 웹에서 음성 입력을 지원하며, Google의 음성 인식 기술이 결합되어 정확도가 높습니다.

Claude는 웹과 모바일 앱에서 받아쓰기(dictation) 기능을 통해 음성을 텍스트로 변환한 뒤 입력할 수 있습니다. 아직 ChatGPT처럼 AI가 음성으로 직접 대답하는 양방향 음성 대화 모드는 제공하지 않지만, 텍스트 기반 응답의 품질은 어떤 AI 못지않습니다.

모바일 환경에서는 카메라로 사진을 바로 찍어 올리는 기능도 유용합니다. ChatGPT, Claude, Gemini 모두 모바일 앱에서 카메라 촬영 후 즉시 분석을 요청할 수 있어, 메뉴판 번역, 수학 문제 풀이, 문서 스캔 등에 활용하실 수 있습니다.

실전 팁, 이렇게 보내면 더 잘 알아듣습니다

어떤 형태로 입력하느냐에 따라 AI의 답변 품질이 크게 달라집니다. 몇 가지 실전 팁을 정리했습니다.

스캔 이미지로만 구성된 PDF는 AI가 텍스트를 추출하지 못하거나, 추출하더라도 정확도가 떨어집니다. Adobe Acrobat이나 무료 OCR 도구로 미리 텍스트 레이어를 추가해두면 훨씬 좋은 결과를 얻을 수 있습니다.

둘째, 엑셀이나 CSV 파일을 올릴 때는 첫 번째 행에 명확한 열 제목 을 넣어주십시오. “매출”, “날짜”, “지역”처럼 한글 제목도 잘 인식합니다. 불필요한 빈 행이나 병합 셀은 미리 정리해두시면 분석 정확도가 올라갑니다.

너무 작은 이미지는 텍스트 인식이 어렵고, 지나치게 큰 이미지는 업로드 용량 제한에 걸릴 수 있습니다. 일반적으로 1000px 이상, 20MB 이하가 적당합니다.

넷째, 긴 문서를 분석할 때는 질문을 구체적으로 작성하는 것이 중요합니다. “이 문서를 요약해줘”보다는 “이 계약서에서 해지 조건과 위약금 관련 조항만 찾아줘”처럼 범위를 좁혀주면 AI가 훨씬 정확한 답변을 제공합니다.

다섯째, 여러 파일을 한꺼번에 올릴 때는 파일 이름에 순서나 주제를 표시 해두시면 편리합니다. “01_매출보고서.pdf”, “02_비용내역.xlsx”처럼 정리해두면 AI에게 “1번 파일과 2번 파일을 비교해줘”라고 간단히 요청할 수 있습니다.

마무리

대화형 AI는 이제 단순한 채팅 도구가 아닙니다. 어떻게 더 효과적으로 대화할 수 있을지 잘 알아보면 좋을 것 같습니다. 사진을 보여주면 읽어주고, PDF를 건네면 요약해주고, 엑셀을 올리면 분석해줍니다. 각 플랫폼마다 강점이 다르기 때문에, 자신이 자주 사용하는 파일 형태에 맞춰 AI를 선택하시는 것이 합리적입니다. 문서 중심이라면 Claude의 PDF 시각 분석 기능이 매력적이고, Google 생태계를 쓰신다면 Gemini의 Drive 연동이 편리하며, 영상과 오디오까지 다루고 싶다면 Gemini Advanced가 현재로서는 유일한 선택지입니다.

#ChatGPT #Claude #Gemini #Grok #AI파일업로드 #대화형AI #AI활용법 #aikorea24