오픈AI, GPT-5 출시… 추론·속도·멀티모달 아우른 통합 AI 등장

2년여 만에 공개한 야심작, ‘모델 고르기’ 시대는 끝났다 GPT-4o보다 빠르고, o3보다 똑똑… 통합된 단일 모델로 진화 클로드·제미나이 제친 코딩·추론 성능, GPQA에서도 독보적 우위 무료 사용자도 고급 추론 기능 사용, 접근성과 실용성 동시 강화

2025-08-08 김동원 기자

GPT-5와 기존 GPT-4o와의 응답 비교표. GPT-5 응답은 더욱 강렬한 결말, 선명한 이미지, 그리고 인상적인 은유(예: “더는 존재하지 않는 나라의 검은 깃발”, “쿄토의 종소리가 저녁을 언덕 아래로 굴린다”)를 통해 더 큰 감정의 흐름을 완성하며, 뚜렷한 문화적 배경과 장소감을 형성한다. 반면, GPT-4o의 버전은 보다 예측 가능한 구조와 운율을 따르며 ‘보여주기보다는 설명하는’ 방식(예: “그녀는 울고, 말하지 않는다”)으로 전개된다. /오픈AI 블로그 캡처

오픈AI가 2년여 간의 개발 끝에 차세대 AI 모델 GPT-5를 공식 출시했다. GPT-4 출시 이후 2년 만의 메이저 업그레이드다. 기존의 여러 모델을 하나로 통합한 ‘유니파이드 시스템’을 도입한 점이 특징이다. 무료 사용자까지 고급 추론 기능을 사용할 수 있게 하며 AI 접근성을 대폭 확대했다.

기존 GPT 모델들과 비교하면 차이는 명확하다. GPT-4는 뛰어난 범용 성능을, GPT-4o는 빠른 속도와 음성·이미지 처리를, o 시리즈는 강력한 추론 능력을 각각 제공했다. 하지만 GPT-5는 이 모든 장점을 하나의 시스템에서 상황에 맞게 자동 제공한다. 마치 여러 명의 전문가를 둔 팀이 문제에 따라 적절한 전문가를 내세우는 것과 같다.

성능 면에서도 큰 도약을 보였다. 실제 코딩 작업을 테스트하는 SWE-bench Verified에서 74.9%를 기록해 이전 최고 성능이던 GPT-4o(약 65%)를 크게 앞섰다. 수학 올림피아드 수준의 AIME 2025에서는 94.6%라는 높은 점수를 기록했다. 더 중요한 것은 효율성 개선으로, GPT-5는 이전 추론 모델 o3보다 50-80% 적은 컴퓨팅 자원으로 같거나 더 나은 결과를 낸다.

경쟁사 모델들과 비교해도 GPT-5가 성능에서 앞선다. 코딩 성능에서 앤트로픽의 최신 모델 클로드 오퍼스(Opus) 4.1(74.5%)을 근소하게 앞섰고, 구글의 제미나이 2.5 프로(59.6%)는 큰 차이로 제쳤다. 특히 PhD 수준 과학 문제를 다루는 GPQA Diamond에서 GPT-5 프로는 89.4%로 클로드 오퍼스 4.1(80.9%)과 그록 4 헤비(88.9%)를 압도했다.

◇ 통합 시스템 구현, 사용자 모델 선택 고민 해결

GPT-5의 가장 큰 변화는 사용자가 더 이상 어떤 모델을 선택할지 고민하지 않아도 된다는 점이다. 이전까지 챗GPT 사용자들은 빠른 답변이 필요할 때는 GPT-4o를, 복잡한 추론이 필요할 때는 o1이나 o3 같은 추론 모델을 별도로 선택해야 했다. 하지만 GPT-5는 이런 번거로움을 없앴다.

GPT-5는 세 가지 핵심 구성 요소로 이뤄진 ‘통합 시스템’이다. 일반적인 질문에 빠르게 답하는 효율적인 기본 모델, 수학이나 코딩 같은 복잡한 문제를 위한 심층 추론 모델, 그리고 상황에 따라 어떤 모델을 쓸지 실시간으로 ‘라우터’가 판단한다. 사용자가 “이것에 대해 깊이 생각해봐”라고 요청하거나, 복잡한 수학 문제를 던지면 시스템이 자동으로 추론 모델로 전환한다.

이 라우터는 단순한 규칙이 아닌 실제 사용 데이터로 지속 학습한다. 사용자가 모델을 바꾸는 패턴, 답변에 대한 만족도, 정답률 등을 분석해 점점 더 정확한 판단을 내린다. 오픈AI는 “가까운 미래에 이런 기능들을 완전히 하나의 모델로 통합할 예정”이라고 밝혔다.

◇ 환각 현상 대폭 개선, 신뢰성 확보

GPT-5는 AI의 고질적 문제인 할루시네이션(환각) 현상을 크게 개선했다. 할루시네이션은 AI가 사실이 아닌 정보를 마치 사실인 것처럼 제시하는 현상으로, 실용적 활용의 가장 큰 걸림돌이었다. GPT-5는 이 문제에서 획기적 진전을 보였다.

웹 검색 기능과 함께 사용할 때 GPT-5의 사실 오류는 GPT-4o보다 45% 줄었다. 추론 모드에서는 o3 대비 무려 80%나 오류가 감소했다. 이는 단순한 수치 개선이 아닌 실용성의 질적 변화를 의미한다. 예를 들어 의료 정보를 묻거나 법률 상담을 받을 때 잘못된 정보로 인한 위험이 크게 줄어든 것이다.

GPG-5의 할루시네이션 오류는 o3 모델과 비교해 크게 감소했다. /오픈AI 블로그 캡처

더 중요한 개선은 GPT-5가 자신의 한계를 정확히 아는 능력을 갖추었다는 점이다. 이전 모델들이 모르는 것도 아는 척하며 그럴듯한 답변을 만들어냈다면, GPT-5는 확실하지 않은 정보에 대해 솔직히 “모르겠다”고 답한다. 실험에서 이미지가 없는 상태로 이미지 관련 질문을 했을 때, o3는 86.7%의 경우 존재하지 않는 이미지에 대해 확신에 찬 답변을 했지만 GPT-5는 단 9%만 그랬다.

GPT-5는 또한 ‘안전한 완성(Safe Completions)’이라는 새로운 안전 접근법을 도입했다. 기존에는 위험할 수 있는 질문에 아예 답변을 거부했지만, GPT-5는 안전한 범위 내에서 최대한 도움이 되는 답변을 제공한다. 거부할 때도 이유를 투명하게 설명하고 대안을 제시한다. 이로써 과도한 검열로 인한 불편함은 줄이면서도 안전성은 높였다.

◇ 실용성과 강화, 글쓰기와 의료 분야 성능 ↑

GPT-5의 장점은 실용성이다. 대표 기능은 ‘바이브 코딩(Vibe Coding)’이다. 간단한 텍스트 설명만으로 완전한 웹사이트나 게임을 만드는 기능으로, 프로그래밍 지식이 없어도 복잡한 애플리케이션을 개발할 수 있게 해준다.

실제 데모에서 GPT-5는 “장애물을 뛰어넘는 러닝 게임을 만들어줘. 속도가 점점 빨라지고, 점수 기록 기능과 재시작 버튼, 재미있는 효과음이 있었으면 좋겠어”라는 요청만으로 완성도 높은 게임을 몇 초 만에 생성했다. 색상, 레이아웃, 애니메이션까지 세심하게 구현된 결과물이었다. 초기 테스터들은 “여백, 글꼴, 전체적인 디자인 감각이 이전과는 차원이 다르다”고 평가했다.

GPT-5는 “장애물을 뛰어넘는 러닝 게임을 만들어줘. 속도가 점점 빨라지고, 점수 기록 기능과 재시작 버튼, 재미있는 효과음이 있었으면 좋겠어”라는 요청만으로 완성도 높은 게임을 몇 초 만에 생성했다. /오픈AI 블로그 캡처

글쓰기 분야에서도 큰 발전을 보였다. GPT-5는 단순히 문법적으로 올바른 문장을 만드는 수준을 넘어, 문학적 깊이와 리듬감을 갖춘 글을 작성한다. 특히 시나 소설 같은 창작 영역에서 이전 모델들이 어색하게 처리했던 운율이나 문체를 자연스럽게 구현한다.

의료 분야 활용도 주목할 만하다. 의료 전문 벤치마크 HealthBench Hard에서 46.2%를 기록하며 이전 모델들을 크게 앞섰다. 물론 의료 진단을 대체할 수준은 아니지만, 일반적인 건강 정보 제공이나 증상 설명에서 훨씬 정확하고 신뢰할 만한 답변을 제공한다.

가격 정책도 경쟁력을 높였다. API 사용료는 입력 토큰당 GPT-4o의 절반인 $1.25/100만 토큰으로 책정했다. 추론 기능으로 인해 출력 토큰이 더 많이 사용되지만, 전체적으로는 비용 대비 성능이 크게 개선됐다.

AIME 결과 비교표. 사실 도구를 활용한 AIME 결과는 도구 없이 수행된 모델의 성능과 직접 비교할 수 없다. 이는 GPT-5가 사용 가능한 도구를 얼마나 효과적으로 활용하는지를 보여주는 예시다. /오픈AI 블로그 캡처

◇ 추론 기능 이용 확대, 무료 사용자도 사용 가능

이러한 추론 기능은 무료 사용자도 사용할 수 있다. 이전까지 o1이나 o3 같은 추론 모델은 유료 구독자만 사용할 수 있었다. 하지만 GPT-5는 무료 사용자도 복잡한 수학 문제나 프로그래밍 과제에서 AI의 심층 사고 과정을 활용할 수 있게 했다. 이는 AI 기술의 대중화에 결정적 전환점이 될 것으로 전망된다.

기업 사용자를 위한 GPT-5 Pro는 더욱 강화된 추론 기능을 제공한다. ‘병렬 테스트 시간 컴퓨팅’이라는 기술로 여러 추론 과정을 동시에 실행해 더 정확하고 포괄적인 답변을 만든다. 깃허브 코파일럿(GitHub Copilot)과의 통합으로 개발자들은 비주얼 스튜디오 코드(Visual Studio Code)에서 바로 GPT-5의 코딩 지원을 받을 수 있다.