OpenAI가 쓰는 GPU 개수는 몇개일까?
요즘 AI 분야에서 가장 자주 듣는 말이 GPU 부족입니다. 실제로 OpenAI의 CEO 샘 알트먼도 “우린 GPU가 모자라다”는 말을 여러 번 했습니다. 그만큼 AI 모델 훈련과 서비스 운영에서 GPU는 핵심 자원입니다. 그래서 이번엔 OpenAI가 실제로 어느 정도의 GPU를 보유하고 있고, 어떻게 활용하고 있는지를 집중적으로 조사해봤습니다.
직접 실물 GPU를 만져본 건 아니지만, 다양한 기술 자료와 인터뷰, 분석 보고서를 종합해서 OpenAI의 GPU 인프라를 마치 실제로 운영해보듯 리뷰해봤습니다. 조사하는 동안 느낀 점은, 단순히 GPU 개수가 중요한 게 아니라 이걸 어떤 전략으로 확보하고 활용하느냐가 더 중요하다는 거였습니다.
OpenAI, GPU를 얼마나 갖고 있나?
가장 먼저 궁금했던 건, OpenAI가 실제로 갖고 있는 GPU 수량이었습니다.
정확한 숫자는 공개되지 않았지만, 여러 가지 자료와 CEO의 인터뷰를 종합하면 현재 기준으로 약 50,000~100,000개의 GPU를 운영 중인 것으로 보입니다. 특히 GPT-4.5, ChatGPT, DALL·E 3 같은 최신 서비스들이 늘어나면서 GPU 수요도 빠르게 증가하고 있습니다.
GPT-4를 훈련할 당시 약 25,000개 가량의 Nvidia H100 GPU가 사용됐다는 보고가 있었고, 2024년 이후에는 H200과 B200으로 전환이 시작됐습니다. 특히 B200은 Nvidia의 최신 아키텍처인 Blackwell 기반으로, H100 대비 성능이 약 2~3배 향상됐습니다.
단순 수치로만 보면 과거보다 GPU 개수가 급증한 건 아니지만, 성능 향상 덕분에 전체 처리 능력은 훨씬 더 높아졌습니다.
Open AI 와 MS 의 전략적 파트너십
OpenAI가 이렇게 많은 GPU를 보유하거나 운영할 수 있는 배경엔 Microsoft와의 전략적 파트너십이 있습니다.
OpenAI는 자체 데이터센터를 일부 운영하긴 하지만, 대부분의 연산 작업은 Azure 클라우드 기반에서 실행됩니다. 다시 말해, Microsoft가 보유한 GPU가 곧 OpenAI의 GPU라고 봐도 무방합니다.
Business Insider에 따르면, Microsoft는 2024년 말까지 약 180만 개의 GPU 확보를 목표로 세웠고, 그 대부분은 Nvidia의 최신 제품입니다. 이 정도면 단일 기업 기준으로 세계 최대 규모입니다.
OpenAI는 이 인프라에 우선 접근할 수 있는 구조이기 때문에, 단순히 자금을 쏟아붓는 다른 스타트업과 비교하면 훨씬 유리한 위치에서 모델을 훈련하고 운영할 수 있습니다.
어떤 GPU를 쓰고 있을까?
OpenAI가 사용하는 GPU는 시기에 따라 조금씩 달라졌습니다.
- H100 (2022~2023)
GPT-4 훈련의 주력 GPU. 여전히 일부 시스템에서 사용 중. - H200 (2024 상반기부터)
메모리 대역폭과 연산 성능이 개선된 모델. DGX H200 시스템으로 채택. - B200 (2024 하반기부터)
Nvidia의 최신 GPU. Blackwell 아키텍처 기반으로, 초대형 모델 학습에 최적화됨.
DGX B200 시스템(8개의 B200 GPU 구성)을 OpenAI가 세계 최초로 도입.
B200 GPU는 단일 칩에 208억 개의 트랜지스터가 들어가 있고, FP4 기준 최대 20PFLOPS 성능을 냅니다. 이 수치는 인간이 감당하기 어려운 연산량을 실시간으로 처리할 수 있다는 의미입니다.
실제 사례를 보면, GPT-4.5의 일부 학습과 DALL·E 3의 이미지 생성에도 B200이 활용되고 있다는 추정이 있습니다.
Microsoft, GPU로 AI 경쟁의 판을 바꾸다
이쯤 되면 자연스럽게 Microsoft 이야기가 다시 나옵니다.
GPU는 Nvidia가 만든다지만, 그걸 수십만 개 단위로 구매해 인프라화하는 건 클라우드 기업들입니다.
Microsoft는 2023년부터 본격적으로 AI 인프라에 투자를 확대했고, Azure 기반의 GPU 인스턴스를 늘리기 위해 데이터센터도 공격적으로 확장하고 있습니다.
특히 주목할 점은 아래 세 가지입니다:
- 2024년 말까지 180만 개 GPU 확보 목표
- AI 전용 데이터센터 설계에 착수
- 자체 AI 칩 개발로 장기 GPU 의존도 분산
이 중에서도 OpenAI와의 협업을 위해 Nvidia GPU를 우선적으로 할당하는 구조는 OpenAI 입장에선 매우 큰 강점입니다. 어떤 기업은 GPU가 없어 모델 훈련을 몇 달씩 기다려야 하는 상황에서, OpenAI는 최신 GPU를 거의 실시간으로 도입해 실험하고 적용할 수 있으니까요.
GPU 확보만큼 중요한 연산 전략
제가 이번 조사를 하면서 느낀 건, 단순히 GPU 개수만 많다고 해서 AI 경쟁력이 확보되는 건 아니라는 점입니다.
OpenAI는 다음과 같은 전략으로 GPU 인프라를 운영하고 있습니다:
- 초기엔 H100으로 대규모 훈련
- 이후 GPT-4.5, ChatGPT Plus 등의 서비스에선 추론 최적화 구조 전환
- 최신 기술 등장 시 즉시 B200 등 신형 GPU로 전환 테스트
- Microsoft 인프라 기반으로 유연하게 확장/축소 가능
이런 방식은 단순히 연산 자원을 쌓아놓는 게 아니라, 필요한 시점에 필요한 리소스를 최적화해 사용하는 구조입니다.
클라우드와 GPU의 결합이 가진 진짜 의미는, 물리적 한계를 넘는 유연한 리소스 조정이 가능하다는 것이기도 합니다.
앞으로 OpenAI는 얼마나 더 GPU를 확보할까?
Sam Altman은 최근에도 “앞으로 수만 개의 GPU가 더 필요하다”고 밝혔습니다.
GPT-5나 차세대 멀티모달 모델에 필요한 연산량 때문인데요, 기존보다 훈련 데이터 양과 파라미터 수가 수 배 이상 증가할 것으로 예상됩니다.
또한, OpenAI는 이미지, 음성, 코드, 로봇 제어 등 다양한 영역으로 서비스를 확장 중이라, 단순 텍스트 기반 모델보다 훨씬 더 높은 연산량이 필요해집니다.
이런 흐름을 보면, 앞으로도 OpenAI는 Microsoft 인프라를 기반으로 최소 수십만 개의 GPU를 동원하게 될 것으로 보입니다.
GPU 그 이상의 전략
OpenAI는 GPU를 많이 가진 기업이 아닙니다. 잘 활용하는 기업입니다.
그리고 그 핵심엔 Microsoft와의 긴밀한 파트너십이 있었습니다.
제가 조사하며 느낀 건, OpenAI가 스스로 모든 걸 만들진 않았지만, 최신 기술을 가장 빠르게 적용할 수 있는 위치에 있다는 것이었습니다.
그 덕분에 GPT 모델은 빠르게 진화하고 있고, 사용자는 점점 더 강력한 AI를 손쉽게 활용할 수 있게 된 거죠.
GPU를 직접 다루지 않아도, GPU 전략을 잘 짜는 게 AI 경쟁력의 핵심이라는 걸 새삼 느낀 경험이었습니다.
댓글