
발표 배경 및 세부 내용: 2025년 10월 14일 Oracle AI World 2025 행사에서 Oracle Cloud Infrastructure (OCI) Zettascale10을 공개했습니다. 이는 OpenAI와의 협력 프로젝트 'Stargate'의 핵심 컴퓨팅 파브릭으로, 텍사스주 Abilene에 건설 중인 플래그십 슈퍼클러스터를 뒷받침합니다.
수십만 개의 NVIDIA GPU를 다중 데이터 센터에 연결해 최대 16 zettaFLOPS(1초당 16경 연산) 성능을 제공하며, 에너지 효율성을 높이기 위해 광학 기술(LPO/LRO)을 도입했습니다. 또한 AMD Instinct MI355X GPU 기반의 새 OCI 인스턴스를 함께 발표해 대규모 AI 훈련·추론 작업을 최적화합니다.
Oracle은 이를 "클라우드 내 최대 AI 슈퍼컴퓨터"로 홍보하며, 기존 Zettascale 클러스터(2024년 출시)의 후속 버전으로 위치짓고 있습니다.
영향 및 분석: 이 클러스터는 AI 모델 개발 속도를 가속화할 전망으로, OpenAI의 GPT 시리즈 업그레이드에 직접 기여할 수 있습니다. 그러나 기가와트급 전력 소비로 인해 지속 가능성 논란이 예상되며, Oracle의 AI 클라우드 시장 점유율(현재 2-3%)을 10% 이상 끌어올릴 동력이 될 것입니다. 초기 구축 비용은 수십억 달러로 추정되며, 2026년 상용화 예정입니다.
1. 아키텍처 개요
- 클러스터 디자인: Zettascale10은 멀티 데이터 센터를 아우르는 멀티 기가와트 규모 클러스터로 설계되었습니다. 수십만 개의 NVIDIA GPU를 연결하며, 텍사스주 Abilene에 건설 중인 플래그십 슈퍼클러스터를 기반으로 합니다. 이는 "넓고 얕은 탄력적 패브릭(wide, shallow, resilient fabric)" 아키텍처를 채택해, GPU 네트워크 인터페이스 카드(NIC)를 미니 스위치로 활용합니다. 각 GPU NIC는 여러 물리적·논리적 격리 네트워크 플레인에 연결되어, 혼잡 시 트래픽을 다른 플레인으로 이동시켜 안정성을 유지합니다.
- 스케일링 메커니즘: 중앙 프로세서(CPU)를 건너뛰는 데이터 전송(RoCE 기반)을 통해 GPU 간 직접 통신을 최적화합니다. 클러스터는 2km 반경 내 대형 데이터 센터 캠퍼스에 최적화되어 밀도를 높이며, 네트워크 계층을 제거해 지연을 최소화합니다.
- 운영 유연성: 플레인별 유지보수와 독립적 네트워크 OS 업데이트를 지원해 다운타임을 줄이고, 기능 롤아웃을 가속화합니다. 이는 대규모 AI 모델 배포 시 스톨(stalls)이나 재시작(checkpoint restarts)을 10배 이상 줄이는 효과를 발휘합니다.
2. 성능 지표
- 피크 성능: 16 zettaFLOPS (1초당 16 x 10^21 FLOPS). 이는 이전 Zettascale 클러스터 대비 10배 향상된 수준으로, 대형 언어 모델(LLM) 훈련에 적합합니다. 예를 들어, 텍스트·이미지·오디오·비디오 같은 대용량 파일 처리에서 추론(inference) 워크로드가 훈련(training)보다 더 큰 규모를 요구할 때 효과적입니다.
- 대역폭 및 지연: GPU-to-GPU 대역폭이 극도로 높아(400G/800G throughput), 네트워크 및 스토리지 처리량이 2배 증가하며 지연과 비용을 절감합니다. 클러스터 이용률(cluster utilization)이 향상되어, AI 작업의 예측 가능성을 높입니다.
- 효율성: 단위 성능당 전력 소비를 줄여 비용 효과성을 강조합니다. Oracle EVP Mahesh Thiagarajan은 "고객들은 더 적은 전력으로 단위 성능을 달성하며, 높은 신뢰성으로 대형 AI 모델을 구축·훈련·배포할 수 있다"고 밝혔습니다.
3. 하드웨어 구성
- GPU: 최대 800,000개의 NVIDIA GPU (NVIDIA AI 인프라 기반, 예: GB300 시리즈). 이는 대규모 컨텍스트 훈련(massive-context training)과 추론을 지원합니다.
- NIC 및 스위치: 현대 GPU NIC(스위칭 기능 내장)와 NVIDIA Spectrum-X 시리즈(BlueField-3 SuperNIC, Spectrum SN5000 이더넷 스위치). SuperNIC은 GPU 서버를 네트워크에 연결하고 컴퓨팅 작업을 오프로드합니다.
- 기타: AMD Instinct MI355X GPU 기반 OCI 인스턴스도 지원되며, 별도 50,000 GPU 클러스터(AMD MI450 기반, Helios 랙으로 1.4 exaFLOPS FP8 성능)를 2026년 Q3부터 제공합니다.
4. 네트워킹 기술
- 주요 아키텍처: Oracle Acceleron RoCE (RDMA over Converged Ethernet) with RoCEv2 프로토콜. 이는 전용 네트워크 패브릭, 융합 NIC, 호스트 레벨 제로 트러스트 패킷 라우팅을 포함합니다. GPU NIC를 미니 스위치로 활용해 여러 격리 플레인에 연결, 불안정 경로를 우회합니다.
- 광학 기술: Linear Pluggable Optics (LPO)와 Linear Receiver Optics (LRO)를 도입해 네트워크 및 냉각 비용을 줄이고, 컴퓨트 전력 예산을 확대합니다. 이는 기가와트 규모에서 패브릭 전체 성능을 최대화합니다.
- 보안 및 신뢰성: 데이터 공유를 피하고 제로 트러스트 라우팅으로 보안을 강화하며, 데이터·AI 주권 통제를 지원합니다.
5. 전력 소비 및 지속 가능성
- 규모: 멀티 기가와트(수 기가와트) 클러스터로, 대형 데이터 센터 캠퍼스에서 운영됩니다. 대부분의 전력을 컴퓨트에 집중하도록 설계되어 효율성을 높입니다.
- 최적화: 전력 효율적 광학(LPO/LRO)으로 네트워크 소비를 최소화. 이는 AI 워크로드 증가 시 에너지 비용을 20-30% 절감할 수 있지만, 기가와트급 소비로 인한 환경 논란이 예상됩니다. Oracle은 이를 통해 "더 적은 전력으로 더 큰 성능"을 강조합니다.
6. 주요 기능 및 용도
- 기능:
- 스케일링: 더 빠른 대형 클러스터 배포와 비용 절감.
- 신뢰성: 네트워크 플레인 격리로 AI 작업 안정성 향상.
- 유연성: 산업별 AI 애플리케이션(생성 AI, ML 시스템)에 최적화.
- 용도: 대형 AI 모델 훈련·배포(예: OpenAI의 GPT 시리즈), 연구에서 생산급 시스템으로의 전환. 특히, $500억 규모 Stargate 프로젝트의 백본으로 활용됩니다.
7. 파트너십 및 가용성
- 파트너십:
- OpenAI: Abilene 데이터 센터에 첫 배포, Stargate 프로그램 핵심.
- NVIDIA: 풀 스택 AI 인프라 통합.
- AMD: 차세대 AI 스케일링 및 에너지 효율 협력.
- 가용성: 현재 주문 접수 중, 2026년 하반기 상용화 예정. 초기 배포는 800,000 GPU 규모로 제한되며, 공유 메가 팩토리를 통해 중소 고객도 접근 가능합니다.






























