6월 11일 (목) 오전 2:47

logo

  • home
  • head
  • itnews
  • product
  • mobile
  • game
  • benchmark
  • analysis
  • blog

감독/각본: 나홍진 개봉: 2026년 (여름 예정) 장르: SF, 스릴러, 미스터리 특징: 한국 + 할리우드 합작 수준의 글...
장르: SF, 재난, 스릴러 국가: 대한민국 특징: 집단 생명체(“군체”)라는 독특한 설정 중심 감독: 연...

Zettascale10.jpg

 

발표 배경 및 세부 내용: 2025년 10월 14일 Oracle AI World 2025 행사에서 Oracle Cloud Infrastructure (OCI) Zettascale10을 공개했습니다. 이는 OpenAI와의 협력 프로젝트 'Stargate'의 핵심 컴퓨팅 파브릭으로, 텍사스주 Abilene에 건설 중인 플래그십 슈퍼클러스터를 뒷받침합니다.

 

수십만 개의 NVIDIA GPU를 다중 데이터 센터에 연결해 최대 16 zettaFLOPS(1초당 16경 연산) 성능을 제공하며, 에너지 효율성을 높이기 위해 광학 기술(LPO/LRO)을 도입했습니다. 또한 AMD Instinct MI355X GPU 기반의 새 OCI 인스턴스를 함께 발표해 대규모 AI 훈련·추론 작업을 최적화합니다.

 

Oracle은 이를 "클라우드 내 최대 AI 슈퍼컴퓨터"로 홍보하며, 기존 Zettascale 클러스터(2024년 출시)의 후속 버전으로 위치짓고 있습니다.


영향 및 분석: 이 클러스터는 AI 모델 개발 속도를 가속화할 전망으로, OpenAI의 GPT 시리즈 업그레이드에 직접 기여할 수 있습니다. 그러나 기가와트급 전력 소비로 인해 지속 가능성 논란이 예상되며, Oracle의 AI 클라우드 시장 점유율(현재 2-3%)을 10% 이상 끌어올릴 동력이 될 것입니다. 초기 구축 비용은 수십억 달러로 추정되며, 2026년 상용화 예정입니다.

 

1. 아키텍처 개요

  • 클러스터 디자인: Zettascale10은 멀티 데이터 센터를 아우르는 멀티 기가와트 규모 클러스터로 설계되었습니다. 수십만 개의 NVIDIA GPU를 연결하며, 텍사스주 Abilene에 건설 중인 플래그십 슈퍼클러스터를 기반으로 합니다. 이는 "넓고 얕은 탄력적 패브릭(wide, shallow, resilient fabric)" 아키텍처를 채택해, GPU 네트워크 인터페이스 카드(NIC)를 미니 스위치로 활용합니다. 각 GPU NIC는 여러 물리적·논리적 격리 네트워크 플레인에 연결되어, 혼잡 시 트래픽을 다른 플레인으로 이동시켜 안정성을 유지합니다.
  • 스케일링 메커니즘: 중앙 프로세서(CPU)를 건너뛰는 데이터 전송(RoCE 기반)을 통해 GPU 간 직접 통신을 최적화합니다. 클러스터는 2km 반경 내 대형 데이터 센터 캠퍼스에 최적화되어 밀도를 높이며, 네트워크 계층을 제거해 지연을 최소화합니다.
  • 운영 유연성: 플레인별 유지보수와 독립적 네트워크 OS 업데이트를 지원해 다운타임을 줄이고, 기능 롤아웃을 가속화합니다. 이는 대규모 AI 모델 배포 시 스톨(stalls)이나 재시작(checkpoint restarts)을 10배 이상 줄이는 효과를 발휘합니다.

2. 성능 지표

  • 피크 성능: 16 zettaFLOPS (1초당 16 x 10^21 FLOPS). 이는 이전 Zettascale 클러스터 대비 10배 향상된 수준으로, 대형 언어 모델(LLM) 훈련에 적합합니다. 예를 들어, 텍스트·이미지·오디오·비디오 같은 대용량 파일 처리에서 추론(inference) 워크로드가 훈련(training)보다 더 큰 규모를 요구할 때 효과적입니다.
  • 대역폭 및 지연: GPU-to-GPU 대역폭이 극도로 높아(400G/800G throughput), 네트워크 및 스토리지 처리량이 2배 증가하며 지연과 비용을 절감합니다. 클러스터 이용률(cluster utilization)이 향상되어, AI 작업의 예측 가능성을 높입니다.
  • 효율성: 단위 성능당 전력 소비를 줄여 비용 효과성을 강조합니다. Oracle EVP Mahesh Thiagarajan은 "고객들은 더 적은 전력으로 단위 성능을 달성하며, 높은 신뢰성으로 대형 AI 모델을 구축·훈련·배포할 수 있다"고 밝혔습니다.

3. 하드웨어 구성

  • GPU: 최대 800,000개의 NVIDIA GPU (NVIDIA AI 인프라 기반, 예: GB300 시리즈). 이는 대규모 컨텍스트 훈련(massive-context training)과 추론을 지원합니다.
  • NIC 및 스위치: 현대 GPU NIC(스위칭 기능 내장)와 NVIDIA Spectrum-X 시리즈(BlueField-3 SuperNIC, Spectrum SN5000 이더넷 스위치). SuperNIC은 GPU 서버를 네트워크에 연결하고 컴퓨팅 작업을 오프로드합니다.
  • 기타: AMD Instinct MI355X GPU 기반 OCI 인스턴스도 지원되며, 별도 50,000 GPU 클러스터(AMD MI450 기반, Helios 랙으로 1.4 exaFLOPS FP8 성능)를 2026년 Q3부터 제공합니다.

4. 네트워킹 기술

  • 주요 아키텍처: Oracle Acceleron RoCE (RDMA over Converged Ethernet) with RoCEv2 프로토콜. 이는 전용 네트워크 패브릭, 융합 NIC, 호스트 레벨 제로 트러스트 패킷 라우팅을 포함합니다. GPU NIC를 미니 스위치로 활용해 여러 격리 플레인에 연결, 불안정 경로를 우회합니다.
  • 광학 기술: Linear Pluggable Optics (LPO)와 Linear Receiver Optics (LRO)를 도입해 네트워크 및 냉각 비용을 줄이고, 컴퓨트 전력 예산을 확대합니다. 이는 기가와트 규모에서 패브릭 전체 성능을 최대화합니다.
  • 보안 및 신뢰성: 데이터 공유를 피하고 제로 트러스트 라우팅으로 보안을 강화하며, 데이터·AI 주권 통제를 지원합니다.

5. 전력 소비 및 지속 가능성

  • 규모: 멀티 기가와트(수 기가와트) 클러스터로, 대형 데이터 센터 캠퍼스에서 운영됩니다. 대부분의 전력을 컴퓨트에 집중하도록 설계되어 효율성을 높입니다.
  • 최적화: 전력 효율적 광학(LPO/LRO)으로 네트워크 소비를 최소화. 이는 AI 워크로드 증가 시 에너지 비용을 20-30% 절감할 수 있지만, 기가와트급 소비로 인한 환경 논란이 예상됩니다. Oracle은 이를 통해 "더 적은 전력으로 더 큰 성능"을 강조합니다.

6. 주요 기능 및 용도

  • 기능:
    • 스케일링: 더 빠른 대형 클러스터 배포와 비용 절감.
    • 신뢰성: 네트워크 플레인 격리로 AI 작업 안정성 향상.
    • 유연성: 산업별 AI 애플리케이션(생성 AI, ML 시스템)에 최적화.
  • 용도: 대형 AI 모델 훈련·배포(예: OpenAI의 GPT 시리즈), 연구에서 생산급 시스템으로의 전환. 특히, $500억 규모 Stargate 프로젝트의 백본으로 활용됩니다.

7. 파트너십 및 가용성

  • 파트너십:
    • OpenAI: Abilene 데이터 센터에 첫 배포, Stargate 프로그램 핵심.
    • NVIDIA: 풀 스택 AI 인프라 통합.
    • AMD: 차세대 AI 스케일링 및 에너지 효율 협력.
  • 가용성: 현재 주문 접수 중, 2026년 하반기 상용화 예정. 초기 배포는 800,000 GPU 규모로 제한되며, 공유 메가 팩토리를 통해 중소 고객도 접근 가능합니다.






  1. [클라우드 시장 전망] AI·엣지 컴퓨팅 주도 성장, 2026년 1조 달러 돌파

    ResearchAndMarkets와 MarketsandMarkets 보고서에 따르면, 글로벌 클라우드 컴퓨팅 시장은 2024년 1,125.9억 달러에서 2025년 1,294.9억 달러로 성장하며 2030년까지 2,281.1억 달러에 이를 전망입니다(연...
    Date2025.10.26 CategorySRV Views895
    Read More
  2. OpenAI와 Oracle, 5년간 3,000억 달러 규모 컴퓨팅 계약 체결

    2025년 9월 10일 발표된 이 딜은 역사상 최대 규모의 기술 계약 중 하나로, 2027년부터 5년간 OpenAI가 Oracle로부터 3,000억 달러(약 400조 원) 규모의 컴퓨팅 자원을 구매합니다. 이는 Stargate 프로젝트...
    Date2025.10.26 CategorySRV Views878
    Read More
  3. Oracle, AI용 Zettascale10 클러스터 발표: 클라우드 기반 최대 AI 슈퍼컴퓨터

      발표 배경 및 세부 내용: 2025년 10월 14일 Oracle AI World 2025 행사에서 Oracle Cloud Infrastructure (OCI) Zettascale10을 공개했습니다. 이는 OpenAI와의 협력 프로젝트 'Stargate'의 핵심 컴...
    Date2025.10.26 CategorySRV Views857
    Read More
  4. IBM, AI 탑재한 차세대 메인프레임 'z17' 공개

      ​IBM은 2025년 4월 10일, 인공지능(AI) 기능을 대폭 강화한 차세대 메인프레임 시스템인 IBM z17을 공개했습니다. 이 새로운 메인프레임은 AI 추론 성능을 50% 향상시키고, 250개 이상의 다양한 AI ...
    Date2025.04.11 CategorySRV Views1222
    Read More
  5. 엔비디아, 데스크톱용 AI 슈퍼컴퓨팅 칩 'Project DIGITS' 발표

    엔비디아(NVIDIA)는 2025년 1월 CES에서 개인용 AI 슈퍼컴퓨터인 Project DIGITS를 발표했습니다. 이 제품은 고성능 AI 연산을 데스크톱 환경에서도 가능하게 하여, 데이터 과학자, 연구자, 학생...
    Date2025.04.11 CategorySRV Views1163
    Read More
  6. 델 테크놀로지스, PowerEdge 시리즈 및 PowerStore, ObjectScale 등 출시

    델 테크놀로지스는 AI 기반 데이터센터를 위한 새로운 인프라 솔루션을 대거 공개했습니다. 이번 발표는 서버, 스토리지, 데이터 보호 등 다양한 분야에서 AI 워크로드를 효율적으로 처리할 수 있도록 설계...
    Date2025.04.11 CategorySRV Views608
    Read More
  7. 델 테크놀로지스, 2025년 IT 기술 전망 발표

    델 테크놀로지스는 2025년을 'AI 테크 빅뱅'의 해로 전망하며, 인공지능이 일상생활과 업무 환경 전반에 핵심 기술로 자리 잡을 것으로 예측했습니다. 주요 내용은 다음과 같습니다.   - 에이전틱 A...
    Date2025.04.11 CategorySRV Views519
    Read More
  8. 이더넷 스위치 판매 반등 예상 및 광포닉스 네트워킹 장비 공개 등

    이더넷 캠퍼스 스위치 시장 회복 전망: 델오로 그룹의 보고서에 따르면, 2024년에 20% 감소했던 이더넷 캠퍼스 스위치 시장이 2025년에는 리프레시 사이클과 Wi-Fi 7 도입에 힘입어 회복될 것으로 예상됩니...
    Date2025.04.09 CategorySRV Views437
    Read More
  9. NVIDIA, 거대 언어 모델 훈련용 개방형 합성 데이터 생성 파이프라인 출시

    NVIDIA는 오늘 개발자가 의료, 금융, 제조, 리테일 및 기타 모든 산업 분야의 상용 애플리케이션을 위한 거대 언어 모델(LLM)을 훈련하기 위한 합성 데이터를 생성하는 데 사용할 수 있는 개방형 모델 제품...
    Date2024.07.04 CategorySRV Views1097
    Read More
  10. SK하이닉스, 생성형 AI에 특화된 GDDR6-AiM 기반 가속기 카드 ‘AiMX’ 시제품 최초...

    SK하이닉스가 지난 12일(미국시간)부터 사흘간 미국 캘리포니아주 메리어트 산타클라라 호텔에서 열린 ‘AI Hardware & Edge AI Summit(이하 AI 서밋) 2023’에서 GDDR6-AiM 기반의 생성형 A...
    Date2023.09.18 CategorySRV Views986
    Read More
  11. 엔비디아, 생성형 AI와 산업 디지털화 가속화 위한 엔비디아 OVX 서버 공개

    엔비디아® L40S GPU를 탑재한 엔비디아 OVX™ 서버가 공개되었습니다! 이 새로운 서버는 엔비디아 옴니버스(NVIDIA Omniverse)™ 플랫폼을 통해 AI 훈련과 추론, 3D 디자인과 시각...
    Date2023.08.09 CategorySRV Views862
    Read More
  12. 엔비디아 H100 GPU, 이제 AWS 클라우드에서 이용

      이제 AWS 사용자라면 업계 벤치마크에서 입증된 강력한 AI 훈련 및 추론 성능에 액세스할 수 있답니다! 이 거대한 클라우드 기업은 엔비디아 H100 텐서 코어 GPU(NVIDIA H100 Tensor Core GPU)로 ...
    Date2023.07.31 CategorySRV Views895
    Read More
  13. 엔비디아, 하이퍼스케일 생성형 AI용 가속 이더넷 플랫폼 ‘엔비디아 스펙트럼-X’ 출시

    엔비디아 스펙트럼-X™(NVIDIA Spectrum-X™)이 출시되었습니다. 스펙트럼-X는 이더넷 기반 AI 클라우드의 성능과 효율을 개선하도록 고안된 가속 네트워킹 플랫폼입니다. 엔비디아 스펙트럼-X는 엔비디...
    Date2023.06.05 CategorySRV Views639
    Read More
  14. NVIDIA Announces Third-Generation OVX Computing Systems to Power Industrial Metaverse Applications

    Digitalization that combines AI and simulation is redefining how industrial products are created and transforming how people interact with the digital world. To help enterprises tackle c...
    Date2023.03.26 CategorySRV Views768
    Read More
  15. 인텔, 엔비디아 A100 성능을 뛰어넘는 2세대 하바나 가우디2 성능 공개

      하바나 가우디2 메자닌 카드 하바나 가우디2 메자닌 카드 이미지 2022년 5월 10일, AI 딥러닝 프로세서 기술에 중점을 둔 인텔의 데이터 센터 팀인 하바나 랩스는 학습 및 추론을 위한 2세대 딥 러...
    Date2022.10.01 CategorySRV Views751
    Read More
  16. 삼성전자, 인공지능 탑재 메모리 제품군 확대

    삼성전자가 AI엔진을 탑재한 메모리 반도체 제품군을 확대한다. 삼성전자는 메모리와 시스템반도체의 융복합화를 주도하며, 다양한 글로벌 기업들과 협력을 통해 차세대 메모리 반도체 생태계를 빠르게 ...
    Date2021.08.24 CategorySRV Views1310
    Read More
  17. 인텔, 서버 타겟 새로운 제온 W-3300 프로세서 시리즈 발표

    인텔이 최신 Intel Xeon W-3300 프로세서 시리즈를 출시했다. Intel Xeon W-3300 프로세서는 스레드가 많고 입출력 집약적인 워크로드에 특화되어 전문 응용 프로그램을 위해 설계됐다. 그에 따라 ...
    Date2021.08.02 CategorySRV Views549
    Read More
  18. HBM2E 통합 Xilinx Versal HBM 시리즈 발표, 네트워크 및 클라우드 빅데이터 대응

    적응형 컴퓨팅의 선두주자인 자일링스(Xilinx, Inc)가 Versal 포트폴리오의 최신 시리즈인 Versal HBM 적응형 컴퓨팅 가속 플랫폼(ACAP)을 출시했다.  Versal HBM 시리즈는 단일 플랫폼에서 빠른 메모리, ...
    Date2021.07.18 CategorySRV Views403
    Read More
  19. 인텔, 10나노 Ice Lake 기반 3세대 Xeon 스케일러블 프로세서 출시

    인텔이 오늘 출시한 3세대 인텔® 제온® 스케일러블(Intel® Xeon® Scalable) 프로세서는 고객이 멀티 클라우드 환경에 최적화된 유연한 인프라를 구축할 수 있도록 설계되었으며, 5G 네트워킹, 인공지능(...
    Date2021.04.17 CategorySRV Views709
    Read More
  20. 삼성전자, 세계 최초 인공지능 HBM-PIM 개발

    삼성전자가 세계 최초로 메모리 반도체와 인공지능 프로세서를 하나로 결합한 HBM-PIM(Processing-in-Memory)을 개발했다. PIM(Processing-in-Memory)은 메모리 내부에 연산 작업에 필요한 프로세서 ...
    Date2021.02.17 CategorySRV Views400
    Read More
Board Pagination Prev 1 2 3 4 5 6 7 8 9 10 ... 14 Next
/ 14