엔비디아, 새로운 시대의 GPU 튜링 아키텍처 공식 발표 (NVIDIA Turing)

by 아키텍트 posted Aug 19, 2018
?

단축키

Prev이전 문서

Next다음 문서

ESC닫기

크게 작게 위로 아래로 댓글로 가기 인쇄

ff168785-6b9c-4860-80aa-d99482cb605_mid.jpg


세계 최정상 GPU 기업 엔비디아(NVIDIA)가 SIGGRAPH 기조 강연에서 새로운 GPU 아키텍처 Turing을 공식 발표했다. CEO 젠슨황은 Turing은 NVIDIA의 GeForce와 Quadro를 위한 새로운 GPU이며 과거 GTX 8800과 같이 혁신적인 제품이라고 설명했다.


엔비디아는 발표와 함께 Turing 아키텍처의 프로페셔널 제품으로 Quadro RTX를 공개했다. Quadro RTX의 최대 포인트는 세이더 프로세싱만 아니라 다른 처리 기능을 부가한 것으로서 CUDA 코어의 개수는 4608개로 연산 성능은 FP32에서 16TFLOPS, 딥러닝 텐서 코어(Tensor Core)의 성능은 INT4 500TOPS, 새로운 레이 트레이싱 액셀러레이터 RT 코어(RT Core)는 10Giga Rays/s, 또한 멀티 GPU를 위한 NVLink 2링크를 지원한다.


Turing 세대에서 레이 트레이싱 지원 하드웨어의 성능은 예상을 뛰어넘는다. 10Giga Rays/s라는 엄청난 성능으로 실시간 레이 트레이싱을 전통적 3D 렌더링과 같은 수준으로 실현해 버린다. 또한 RT 코어의 개요는 아직 정확하게 밝혀지지 않았으며 슬라이드에는 Ray Triangles Intersection, Bounding Volume Hierarchy Traversal로 설명하고 있다.


Project Sol: A Real-Time Cinematic Scene Powered by NVIDIA RTX


이러한 요소는 레이 트레이싱에서 처리량이 많은 부분을 액셀러레이터에서 처리하는 것을 의미하며 엔비디아가 본격적인 레이 트레이싱 액셀러레이터를 구현한 것이다. 엔비디아 자체적으로 실시간 레이 트레이싱에서 Turing은 기존 Pascal 아키텍처 대비 6배 고속이라고 밝혔다. 6배라는 차이는 전체 처리 시간을 비교한 것으로 딥러닝 기반의 DLAA를 포함한 시간이며 이 비교는 Microsoft의 DirectX Ray Tracing에서 비교됐다.


새로운 튜링 아키텍처는 12나노 프로세스가 적용되고, 186억 트랜지스터, 강력한 RT 코어를 갖추며 다이 사이즈는 754mm2로 기존 GP102의 471mm2 다이 사이즈보다 더 커지고 있다. CUDA 코어는 4608개로 연산 성능은 FP32에서 16TFLOPS, SM(Streaming Multiprocessor)은 64개의 CUDA 코어로 갖춰져 있다. SM 또한 새로운 설계가 적용되고 있는데 부동 소수점 연산 유닛과 정수 연산 유닛을 병렬로 동작시킬 수 있도록 변경되고 있기 때문에 기존의 SM 구성과 단순 성능 비교가 힘들다. 또, Turing은 처음으로 텐서 코어를 탑재하고 있다. 텐서 코어는 FP16, INT8, INT4, 추론 성향으로 8-bit 정수와 4-bit 정수가 지원됐다. INT8과 INT4는 SIMD(Single Instruction, Multiple Data)로 연산 성능은 각각 FP16의 2배와 4배나 많다.


RTX.jpg


메모리는 GDDR6가 탑재되어 전송 속도는 14Gbps, 메모리 인터페이스는 384-bit, 메모리 대역은 672GB/s로 확인됐다. 메모리 용량은 최대 48GB로 이는 GDDR6에서는 16Gb 용량의 칩이 양산되고 있기 때문이며 온 다이 L2 캐시를 6MB 탑재한다. 메모리 스펙도 레이 트레이싱에 유리한데 이는 레이 트레이싱에서 렌더링 하는 3D 스페이스가 커지기 때문에 더 큰 메모리가 필요하며 메모리 접근 패턴이 보다 디테일하게 되는 경우가 많아 메모리 입도가 작은 쪽이 좋기 때문이다.


엔비디아는 칩 간 접속 기술로 NVLink를 개발했다. Turing에도 NVLink가 2링크 탑재되고 있으며 1링크에 50GB/s 쌍방향 대역으로 합계 100GB/s의 대역을 지원한다. Quadro RTX는 NVLink 인터페이스가 탑재되고 있어 NVLink 브리지를 연결해 2개의 카드를 100GB/s 대역으로 접속할 수 있다. 호스트와의 접속은 기존과 같이 PCI Express이며 2장의 카드에 의한 시스템의 메모리 용량은 최대 96GB 라는 계산이 된다. 디스플레이는 8K DisplayPort 지원 외 Virtuallink 지원이 추가됐다. 주로 VR(가상현실)용으로 USB type-C 경유로 비디오 출력과 제어의 단일화가 가능한 규격이다. 때문에 USB type-C의 PHY를 다이에 싣고 있다.


Turing은 GPU 진화가 새로운 단계로 접어든 것을 나타내고 있다. Turing 아키텍처를 보면 전통적인 CUDA 코어 보다 레이 트레이싱을 위한 RT 코어 하드웨어와 인공지능 딥러닝을 위한 텐서 코어, 그리고 칩 간 접속을 위한 NVLink PHY 등을 보다 더 강화하고 있다. 이러한 방향은 그래픽 GPU의 진화 방향은 이제 단순히 세이더 프로세싱 성능 강화가 큰 의미가 없다는 것을 의미한다. 엔비디아는 전통적인 래스터 라이즈 파이프 라인의 증량이 아닌 레이 트레이싱과 딥러닝을 통합한 하이브리드 그래픽 파이프 라인 아키텍처 확립으로 새로운 GPU 방향을 제시하기 시작했다. 






Articles

1 2 3 4 5 6 7 8 9 10