엔비디아 볼타 세대 Tesla V100 투입, DGX/DGX Station 3분기 출하

미국 NVIDIA는 5월 8일~11일(현지 시간)에 걸쳐 이 회사의 GPU를 이용한 제품을 개발하고 있는 개발자 전용 이벤트 GTC(GPU Technology Conference)2017을 개최했다. 3일째인 5월 10일에는 동사의 창업자 겸 CEO 젠슨・황의 기조 강연이 진행되며 새로운 솔루션 등에 대한 설명이 이루어졌다.

VR 세계에 사용자가 참여할 수 있는 "Project Holodeck"은 9월부터 접근

이제는 트레이드 마크가 되고 있는 가죽 재킷 차림으로 등장한 황씨는 기조 강연을 "무어의 법칙 이후의 세계" 라고 쓰인 슬라이드부터 시작했다.

황씨는 "트랜지스터를 늘리고 성능을 올린다는 접근은 서서히 에너지 효율의 관점에서 한계가 다가오고 있다. 실제로 CPU의 성능은 연 10% 향상으로 정도로 크지 않았다. 그러나 GPU는 연간 50%를 넘어섰다" 며 GPU의 성능 향상이 두드러지기 때문에 과학 연산이나 딥 러닝과 같이 극도의 연산 성능이 필요한 경우에는 CPU에서 GPU의 오프 로드라는 흐름이 정착되고 있다고 지적했다.

그래서 GPU를 이용해 범용 연산을 시행하는 CUDA가 보급되었고 다수의 사용자가 이런 혜택을 받고 있다고 밝혔다. 그것에 맞추어 GTC의 참가자나 늘었고 2012년에 비해 참가자 수는 3배가 됐고, GPU 개발자와 CUDA의 다운로드도 늘어하고 있다고 밝혔다.

황씨가 제일 먼저 소개한 "Project Holodeck"은 동사의 IRAY로 렌더링 된 사진 품질의 VR 영상에 사용자의 육체가 스며들어 조작하는 식이다.

시연에서 자동차 3D CAD 데이터를 바탕으로 만들어진 자동차에 사용자가 타거나 주위에서 그 자동차를 보는 모습이 표시됐다. 이렇게 되면 자동차 딜러 등 가족 3명이 VR HMD를 쓰고 같은 VR 자동차에 타고 모습을 확인하는 사용이 가능하게 된다. 발표에 따르면 Project Holodeck은 9월부터 조기 접근이 시작될 예정.

또 레이 트레이싱(빛과 그림자를 실제 물리 세계와 마찬가지로 렌더링하는 방식)으로 딥 러닝에 의한 AI(인공지능)을 이용하여 보다 사실적인 빛과 그림자 등을 표시한다는 시연도 이어졌다.

파스칼 보다 더 딥 러닝에 최적화된 볼타를 채용한 "Tesla V100"

이어 현재의 NVIDIA가 주력하고 있는 딥 러닝 기법을 활용한 AI 이야기로 이어졌다. 황씨는 "딥 러닝을 배우는 학생이 늘어나는 등 딥 러닝이 주목되고 있다. 딥 러닝은 컴퓨팅을 자유롭게하여 이제 누구나 자신의 데이터를 갖고 컴퓨터를 단련할 수 있다" 며 딥 러닝을 활용한 AI가 보급됨으로써 새로운 컴퓨터 형태가 가능하다고 한다.

황씨는 "NVIDIA는 하드웨어 뿐 아니라 소프트웨어 SDK도 포함하여 제공하고 있다. 어떠한 딥 러닝 체제도 지원하여 높은 성능을 발휘한다" 며 NVIDIA의 GPU가 딥 러닝 각종 소프트웨어를 개발하는데 최고의 플랫폼으로 규정했다.

그 구체적인 예로서 독일의 기업용 업무 시스템을 제공하고 있는 SAP과의 제휴를 언급하며 SAP이 엔터프라이즈용으로 제공하고 있는 AI가 엔비디아의 DGX-1에서 실현되고 있는 것 등을 소개했다.

그리고 딥 러닝을 이용한 AI를 실현하기엔 아직 처리 능력이 모자르다며 동사의 새로운 제품으로 "Tesla V100"을 발표했다.

Tesla V100은 동사가 개발 코드 네임 "볼타(Volta)"라고 불러온 차세대 아키텍처로 5120기의 CUDA 코어를 탑재하고 있다. 20MB의 SM RF, 16MB의 캐시, 심지어 16GB의 HBM2 메모리를 인터포저에 탑재하고 있어 메모리 대역폭은 900GB/s에 이른다.

또한 2세대 NVLink를 탑재하고 있어 대역폭은 300GB/s를 실현, TSMC의 12nm 프로세스에서 제조되어 다이 사이즈는 815평방mm로 애플워치와 비슷한 면적이라고 한다. 발표에 따르면 FP64로 7.5TFLOPS, FP32에서 15TFLOPS의 연산 성능을 갖추고 있다고 한다.

또 황씨는 "Tesla V100은 새로운 CUDA TensorOp 명령어 집합과 데이터 포맷에 대응하고 있다. 그로 인해 딥 러닝에 최적화되고 있다" 며 볼타가 파스칼 세대보다 딥 러닝에 더 최적화되어 있다고 밝혔다. 그러한 최적화로 파스칼 세대와 비교해 범용 FLOPS에서는 1.5배, 딥 러닝 학습 목적의 Tensor FLOPS에서 12배, 딥 러닝 추론을 위한 Tensor FLOPS에서 6배가 되고 있다고 밝혔다.

그 뒤 스퀘어 에닉스가 작성한 Final Fantasy XV의 시연과 시뮬레이션 등을 공개했다.

가격은 그대로 무료 업그레이드도 제공되는 볼타 버전 DGX-1

그 뒤 황씨는 Tesla V100을 이용한 NVIDIA 서버 어플라이언스 제품군에 대해 설명했다. 지난해(2016년) GTC에서 Pascal 베이스의 Tesla P100을 8개 탑재한 HPC로 주목 받은 "DGX-1"이 소개됐고 그 제품의 볼타 버전이 되는 "DGX-1 with Tesla V100"을 소개했다.

이는 DGX-1에 탑재된 8개의 Tesla P100을 8개의 Tesla V100으로 대체한 제품이다. 그래서 기본적 사양은 같고 "DGX-1 with Tesla V100은 이미 예약을 시작했다. 앞으로 주문한 사용자에게는 Pascal 기반의 제품을 보내며 볼타가 공급되는 대로 Tesla V100 버전으로 무상 업그레이드" 가 된다고 밝혔다. 볼타 기반의 제품은 3분기 이후에 공급이 이뤄질 전망이다.

그리고 신모델로 "DGX STATION"을 발표했다. DGX STATION은 저렴한 DGX 라는 위치 설정으로 DGX-1 with Tesla V100에 8개의 Tesla V100이 장착된 것에 비해 이쪽은 4개가 탑재되며 최대 1500W의 전력으로 움직이고 수냉 방식으로 냉각된다고 한다.

황씨는 "스타트 업이나 개인 프로그래머용 DGX" 라고 표현했지만 가격은 69000달러로 DGX-1의 절반 이하라고는 하지만 개인적으로 사기에는 상당히 어렵다. 이쪽도 3분기의 출하가 예정되고 있다. 또한 클라우드용 HGX-1의 Tesla V100 버전이 되는 HGX-1 with Tesla V100도 함께 발표되고 있다.

또 PCI Express 카드 형식의 보드도 발표하여"FHHL(Full Height, Half-Length, 높이는 풀 사이즈지만 카드의 길이는 하프 사이즈)" 형식의 보드로 제공된다. 황씨는 "딥 러닝의 추론을 Tesla V100으로 하면 앞으로 인텔이 출시 할 Skylake(2S용 Skylake-EP를 가리키고 있다고 생각)과 비교하고 15~25배가 된다" 며 딥 러닝 추론에 최적이라고 밝혔다.

황씨는 "우리는 소프트웨어 개발자에게 각종 SDK를 제공하고 있는데 취급이 어렵다는 개발자도 적지 않다. 거기서 NVDocker라는 컨테이너화 된 형식으로 클릭하면 쉽게 개발로 들어가도록 한다" 며 Docker로 개발 환경을 제공해 딥 러닝을 이용한 AI 소프트웨어 개발을 더 용이하게 할 것이라고 설명했다.

도요타에 자율 주행 솔루션을 제공하며 Xavier에는 DLA가 탑재

마지막 파트에서 황씨는 에지측(클라우드에 대한 클라이언트 측)의 AI에 대해서도 언급했다. 지금까지 주로 AI라고 하면 클라우드 측의 학습이나 추론이 주된 화제였지만 점차 에지 측의 AI에도 관심이 쏠리고 있다.

그 중에서도 자율 주행 솔루션에 관심이 높아지고 있어 이미 아우디, 메르세데스 벤츠에서 채용이 정해진 NVIDIA의 자율 주행 솔루션은 반도체 제조 업체만이 아닌 자동차 회사에서도 크게 주목되고 있는 존재다.

NVIDIA의 DRIVE PX는 자율 주행을 실현하는 컴퓨팅 보드로 개발 코드 네임 "Parker" 라는 Pascal 세대의 GPU를 채용한 제품이 회사에 출하되고 있다. NVIDIA가 그 Parker의 후계로 계획하고 있는 것이 "Xavier(자비어)" 로 지난해 유럽에서 열린 GTC에서 발표된 제품이다.

이번에 황씨는 그 Xavier의 새로운 정보로서 "Xavier에는 DLA라는 액셀러레이터를 탑재하고 있다. 이것은 화상 인식에 특화된 액셀러레이터다" 라고 밝혔다. 자율 주행 차량의 경우 자동차에 탑재된 카메라를 이용해 화상 인식으로 주위의 물체 등을 항상 판별할 필요가 있다.

현재는 인텔이 인수한 Mobileye 사가 제공하는 카메라 모듈과 같이 카메라와 화상 인식을 하는 전용 반도체가 한 세트로 되어 있지만 장기적으로는 그것이 SoC화 된 CPU나 GPU 가 될 것으로 생각되고 있다.

화상 인식을 하려면 딥 러닝 추론을 SoC의 GPU에서 해야 되는데 그 경우 소비 전력이 커져 다른 AI적인 처리에 성능이 부족해 버릴 가능성이 있다. 이 때문에 DLA 같은 전용 액셀러레이터를 탑재해 딥 러닝 추론을 한다는 것은 소비 전력을 억제하는 관점에서도 성능 관점에서도 의미가 있다.

또 황씨는 GTC에서 주목되는 발표를 했다. 그것은 일본 최대 자동차 업체로 글로벌에서 독일의 VW 그룹과 항상 1위 자리를 다투고 있는 도요타 자동차와의 제휴다. 황씨는 "도요타 자동차가 DRIVE PX를 채용해 향후 수년 내에 자율 주행 자동차를 개발한다" 고 밝히자 회장에서는 깨질 듯한 큰 박수가 터졌다.

마지막으로 황씨는 로봇으로 화제를 옮겨 "ISAAC" 이라는 로봇의 학습 시뮬레이션을 소개했다. 로봇의 학습, 로봇 AI가 동작을 기억하는 학습 과정을 시뮬레이션한 것으로 이를 이용해 학습을 하고 그 데이터를 로봇으로 옮기면 개발 시간을 단축할 수 있다고 소개했다.

출처 - http://pc.watch.impress.co.jp/docs/news/1059012.html

단축키

VR 세계에 사용자가 참여할 수 있는 "Project Holodeck"은 9월부터 접근

파스칼 보다 더 딥 러닝에 최적화된 볼타를 채용한 "Tesla V100"

가격은 그대로 무료 업그레이드도 제공되는 볼타 버전 DGX-1

도요타에 자율 주행 솔루션을 제공하며 Xavier에는 DLA가 탑재

Articles