PROCESSOR

NVIDIA 인공지능 딥러닝 추론 가속기 및 TensorRT4 정보

by 아키텍트 posted Mar 28, 2018
?

단축키

Prev이전 문서

Next다음 문서

ESC닫기

크게 작게 위로 아래로 댓글로 가기 인쇄

arm.png


NVIDIA는 인공지능/딥러닝(심층 학습) 관련 테크놀로지 이벤트 "GTC 2018"을 미국 캘리포니아주 새너제이에 있는 산호세 컨벤션 센터에서 3월 26일~29일 4일간 개최하고 있다.


2일째인 3월 27일에는 CEO 젠슨 황의 기조 강연이 진행됐고 지난해(2017년) GTC에서 발표한 오픈 소스 딥러닝 추론용 엑셀러레이터로 DLA(Deep Learning Accelerator)가 Arm의 Project Trillium에 채용됐다고 밝혔다.


Project Trillium은 Arm이 2018년 2월 발표한 머신러닝/딥러닝용 IP 제품군+소프트웨어 개발 환경이다. Arm의 고객은 다른 Project Trillium IP 제품군과 함께 DLA를 자사 제품에 탑재할 수 있게 된다.


또 NVIDIA는 이 회사의 딥 러닝 추론을 위한 개발 환경인 TensorRT의 최신 버전인 TensorRT 4를 발표했다. NVIDIA의 DLA는 딥 러닝 추론에 특화된 엑셀러레이터이며 자율 주행용으로 발표되면서 이 분기 중에 샘플 출하가 시작될 예정인 Xavier에 채택됐다.


액셀러레이터의 특징은 특정 처리(화상 인식과 음성 인식 등)에 관해 저전력으로 추론을 할 수 있는 것이다. 동영상 재생에서 CPU와 GPU에 내장되어 있는 액셀러레이터 기능을 사용하면 저전력으로 구동되는 것과 같은 이치다.


DLA(타사의 DLA와 구별하기 위한 NVDLA로 불리기도 하지만 본 기사에서는 DLA로 취급)는 오픈 소스로서 그 사양이나 소프트웨어 API 등이 공개되고 있다. 이 때문에 경쟁사도 포함한 사양서를 바탕으로 자사 제품에 실장이 가능하지만 그래도 처음부터 만들 필요가 있기 때문에 나름의 개발 자원을 할애할 필요가 있다.


거기서 NVIDIA는 IP 디자인을 SoC 벤더에 제공하고 있는 Arm과 제휴하고 DLA를 머신러닝/딥러닝 연산 솔루션인 Arm의 Project Trillium의 일부분으로 활용하는 것을 노린다.구체적으로는 Arm이 DLA의 IP를 Arm의 고객인 SoC 벤더 등에 제공한다. 이로써 SoC 벤더는 개발비용을 줄이면서 DLA의 기능을 자사 제품에 탑재할 수 있게 된다.


NVIDIA는 딥러닝 추론을 위한 개발 환경 TensorRT의 최신 버전인 TensorRT 4도 발표했다.

TensorRT는 NVIDIA GPU에 의한 딥러닝 추론을 최적화하는 것으로 INT8, FP16으로 연산할 수 있다. 클라우드 데이터 센터 처리의 70%를 차지하는 화상 인식과 음성 인식 등의 심층 학습 추론을 GPU에서 효율적으로 처리할 수 있다.


이번에 발표된 새 버전에서는 딥러닝 프레임워크에서 가장 인기 있는 TensorFlow 1.7에 TensorRT가 통합되어 TensorFlow를 바탕으로 딥러닝 추론을 이용한 소프트웨어를 개발한 엔지니어가 기존보다 용이하게 NVIDIA의 GPU나 DLA에 최적화할 수 있게 된다. 또한 최적화 후에는 성능이 8배로 올라간다.


또 NVIDIA는 Amazon, Facebook, Microsoft등과 협력하여 Facebook의 ONNX, Microsoft의 WinML또는 Caffe2, Chainer, CNTK, MXMNet, Pytorch등 다른 프레임워크로의 최적화도 추진하겠다고 밝혔다.


그 외에도 SAP, MathWorks 등의 소프트웨어 벤더도 TensorRT를 이용하여 NVIDIA의 GPU/DLA 딥러닝 추론에 최적화를 도모한다.


출처 - https://pc.watch.impress.co.jp/docs/news/event/1113828.html






Articles

12 13 14 15 16 17 18 19 20 21