2017.01.06 13:12

AMD 베가 GPU 아키텍처 분석 (HBM2, NCU, 캐시등)

아키텍트

조회 수 1468

6년만에 아키텍처가 쇄신 된 베가

AMD의 차세대 GPU 아키텍처 "Vega(베가)"의 개요를 밝힌다. Vega는 AMD의 FinFET 세대의 플래그십 GPU다. 큰 특징은 GPU 마이크로 아키텍처를 쇄신하고 하이 퍼포먼스 하이엔드 GPU에 도입되는 것이다.

AMD는 서던 아일랜드(Southern Islands) 패밀리의 "Radeon HD 7900(Tahiti)"에서 "GCN(Graphics Core Next)"을 도입한 이후 GPU의 컴퓨트 유닛"CU(Compute Unit)"의 메이저 업그레이드는 진행하지 않았다. 베이스 아키텍처는 GCN 상태에서 상대적으로 마이너적인 확장을 가해 왔다. 그러나 이번 Vega는 마이크로 아키텍처를 일신해 CU 뿐 아니라 세이더의 제어 및 메모리 계층까지 모두 크게 변혁한다. AMD에게는 6년만의 GPU 아키텍처의 대변혁이다.

AMD는 FinFET 3D 트랜지스터 프로세스는 지난해(2016년) 퍼포먼스 GPU "Polaris"에 도입했다. 그러나 Polaris의 하이엔드 GPU는 공석이었으며 Vega 세대 "Vega 10"은 AMD에게 2년 만의 하이엔드 GPU다.

Vega 아키텍처는 그래픽스, 컴퓨트, 메모리 용량과 모든 면에서 퍼포먼스를 비약시킨다. 컴퓨트에서는 딥 러닝 대응과 FinFET 프로세스를 활용한 마이크로 아키텍처로의 전환, 딥 러닝용 데이터 밀도 도입과 GPU의 동작 클럭을 대폭 올린 아키텍처를 향했다.

그래픽에서는 지오 메트리 파이프 라인의 제어를 바꿨다. 새로운 Primitive Shader를 도입, 지오 메트리 처리량을 2배로 끌어올린다. 또 래스터라이저도 일신하고 설계 가능한 메소드를 도입했다. 이어 온 칩 메모리 계층에서는 백엔드도 L2로 캐시하도록 했다.

메모리 계층은 GPU에서 처음으로 비휘발성 메모리의 도입을 전제로 한 메모리 제어를 도입한다. 이는 가까운 장래에 약진할 것이라 기대되는 새로운 비휘발성 메모리 기술을 감안한 대응이다. 이 메모리 아키텍처는 AMD가 엑사플롭 슈퍼 컴퓨터의 메모리 모델로서 제안하고 있는 것과 같다. 또한 데이터 이동의 최적화를 함으로써 데이터의 쓸데없는 트래픽도 없앤다.

AMD의 Vega는 이처럼 그래픽 뿐만 아니라 컴퓨트와 비주얼라이제이션까지 퍼포먼스를 강화한 새로운 아키텍처다.

마이크로 아키텍처가 바뀐 컴퓨트 유닛

Vega의 CU(Compute Unit)는 "Next-Generation Compute Unit(NCU)"로 내부 마이크로 아키텍처가 일신된다. 아직 자세한 것은 밝혀지지 않았지만 핵심 차이는 밝혀졌다.

현재의 CU에서는 32-bit의 주산 16유닛으로 1개의 벡터 유닛을 구성하고 있다. 1개의 CU에는 4개의 벡터 유닛이 있어 합계 64의 32-bit 유닛을 갖춘다. 각 유닛이 평균 1클럭에 2작업 처리량이기 때문에 CU는 32-bit, 작업은 클럭당 128이 된다.

AMD GPU는 64스레드 배치인 Wavefront 단위로 처리 한다. 각 벡터 유닛은 16유닛으로 4사이클까지 Wavefront를 처리하는 구조다.

NCU에서는 새로운 저 데이터 밀도의 SIMD(Single Instruction, Multiple Data) 연산이 도입된다. 구체적으로는 2-way의 16-bit SIMD 연산과 4-way의 8-bit SIMD 연산이 가세한다. 이는 저 데이터 정밀도가 요구되는 머신 러닝 애플리케이션에 맞춘 확장이다.

AMD도 다른 GPU 제조 업체 같이 연산 유닛의 기본 데이터 밀도는 32-bit다. 그러나 딥 러닝에서는 성능을 올리기 위해 보다 정밀도가 낮은 16-bit와 8-bit가 사용되고 있다. AMD는 그러한 트렌드에 대응해 연산 유닛을 대폭 개편했다.

16-bit시 처리량은 32-bit시 2배, 8-bit시에는 처리량은 4배나 많다. AMD는 이미 Vega10 기반 GPU 컴퓨트용 "Radeon Instinct MI25"에서 하나의 카드로 16-bit 부동 소수점 연산에서 25TFLOPS를 달성하겠다고 밝혔다. NVIDIA의 Pascal(파스칼) 기준 "Tesla P100(GP100)"의 21TFLOPS(FP16)를 넘는다. 8-bit 운영은 더 배가되는 성능의 계산이다.

팩크드형 16-bit와 8-bit 연산 도입

AMD의 현재 아키텍처에서는 32-bit시 예측에 의해 조건 분기에 대응하고 있다. 단 벡터 유닛 속의 32-bit 각 레인은 같은 명령을 실행하는데 각각이 마스크 레지스터로 분기 패스만 실행되어 개별적으로 컨트롤 흐름이 제어된다. 그래서 32-bit시에는 외관상 독립된 스레드로 각 레인이 동작한다.

반면 이번에 도입된 16-bit와 8-bit의 연산은 팩크드(packed)형, 즉 SIMD다. 32-bit의 1레인에서 16-bit시에는 2데이터가, 8-bit시에는 4데이터가 포장되고 같은 명령을 실행한다. 16-bit와 8-bit는 각각 다른 분기 패스를 실행할 수 없다. 그러나 딥 러닝 용도의 경우 팩크드로 대응할 수 있기 때문에 연산 성능이 향상하는 만큼 성능이 올라간다.

GPU에 대한 팩크드 포맷의 저 데이터 밀도 연산의 도입은 딥 러닝 시대에 들어 트렌드다. NVIDIA도 대응을 추진하고 있고 Imagination Technologies의 PowerVR 등도 대응하고 있다.

Vega NCU의 또 한가지 중요한 특징은 고클럭화다. AMD는 클럭을 높이기 위해 파이프 라인을 변경했다고 본다. 파이프 라인 단수가 2배가 되면 원리적으로는 GPU 코어의 동작 주파수를 두배 가까이 올릴 수 있게 된다. 이것도 FinFET 프로세스 시대에 들어선 GPU 코어의 트렌드가 되고 있다.

FinFET에서는 리크 전류(Leakage)가 크게 떨어지면서 동작 주파수의 액티브 전력도 낮출 수 있다. 그래서 파이프 라인의 세분화에 의한 고클럭화를 행하는 것이 가능하게 된다. 전력 하락분을 고클럭화로 돌리는 것이다.

파이프 라인 단수를 늘리면 파이프 라인 중인 데이터를 유지하는 래치 회로가 늘어난다. 래치는 논리 회로 중의 큰 전력 소비원이기 때문에 누설 전류(Leakage)가 많은 프로세스에서는 파이프 라인 단수를 늘리기 어려웠다. 그러나 Vega는 저 누설 전류(Leakage)의 14nm FinFET 프로세스로 제조되기 때문에 파이프 라인 단수를 늘릴 수 있다.

폭발하는 데이터량에 대응하기 위한 메모리 계층

GPU는 현재 취급하는 데이터 양의 폭발적인 증대에 직면하고 있다. 게임 설치 크기는 격증했고 영화 제작 등 전문 그래픽 데이터 양도 급격히 대형화되고 빅 데이터 분석과 머신 러닝에 의해 컴퓨트의 데이터량은 천문학적인 숫자로 불어나고 있다.

문제는 GPU의 메모리 용량이 그러한 데이터량의 증대 및 GPU 연산 성능의 증대에 걸맞게 늘지 않는다는 것이다. 거기서 Vega는 새로운 메모리 계층의 어프로치를 도입한다. GPU 메모리를 광대역 캐시로 취급하고 GPU 외부의 메모리를 빠짐없이 다룰 수 있도록 한다.

구체적으로는 Vega는 스택 DRAM "HBM2"를 GPU 메모리로 도입한다. Vega10에서는 2스택이다. 그러나 GPU 패키지 인터포즈 위에 올라간 HBM2 만 아니라 오프 패키지의 메모리도 GPU가 다루도록 한다. HBM2는 마치 캐시처럼 다루는, 하드웨어 제어에서 태그 RAM을 갖춘 캐시가 아니라 메모리 제어로서 워킹 메모리로 다루는 이미지다.

비휘발성 메모리(NVRAM)를 포함한 메모리를 GPU가 직접 챙기면서 혹은 직접 다루고 있는 것 같이 할 수 있는 구조를 준비한다. GPU의 DRAM 용량을 그냥 늘리는 것이 아니라 어드레싱할 수 있는 메모리를 다양화하는 것으로 대용량화되는 데이터에 대응한다. 그래서 Vega10에서는 512TB까지 가상 주소 공간을 지원한다. 그리고 계층화된 메모리 간에 효율적으로 메모리를 얼로케이트함으로써 고성능으로 저전력 메모리를 실현한다.

새로운 세이더 스테이지와 래스터 라이저, 캐시 계층의 개량

지오 메트리 파이프 라인은 버텍스 세이더(Vertex Shader)와 함께 지오 메트리 세이더(Geometry Shader)을 거친다. Vega는 새로운 지오 메트리 경로로 Primitive Shader를 도입한다. Primitive 단위로 취급함으로써 피크 처리량을 높인다. 또 렌더링 파이프 라인 전체 워크 로드의 제어도 지능화된다.

AMD 아키텍쳐는 렌더링 백엔드와 텍스처 액세스는 일관되지 않는다. 그래서 렌더링 투 텍스처에 텍스처를 쓰는 경우에는 GPU 내부 캐시 계층을 쓰지 못했다. Vega는 렌더링 백엔드도 L2 캐시로 캐싱 되며 L2에서 캐시 하는 텍스쳐와 일관되며 지오 메트리에서 픽셀에 대한 래스터 라이즈도 스마트화됐다. 이는 VR(Virtual Reality) 같은 두가지 관점의 어플리케이션으로 효과를 발휘할 것으로 보인다.

출처 - http://pc.watch.impress.co.jp/docs/column/kaigai/1037849.html

Facebook Twitter Google Pinterest

Atachment
첨부 '1'	03_s.jpg,

위로 아래로 댓글로 가기 인쇄 첨부

✔댓글 쓰기

에디터 선택하기

✔ 텍스트 모드 ✔ 에디터 모드

Comments '1'

랩터 인터내셔널 2017.01.06 13:12

오늘도 즐거운 하루되세요^^

댓글

채굴용 메인보드? VGA 13장 지원 H110 Pro BTC+ 공개

애즈락이 새로운 "변태" 메인보드를 전시했다. 그 메인보드는 "H110 Pro BTC+". Intel H100 칩셋을 채용하고 7세대 Core i 프로세서에 대응하는 메인보드지만 최대 특징이 PCI Express 슬롯이 13슬롯 준비되어 최대 13장의 비디오 카드를 장착하고 이용할 ...

Date2017.05.31 Reply0 Views1823

Read More
스카이레이크-X 7800X 7900X vs. 라이젠 1800X 성능 비교

모바일AP 및 프로세서 벤치마크 정보를 공유하는 긱벤치 브라우저 사이트(http://browser.primatelabs.com)에 인텔의 신형 HEDT 프로세서 스카이레이크-X 7800X(6코어 12스레드) 와 스카이레이크-X 7900X(10코어 20스레드)의 성능이 공개됐다. 먼저...

Date2017.06.04 Reply3 Views5189

Read More
엔비디아 볼타 세대 Tesla V100 투입, DGX/DGX Station 3분기 출하

미국 NVIDIA는 5월 8일~11일(현지 시간)에 걸쳐 이 회사의 GPU를 이용한 제품을 개발하고 있는 개발자 전용 이벤트 GTC(GPU Technology Conference)2017을 개최했다. 3일째인 5월 10일에는 동사의 창업자 겸 CEO 젠슨・황의 기조 강연이 진행되며 새로운 솔...

Date2017.05.13 Reply1 Views1923

Read More
Build 2017) 애저 서비스에 IoT Edge, PaaS, Cosmos DB, AI 등 발표

미국 마이크로소프트는 5월 10일~12일 연례 개발자 회의 "Build 2017"을 시애틀에서 개최했다. 첫날 기조 강연에는 회사 사티아 나델라 CEO, Microsoft Azure 총괄 부사장, Microsoft AI and Research 그룹 부사장이 등단하여 Azure에서 데이터베이스, IoT, AI...

Date2017.05.13 Reply0 Views1076

Read More
엔비디아 실적발표 - 글로벌 4차 산업혁명의 중심 기업

전년 동기 대비 48% 증가한 19억 4천만 달러의 매출 GAAP EPS 0.79 달러, 전년 동기 대비 126% 상승 비 GAAP EPS 0.85 달러, 전년 동기 대비 85% 증가 모든 플랫폼에서 폭넓은 성장 엔비디아(NASDAQ : NVDA)가 2017년 4월 30일 마감된 1분기 매출이 전년 13...

Date2017.05.13 Reply4 Views2104

Read More
전세계 PC 시장은 다시 성장세로 전환, HP 1위 탈환

Top 5 Vendors, Worldwide Traditional PC Shipments, First Quarter 2017 (Preliminary) (Shipments are in thousands of units) Vendor 1Q17 Shipments 1Q17 Market Share 1Q16 Shipments 1Q16 Market Share 1Q17/1Q16 Growth 1. HP Inc 13,...

Date2017.05.06 Reply3 Views1487

Read More
고급 모니터 LG 32UD99 등장, 4K-HDR10, 프리싱크, 999달러

LG전자 32UD99 디스플레이 32형 IPS 패널, 3840×2160 해상도, 95% DCI-P3, 100% sRGB 4K, HDR10, Freesync, 팩토리 캘리브레이션, 60Hz 틸트(2~15°), 피봇 (90°), 엘리베이션 (110mm) 1x DisplayPort 1.2, 2x HDMI 2.0a (HDCP 2.2), 1x USB Type-C (with...

Date2017.04.16 Reply1 Views913

Read More
SK하이닉스, 세계 최고 속도 20나노급 8Gb GDDR6 개발

20나노급 8Gb GDDR6에서 핀 당 데이터 처리속도 초당 16Gb 구현 최고급 그래픽 카드와 연동해 초당 최대 768GB 데이터 처리 가능 그래픽 칩셋 고객과 긴밀히 협업해 고성능 그래픽 시장 선도 보도 - SK하이닉스) SK하이닉스(대표: 박성욱, ww...

Date2017.04.23 Reply1 Views1091

Read More
인텔 3D XPoint 옵테인DC P4800X SSD 발표, 최고 성능

미국 인텔은 19일(현지 시간) Micron와 공동 개발한 신형 메모리 "3D XPoint"를 채용한 서버용 PCI Express SSD "Optane SSD DC P4800X"를 발표했다. 조만간 고객용으로 출하를 시작하고 양산 출하는 2017년 하반기부터 시작한다. 3D XPoint는 NAND와 비...

Date2017.03.22 Reply3 Views1486

Read More
IBM, 1000배 기록 밀도를 실현하는 원자 스토리지 실험 성공

IBM이 자기 기록 매체로서는 세계 최소인 원자 스토리지 기록 실험에 성공했다고 발표했다. 그에 따르면 이론적으로 기존의 1000배 기록 밀도를 가진 스토리지를 실현할 수 있게 된다. IBM은 실험에 과거 1986년 회사의 연구원이 노벨상을 수상한 주...

Date2017.03.10 Reply0 Views1342

Read More
라이젠 1800X vs 브로드웰-E 6900K vs 카비레이크 7700K 한판

라이젠 스펙 및 기본 정보들은 바로 아래 게시글들을 확인해주시기 바라며 벤치마크 데이터만 업데이트 합니다. 각각의 테스트 부문으로 인텔과 AMD CPU의 장단점을 비교해보시기 바랍니다. 출처 - 탐스 하드웨어 (http://www.tomshardware.com) ...

Date2017.03.05 Reply0 Views3824

Read More
하늘을 나는 드론 택시, 두바이에서 7월부터 운용

아랍 에미리트(UAE) 두바이의 독립 행정 기관 Roads and Transport Authority(RTA)은 중국의 드론 업체 EHANG과 공동으로 자율 비행 드론의 테스트 비행을 성공했다고 발표했다. 테스트 비행이 이뤄진 것은 사람이 탑승할 수 있는 Ehang 184...

Date2017.02.17 Reply0 Views1073

Read More
엔비디아 실적발표, '인공지능 시대는 우리 것이다'

NVIDIA (NASDAQ : NVDA) 전년 대비 55% 증가한 21억 7000만 달러의 분기 매출 전년 대비 38% 증가한 67억 9000만 달러의 연간 매출 엔비디아가 4분기 매출은 21억 7000만 달러로 전년 14억 달러에서 55% 증가, 전 분기 20억 달러에서 8% 증가했다고 발...

Date2017.02.10 Reply4 Views2481

Read More
2016년 세계 태블릿 시장 점유율, 20% 역성장까지 도달

Top Five Tablet Vendors, Shipments, Market Share, and Growth, Fourth Quarter 2016 (Preliminary Results, Shipments in millions) Vendor 4Q16 Unit Shipments 4Q16 Market Share 4Q15 Unit Shipments 4Q15 Market Share Year-Over-Year Grow...

Date2017.02.03 Reply0 Views1042

Read More
인텔 실적발표, 4분기 모든 사업부가 기대 이상

세계 최대 반도체 기업 인텔이 2016년 4분기 실적 및 연간 실적을 발표했습니다. 인텔의 2016년 연간 매출은 594억 달러, 영업 이익은 129억 달러, 순이익 103억 달러, EPS 2.12 달러를 기록했습니다. 비 GAAP 매출은 595억 달러, 영업 이익은 1...

Date2017.01.29 Reply4 Views1243

Read More
AMD 베가 GPU 아키텍처 분석 (HBM2, NCU, 캐시등)

6년만에 아키텍처가 쇄신 된 베가AMD의 차세대 GPU 아키텍처 "Vega(베가)"의 개요를 밝힌다. Vega는 AMD의 FinFET 세대의 플래그십 GPU다. 큰 특징은 GPU 마이크로 아키텍처를 쇄신하고 하이 퍼포먼스 하이엔드 GPU에 도입되는 것이다. AMD는 서던 아일...

Date2017.01.06 Reply1 Views1468

Read More
AMD의 차세대 CPU 코어 ZEN의 뉴럴 네트워크 (분기 예측 기능)

뉴럴 네트워크를 CPU 코어에 내장한 ZENAMD는 2017년 1분기로 예정된 ZEN 마이크로 아키텍처 CPU 투입에 힘쓰고 있다. 제 1편으로 8코어의 고성능 데스크톱 CPU "Summit Ridge(서밋릿지)"는 새로운 브랜드 "Ryzen(라이젠)"으로 투입된다. AMD에게 6년만의 CPU ...

Date2017.01.02 Reply0 Views1930

Read More
아마존, 점포 혁신 서비스 아마존 고(Amazon Go) 발표

아마존이 5일(미국 시간), 계산없이 상품을 갖고 그대로 가게를 나가면 되는 차세대 점포형 서비스 아마존 고(Amazon Go)를 발표했다. 아마존 고는 계산을 하기 위해 줄을 설 필요가 사라지는 혁신 서비스로서 핵심 시스템은 컴퓨터 비전, 통...

Date2016.12.07 Reply1 Views1368

Read More
프로토 타입 서피스폰 스펙 유출, 발매는 2017년 하반기경

서피스 스튜디오-서피스북-서피스 프로 시리즈로 PC 완제품에서도 실적이 상승하며 승승장구하고 있는 마이크로소프트가 PC에 이어 자사 브랜드의 윈도우10 모바일 기반 서피스 폰(Surface Phone)도 발매할 것으로 예상되고 있습니다. 마이크로소...

Date2016.11.26 Reply4 Views2155

Read More
반도체 한계를 돌파하는 차세대 진공관 개발

반도체 시장에서 CPU 등의 트랜지스터는 무어의 법칙에 따라 반도체 제조 프로세스가 미세화되어 왔다. 그것에 맞춰 성능도 증가했는데 앞으로는 더 미세화하는 것이 기술적으로 어려워지고 언젠가는 물리적 한계를 맞는다. 수 십년째 반도체 분야 ...

Date2016.11.11 Reply2 Views1407

Read More
3분기 세계 스마트폰 점유율, 중국의 굴기 (IDC)

Top Five Smartphone Vendors, Shipments, Market Share, and Year-Over-Year Growth, Q3 2016 Preliminary Data (Units in Millions) Vendor 3Q16 Shipment Volumes 3Q16 Market Share 3Q15 Shipment Volumes 3Q15 Market Share Year-Over-Year Change ...

Date2016.10.31 Reply3 Views1520

Read More
마이크로소프트 서피스 스튜디오 정식 발표, 궁극의 올인원PC

마이크로소프트가 이벤트를 개최하고 이전부터 예상된 신형 데스크톱PC 서피스 스튜디오를 공식 발표했습니다. 마이크로소프트의 야심작 서피스 스튜디오(Surface Studio)는 두께 12.5㎜로 매우 얇은 디자인에 28인치 고화질 터치 디스플레이를 채...

Date2016.10.27 Reply4 Views2185

Read More
마이크로소프트 실적발표 - 사상 최고치 주가 경신

Three Months Ended September 30, ($ in millions, except per share amounts) Revenue Operating Income Net Income Diluted Earnings per Share 2015 As Reported (GAAP) $20,379 $5,793 $4,902 $0.61 Net Impact from Windows ...

Date2016.10.21 Reply4 Views1508

Read More
구글 홈 발표, 아마존 에코에 대항하는 홈 어시스턴트

구글이 아마존 에코에 대항하는 Google Assistant 탑재 홈 기기 "구글 홈(Google Home)"을 미국에서 11월 4일부터 129달러로 발매합니다. 구글 홈은 원통형 디자인으로 음성 조작에 특화 되어 있어 "오케이, 구글" 이후 말을 거는 형태로 근처 가게...

Date2016.10.05 Reply0 Views1673

Read More