2017.01.06 13:12

AMD 베가 GPU 아키텍처 개요 (HBM2, NCU, 캐시등)

아키텍트

조회 수 771

6년만에 아키텍처가 쇄신 된 베가

AMD의 차세대 GPU 아키텍처 "Vega(베가)"의 개요를 밝힌다. Vega는 AMD의 FinFET 세대의 플래그십 GPU다. 큰 특징은 GPU 마이크로 아키텍처를 쇄신하고 하이 퍼포먼스 하이엔드 GPU에 도입되는 것이다.

AMD는 서던 아일랜드(Southern Islands) 패밀리의 "Radeon HD 7900(Tahiti)"에서 "GCN(Graphics Core Next)"을 도입한 이후 GPU의 컴퓨트 유닛"CU(Compute Unit)"의 메이저 업그레이드는 진행하지 않았다. 베이스 아키텍처는 GCN 상태에서 상대적으로 마이너적인 확장을 가해 왔다. 그러나 이번 Vega는 마이크로 아키텍처를 일신해 CU 뿐 아니라 세이더의 제어 및 메모리 계층까지 모두 크게 변혁한다. AMD에게는 6년만의 GPU 아키텍처의 대변혁이다.

AMD는 FinFET 3D 트랜지스터 프로세스는 지난해(2016년) 퍼포먼스 GPU "Polaris"에 도입했다. 그러나 Polaris의 하이엔드 GPU는 공석이었으며 Vega 세대 "Vega 10"은 AMD에게 2년 만의 하이엔드 GPU다.

Vega 아키텍처는 그래픽스, 컴퓨트, 메모리 용량과 모든 면에서 퍼포먼스를 비약시킨다. 컴퓨트에서는 딥 러닝 대응과 FinFET 프로세스를 활용한 마이크로 아키텍처로의 전환. 딥 러닝용 데이터 밀도 도입과 GPU의 동작 클럭을 대폭 올린 아키텍처를 향했다.

그래픽에서는 지오 메트리 파이프 라인의 제어를 바꿨다. 새로운 Primitive Shader를 도입, 지오 메트리 처리량을 2배로 끌어올린다. 또 래스터라이저도 일신하고 설계 가능한 메소드를 도입했다. 이어 온 칩 메모리 계층에서는 백엔드도 L2로 캐시하도록 했다.

메모리 계층은 GPU에서 처음으로 비휘발성 메모리의 도입을 전제로 한 메모리 제어를 도입한다. 이는 가까운 장래에 약진할 것이라 기대되는 새로운 비휘발성 메모리 기술을 감안한 대응이다. 이 메모리 아키텍처는 AMD가 엑사플롭 슈퍼 컴퓨터의 메모리 모델로서 제안하고 있는 것과 같다. 또한 데이터 이동의 최적화를 함으로써 데이터의 쓸데없는 트래픽도 없앤다.

AMD의 Vega는 이처럼 그래픽 뿐만 아니라 컴퓨트와 비주얼 라이제이션까지 퍼포먼스를 강화한 새로운 아키텍처다.

마이크로 아키텍처가 바뀐 컴퓨트 유닛

Vega의 CU(Compute Unit)는 "Next-Generation Compute Unit(NCU)"로 내부 마이크로 아키텍처가 일신된다. 아직 자세한 것은 밝혀지지 않았지만 핵심 차이는 밝혀졌다.

현재의 CU에서는 32-bit의 주산 16유닛으로 1개의 벡터 유닛을 구성하고 있다. 1개의 CU에는 4개의 벡터 유닛이 있어 합계 64의 32-bit 유닛을 갖춘다. 각 유닛이 평균 1클럭에 2작업 처리량이기 때문에 CU는 32-bit, 작업은 클럭당 128이 된다.

AMD GPU는 64스레드 배치인 Wavefront 단위로 처리 한다. 각 벡터 유닛은 16유닛으로 4사이클까지 Wavefront를 처리하는 구조다.

NCU에서는 새로운 저 데이터 밀도의 SIMD(Single Instruction, Multiple Data) 연산이 도입된다. 구체적으로는 2-way의 16-bit SIMD 연산과 4-way의 8-bit SIMD 연산이 가세한다. 이는 저 데이터 정밀도가 요구되는 머신 러닝 애플리케이션에 맞춘 확장이다.

AMD도 다른 GPU 제조 업체 같이 연산 유닛의 기본 데이터 밀도는 32-bit다. 그러나 딥 러닝에서는 성능을 올리기 위해 보다 정밀도가 낮은 16-bit와 8-bit가 사용되고 있다. AMD는 그러한 트렌드에 대응해 연산 유닛을 대폭 개편했다.

16-bit시 처리량은 32-bit시 2배, 8-bit시에는 처리량은 4배나 많다. AMD는 이미 Vega10 기반 GPU 컴퓨트용 "Radeon Instinct MI25"에서 하나의 카드로 16-bit 부동 소수점 연산에서 25TFLOPS를 달성하겠다고 밝혔다. NVIDIA의 Pascal(파스칼) 기준 "Tesla P100(GP100)"의 21TFLOPS(FP16)를 넘는다. 8-bit 운영은 더 배가되는 성능의 계산이다.

팩크드형 16-bit와 8-bit 연산 도입

AMD의 현재 아키텍처에서는 32-bit시 예측에 의해 조건 분기에 대응하고 있다. 단 벡터 유닛 속의 32-bit 각 레인은 같은 명령을 실행하는데 각각이 마스크 레지스터로 분기 패스만 실행되어 개별적으로 컨트롤 흐름이 제어된다. 그래서 32-bit시에는 외관상 독립된 스레드로 각 레인이 동작한다.

반면 이번에 도입된 16-bit와 8-bit의 연산은 팩크드(packed)형, 즉 SIMD다. 32-bit의 1레인에서 16-bit시에는 2데이터가, 8-bit시에는 4데이터가 포장되고 같은 명령을 실행한다. 16-bit와 8-bit는 각각 다른 분기 패스를 실행할 수 없다. 그러나 딥 러닝 용도의 경우 팩크드로 대응할 수 있기 때문에 연산 성능이 향상하는 만큼 성능이 올라간다.

GPU에 대한 팩크드 포맷의 저 데이터 밀도 연산의 도입은 딥 러닝 시대에 들어 트렌드다. NVIDIA도 대응을 추진하고 있고 Imagination Technologies의 PowerVR 등도 대응하고 있다.

Vega NCU의 또 한가지 중요한 특징은 고클럭화다. AMD는 클럭을 높이기 위해 파이프 라인을 변경했다고 본다. 파이프 라인 단수가 2배가 되면 원리적으로는 GPU 코어의 동작 주파수를 두배 가까이 올릴 수 있게 된다. 이것도 FinFET 프로세스 시대에 들어선 GPU 코어의 트렌드가 되고 있다.

FinFET에서는 리크 전류(Leakage)가 크게 떨어지면서 동작 주파수의 액티브 전력도 낮출 수 있다. 그래서 파이프 라인의 세분화에 의한 고클럭화를 행하는 것이 가능하게 된다. 전력 하락분을 고클럭화로 돌리는 것이다.

파이프 라인 단수를 늘리면 파이프 라인 중인 데이터를 유지하는 래치 회로가 늘어난다. 래치는 논리 회로 중의 큰 전력 소비원이기 때문에 누설 전류(Leakage)가 많은 프로세스에서는 파이프 라인 단수를 늘리기 어려웠다. 그러나 Vega는 저 누설 전류(Leakage)의 14nm FinFET 프로세스로 제조되기 때문에 파이프 라인 단수를 늘릴 수 있다.

폭발하는 데이터량에 대응하기 위한 메모리 계층

GPU는 현재 취급하는 데이터 양의 폭발적인 증대에 직면하고 있다. 게임 설치 크기는 격증했고 영화 제작 등 전문 그래픽 데이터 양도 급격히 대형화되고 빅 데이터 분석과 머신 러닝에 의해 컴퓨트의 데이터량은 천문학적인 숫자로 불어나고 있다.

문제는 GPU의 메모리 용량이 그러한 데이터량의 증대 및 GPU 연산 성능의 증대에 걸맞게 늘지 않는다는 것이다. 거기서 Vega는 새로운 메모리 계층의 어프로치를 도입한다. GPU 메모리를 광대역 캐시로 취급하고 GPU 외부의 메모리를 빠짐없이 다룰 수 있도록 한다.

구체적으로는 Vega는 스택 DRAM "HBM2"를 GPU 메모리로 도입한다. Vega10에서는 2스택이다. 그러나 GPU 패키지 인터포즈 위에 올라간 HBM2 만 아니라 오프 패키지의 메모리도 GPU가 다루도록 한다. HBM2는 마치 캐시처럼 다루는, 하드웨어 제어에서 태그 RAM을 갖춘 캐시가 아니라 메모리 제어로서 워킹 메모리로 다루는 이미지다.

비휘발성 메모리(NVRAM)를 포함한 메모리를 GPU가 직접 챙기면서 혹은 직접 다루고 있는 것 같이 할 수 있는 구조를 준비한다. GPU의 DRAM 용량을 그냥 늘리는 것이 아니라 어드레싱할 수 있는 메모리를 다양화하는 것으로 대용량화되는 데이터에 대응한다. 그래서 Vega10에서는 512TB까지 가상 주소 공간을 지원한다. 그리고 계층화된 메모리 간에 효율적으로 메모리를 얼로케이트함으로써 고성능으로 저전력 메모리를 실현한다.

새로운 세이더 스테이지와 래스터 라이저, 캐시 계층의 개량

지오 메트리 파이프 라인은 버텍스 세이더(Vertex Shader)와 함께 지오 메트리 세이더(Geometry Shader)을 거친다. Vega는 새로운 지오 메트리 경로로 Primitive Shader를 도입한다. Primitive 단위로 취급함으로써 피크 처리량을 높인다. 또 렌더링 파이프 라인 전체 워크 로드의 제어도 지능화된다.

AMD 아키텍쳐는 렌더링 백엔드와 텍스처 액세스는 일관되지 않는다. 그래서 렌더링 투 텍스처에 텍스처를 쓰는 경우에는 GPU 내부 캐시 계층을 쓰지 못했다. Vega는 렌더링 백엔드도 L2 캐시로 캐싱 되며 L2에서 캐시 하는 텍스쳐와 일관되며 지오 메트리에서 픽셀에 대한 래스터 라이즈도 스마트화됐다. 이는 VR(Virtual Reality) 같은 두가지 관점의 어플리케이션으로 효과를 발휘할 것으로 보인다.

출처 - http://pc.watch.impress.co.jp/docs/column/kaigai/1037849.html

Facebook Twitter Google Pinterest

Atachment
첨부 '1'	03_s.jpg,

위로 아래로 댓글로 가기 인쇄 첨부

✔댓글 쓰기

에디터 선택하기

✔ 텍스트 모드 ✔ 에디터 모드

Comments '3'

랩터 인터내셔널 2017.01.06 13:12

오늘도 즐거운 하루되세요^^

댓글
레오파드 2017.01.06 13:54

대단해보이지만 결론은 파스칼과 맞다이 벤치마크 결과를 봐야

댓글
SK_C&C 2017.01.06 22:39

hbm2까지 달았으면 당연히 파스칼 타이탄X는 가볍게 넘어야 할텐데 성능이 궁금하네요

댓글

파나소닉, 대만 기업에 반도체 사업 양도

일본 파나소닉이 자회사 파나소닉 세미컨덕터 솔루션즈 주식회사(PSCS)가 전개했던 반도체 사업을 대만 윈본드(Winbond Electronics Corporation) 산하 Nuvoton Technology Corporation에 양도 한...

Date2019.11.30 CategoryENTERPRISE Views355

Read More
MediaTek 5G대응 SoC, 안투투 스코어 51만점 기록

미디어텍(MediaTek)은 5G 모뎀을 내장한 최신 하이엔드 SoC, Dimensity 1000의 안투투 벤치마크 v8의 점수를 공개했다. 공개된 종합 점수는 511,363점에 이르며 퀄컴 스냅드래곤 855 플러스 탑재 장비 ...

Date2019.11.30 CategoryPROCESSOR Views262

Read More
트위터(Twitter), 트윗의 예약투고 기능 테스트 중

트위터(Twitter)가 웹 버전에 '트윗 예약 투고 기능'을 테스트하고 있는 것으로 확인되었습니다. 테스트는 일부 선택된 유저만 진행할 수 있고, 트윗을 작성하고 작성 화면 아래에 표시되는 아이콘을 클...

Date2019.11.23 CategorySOFTWARE Views514

Read More
엔비디아 실적발표, 다시 시작된 성장세 (2019년 3분기)

엔비디아(NVIDIA)가 2019년 10월 27일 마감 된 3분기 실적을 발표했다. 매출액은 30억 1400만 달러, 영업이익은 9억 2700만 달러, 주당 GAAP 수익은 1.45 달러를 기록하며 가상화폐 채굴 시장에 ...

Date2019.11.23 CategoryENTERPRISE Views517

Read More
창립 이래 최대 호황, 인텔 CPU 공급난 지속 전망

세계 반도체 시장 1위 미국 인텔은 20일(현지시간), 자사의 고객에 대한 안내를 발송하여 CPU 공급 문제에 대해 사과했다. 인텔은 작년 하반기부터 시작된 자사 CPU에 대한 수요 폭...

Date2019.11.23 CategoryENTERPRISE Views416

Read More
인텔, 세계 최대 FPGA 칩 "Stratix 10 GX 10M" 발표

인텔은 14nm 기술에 기반한 놀라운 FPGA(Field Programmable Gate Array, FPGA) Stratix 10 GX 10M을 발표했다. 이는 세계에서 가장 큰 FPGA로 이전에 가장 큰 자일링스의 Virtex VU19P FPGA를 제압...

Date2019.11.10 CategoryPROCESSOR Views418

Read More
인텔, 세계 1위 수퍼 게이밍 프로세서 코어i9-9900KS 발표

인텔이 새로운 9세대 인텔 코어 i9-9900KS 스페셜 에디션 프로세서를 발표했다. i9-9900KS는 최고의 게이밍 경험을 위해 올 코어 부스트 클럭이 최대 5.00GHz에 도달하는 무지막지한 프...

Date2019.11.10 CategoryPROCESSOR Views405

Read More
엔비디아, 신형 지포스GTX 1660 수퍼 GPU 출시

엔비디아는 지포스GTX 1660 슈퍼 GPU를 229달러로 발표했다. 신형 GPU는 1408개의 CUDA 코어, 88개의 TMU, 48개의 ROP, 1530MHz 코어와 1750MHz의 GPU 부스트를 갖추며 GTX 1660과 동일한 사양을 나타내...

Date2019.11.10 CategoryGPU Views413

Read More
AMD, Navi 14 기반 3개의 RX 5500 시리즈 및 2개의 RX 5300 SKU 준비

여러 Redditor의 공동 노력으로 AMD가 곧 출시 할 7nm "Navi 14" GPU를 기반으로 최대 5개의 Radeon RX 5000 시리즈 SKU를 준비하고 있음을 발견했다. 그들은 AMD의 오픈 소스 GPU 드라이버 파일...

Date2019.11.10 CategoryGPU Views311

Read More
AMD, 라이젠9 3950X, 3세대 스레드리퍼 3970X-3960X, 애슬론 3000G 발표

AMD는 3가지 다양한 시장에서 4개의 새로운 데스크탑 프로세서를 발표했다. 우선 새로운 Ryzen 9 3950X 프로세서, 다음 새로운 기본 엔트리 레벨 APU Athlon 3000G를 출시, 마지막으로 Ryzen Threadrip...

Date2019.11.10 CategoryPROCESSOR Views612

Read More
2019년 3분기 애플 실적발표, 완벽한 플랫폼 기업

미국 애플이 2019년 7월 ~ 9월 실적 발표 실적 데이터 - 애플 프레스 릴리스 (괄호는 전년 동기 대비 비교폭) ○ 총합 매출액 : 640억 4000만 달러 (2% 증가) 순이익 : 136억 8600만 달러...

Date2019.11.03 CategoryENTERPRISE Views1165

Read More
3분기 AMD 실적발표, 인텔 CPU 공급부족으로 반사이익

GAAP Quarterly Financial Results Q3 2019Q3 2018Y/YQ2 2019Q/QRevenue ($B)$1.80$1.65Up 9%$1.53Up 18%Gross margin43%40%Up 3 pp41%Up 2 ppOperating expense ($M)$591$511Up $80$562Up $29Operating...

Date2019.11.03 CategoryENTERPRISE Views407

Read More
삼성전자, 2019년 3분기 실적 발표 - 반도체 약세 지속

삼성전자는 연결 기준으로 매출 62조원, 영업이익 7.78조원의 2019년 3분기 실적을 발표했다. 3분기에는 스마트폰 등 세트 제품 판매 호조에도 불구하고, 메모리 업황 약세가 지속돼 매출은 전년 동기...

Date2019.10.31 CategoryENTERPRISE Views208

Read More
120Hz, 1.08억화소 지원 삼성 '엑시노스 990' 발표

삼성전자가 Samsung Tech Day 2019에서 스마트폰용 SoC, Exynos 990을 발표했다. 제품은 EUV를 이용한 7nm 공정으로 제조. Exynos 990은 Arm의 Valhall 아키텍처 GPU인 Mali-G77을 GPU에 채용하며 그...

Date2019.10.27 CategoryPROCESSOR Views274

Read More
ARM, 차세대 CPU 코어 "Matterhorn" 기술 발표

ARM은 미국 새너제이에서 동사의 기술 콘퍼런스 "ARM Techcon"을 10월 8일~10일까지 개최했다. 첫날 키노트 스피치에서는 차 차세대 Cortex-A 클래스 CPU 코어 아키텍처 "Matterhorn(매터호른/매터폰)의 신...

Date2019.10.27 CategoryPROCESSOR Views326

Read More
구글이 "양자 초월성"을 달성했다고 하자 IBM은 반박?

구글은 자사의 양자 프로세서를 이용한 실험에서 양자 초월성을 달성했다고 밝혔다. 54 큐비트를 가진 풀 프로그래머블 프로세서 Sycamore를 이용하여 행해진 실험에서 고전적인 컴퓨터...

Date2019.10.27 CategoryENTERPRISE Views540

Read More
인텔, 차세대 저전력 아키텍처 트레몬트(Tremont) 공개

미국 인텔은 산타클라라에서 열린 Linley Fall Processor Conference에서 차기 저전력 코어 Tremont의 마이크로 아키텍처를 공개했다. 저전력 IoT와 데이터 센터 전용으로 개발된 CPU 코어로 인텔의 ...

Date2019.10.27 CategoryPROCESSOR Views154

Read More
마이크로소프트 실적발표, "애저(Azure) 잘 나가네"

Selected Product and Service Revenue Constant Currency Reconciliation Three Months Ended September 30, 2019 Percentage Change Y/Y (GAAP) Constant Currency Impact Percentage Chan...

Date2019.10.27 CategoryENTERPRISE Views558

Read More
SK하이닉스 실적발표, 영업이익 93% 감소

연결재무제표 기준 영업(잠정)실적(공정공시) ※ 동 정보는 잠정치로서 향후 확정치와는 다를 수 있음. 1. 연결실적내용 단위 : 백만원, % 구분 당기실적 전기실적 전기대비증감율(%) 전년동기...

Date2019.10.27 CategoryENTERPRISE Views149

Read More
TSMC 3나노 Fab 건설 시작, 글로벌 1위 반도체 파운드리

TSMC는 실리콘 제조에 대한 접근 방식에 매우 공격적이며 현재 R&D에 더 많은 투자를 함으로써 인텔의 투자와 비슷하거나 능가하고 있는 수준이다. 이는 새로운 기술에 대한 강력한 수요...

Date2019.10.26 CategoryENTERPRISE Views435

Read More
인텔 실적발표, 새로운 기록 수립의 "어닝서프라이즈"

세계 반도체 시장 1위 인텔이 2019년 3분기 실적을 발표했다. 발표 내용에 따르면 3분기 매출액은 전년 대비 6% 증가한 193억 달러로 새로운 기록을 수립했다. 인텔의 CEO 밥 스완(Bob Swa...

Date2019.10.26 CategoryENTERPRISE Views693

Read More
UK 리서치 이노베이션, AMD 로마 채용 슈퍼컴퓨터 ARCHER2 발표

UK 리서치 이노베이션은 10월 15일, AMD CPU를 채용한 슈퍼컴퓨터 ARCHER2를 발표했다. 하나의 노드는 64코어/2.2GHz 클럭의 Rome CPU을 2기 탑재하며 총 5848개의 노드로 구성되어 합계 코어 수 7485...

Date2019.10.20 CategoryENTERPRISE Views234

Read More
AMD 12코어 65W "Ryzen 9 3900", OEM으로만 판매

AMD는 9일 제품 라인업 페이지를 갱신하여 12코어/24스레드 CPU인 Ryzen 9 3900을 발표했다. 9월 24일 출시되고 있으며 Ryzen 9 3900X에서 베이스 클럭을 3.1GHz, 최대 부스트 클럭을 4.3GHz로 낮춤...

Date2019.10.13 CategoryPROCESSOR Views238

Read More
인텔, GPU 미포함 F시리즈 최대 20% CPU 가격 인하

인텔이 7일(미국시간) Core 시리즈에서 GPU가 없는 F 시리즈의 가격을 인하했다. 대상은 7가지 모델로 1000개 단위 가격표를 보면 상위 모델에서 5%, 하위 모델은 약 20%, 인하되고 있다. ...

Date2019.10.13 CategoryPROCESSOR Views452

Read More
Uber와 WeWork 가치 하락, Softbank Vision Fund 수익률 둘러싼 논란 촉발

Uber의 상장 후 주가 하락 WeWork의 IPO 신청 서류 공개 이후 기업 가치 하락과 여러 가지 논란 제기가 Softbank Vision Fund의 수익률 전망에 부정적 요인으로 지목되고 있다. 그러나, 벤처투자업계의 전...

Date2019.10.05 CategoryENTERPRISE Views552

Read More
IBM, 세계 최대 양자 계산 "퀀텀 컴퓨테이션 센터" 개설

미국 IBM이 뉴욕 주에 세계 최대 양자 계산 센터인 "Quantum Computation Center"를 개설했다고 밝혔다. 이 센터는 세계 최대 규모의 양자 계산 시스템을 갖춰 현 시점에서 10대의 시스템이 온라...

Date2019.09.22 CategoryENTERPRISE Views312

Read More
Google Chrome 77 정식 공개, EV증명서 및 취약점 수정

미국 구글이 9월 10일(현지시간) 데스크톱 버전 Google Chrome 77을 정식 발매했습니다. Windows/Mac/Linux에 대응하는 프리 소프트웨어로, 현재 동사의 웹 사이트에서 다운로드가 가능합니다. ...

Date2019.09.13 CategorySOFTWARE Views4968

Read More
USB-IF, 40Gbps 전송을 실현한 "USB4" 공개

USB Implementers Forum(USB-IF)이 USB4 사양을 공개했다. USB4 사양 개발은 2019년 3월에 발표되어 기본적으로 인텔이 USB-IF용으로 제공하는 Thunderbolt 3에 준하여 인증된 USB Type-C 케이블을 사...

Date2019.09.07 CategoryENTERPRISE Views11158

Read More