4월 28일 (일) 오후 8:17

logo

  • home
  • head
  • itnews
  • product
  • mobile
  • game
  • benchmark
  • analysis
  • blog

개봉 2024.06.05. / 장르 드람 / 국가 대한민국 감독 : 조지 밀러 출연 : 안야 테일러 조이, 크리스 헴스워스 등 ...
개봉 2024.05.22. / 장르 액션 / 국가 미국 감독 : 조지 밀러 출연 : 안야 테일러 조이, 크리스 헴스워스 등 ...
조회 수 7437

 ● 공개된 Llano(라노)의 내부 아키텍쳐

 

AMD는 소프트웨어 개발자를 위한 기술 컨퍼런스 「AMD Fusion Developer Summit(AFDS)」에서 새로운 APU(Accelerated Processing Unit) 「AMD A시리즈」(Llano)의 칩 아키텍쳐의 개요를 밝혔다. AFDS는 미국 워싱턴주 벨뷰에서 6월 13일~16일에 개최된 컨퍼런스로, Llano의 내부 버스 아키텍쳐와 CPU 코어 및 GPU 코어의 데이터 순환을 가능하게 하는 제로 카피의 개요등을 공개했다. Llano는 CPU 코어와 GPU 코어가 다이로 나눠져 있지 않고, 새로운 버스 아키텍쳐로 연결되고 있다.

 

AFDS의 기술 세션과 AMD 관계자의 설명으로 나타난 Llano 전체의 모식도는 아래 사진과 같다. GPU 코어는 특수한 버스 아키텍쳐로 유니 파이드 노스브릿지(UNB)와 접속되고 있다.「Fusion Compute Link(Onion)」과「Radeon Memory Bus(Garlic)」의 2 계통 버스가 병렬로 연결되고, Garlic은 2개 분의 버스로 연결되어 있다.


 

 

1.png

Llano 아키텍쳐

 

 

Llano는 GPU 코어가 CPU 코어와 하드웨어적으로는 동격 이상의 취급이 되고 있는 점을 확인할 수 있다. 기존의 SoC(System on a Chip)에서 CPU 코어 부분은 내부 CPU 버스에 접속되고 있지만, GPU 코어는 내부 I/O 버스에 연결되어 CPU 코어나 메모리 컨트롤러와는 거리가 있는 것이 일반적이였다.

 

그러나 AMD APU 아키텍쳐에서 GPU 코어는 I/O콘트롤러 버스 이외에, 메모리 컨트롤러에 직결되는 Radeon Memory Bus(Garlic) 버스를 갖추고 있다. 이 버스는 각각의 CPU 코어로부터 메모리 컨트롤러로의 링크보다 대역폭이 배가 되고 있다. 또 Llano는 CPU와의 coherency(일관성)을 갖는 Fusion Compute Link(Onion) 버스도 갖추고 있고, 메모리 엑세스 버스가 2 계통으로 되어 있다.

 

이 구조는 GPU 코어에 광대역의 메모리 엑세스를 유지하면서 CPU 코어와 GPU 코어 사이의 부분적인 데이터 교환을 가능하게 하기 위한 것이다. GPU 중심의 버스 구성이라고 말해도 괜찮을 정도의 고급스러움이다. 물론, 그 목적은 5 SIMD(400sp)의 연산 능력이 높은 GPU 코어 「Sumo」의 데이터를 피드백 하는 것에 있다.


 

2.png

Sumo(그래픽 아키텍쳐)

 

 

또, 이 구조는 Llano 뿐만이 아니라 하위 APU 「AMD E시리즈 APU(Zacate/Ontario:자카테/온타리오)」에서도 공통되고 있는 것 같다. 프로그래밍의 일관성을 유지하기 위해서 같은 세대의 APU 간에 아키텍쳐를 통일하고 있다고 보여진다. 이 때문에 Llano의 내부 구성은 Zacate/Ontario의 내부 구성으로부터 추측하는 것이 가능하다. Zacate/Ontario의 내부 구성은 금년 2월의 ISSCC(IEEE International Solid-State Circuits Conference)와 4월에 일본에서 개최된 COOL Chips에서 밝혀졌었다. 아래가 COOL Chips에서 밝혀진 Zacate/Ontario 아키텍쳐의 모식도.

 

 

3.png

Zacate/Ontario 모식도


 
● 크게 다른 Garlic / Onion 2개의 버스
 

보다 자세하게 보면, GPU 코어와 UVD3 유닛 등 GPU에 부속되는 유닛은 그래픽 메모리 콘트롤러에 접속되고 있다. 여기서부터 버스가 연결되어 Radeon Memory Bus(Garlic)는 유니 파이드 노스브릿지 유닛안의 DRAM 콘트롤러와 직결하고 있다. 이 구조는 Zacate/Ontario와 같지만 Llano는 한가지 차이가 있다.

 

Llano의 Garlic 버스는 2중으로 되어 있어 각각 2 채널 DRAM의 다른 한쪽의 채널과 결합되고 있다. GPU 코어는 2 채널을 풀로 사용할 수 있기 때문에 Garlic 버스를 사용한 액세스는 광대역이다. 비디오 메모리 영역의 액세스 실효 대역은 최대 읽기 속도가 17GB/sec, 쓰기 속도가 12GB/sec가 된다.

 

Garlic 버스의 GPU 코어로부터의 최대 대역은 29.8GB/sec로 메모리 대역과 일치하고 있다. 그러나 통상적으로 실효 대역은 피크 대역의70% 이하로 떨어지는 것이 일반적이므로 Garlic의 대역은 피크대역에 가깝다. 덧붙여, Llano의 CPU 코어 단일 메모리 읽기&쓰기가 8GB/sec, 멀티 코어 액세스시에는 13GB/sec로, GPU 코어가 메모리 대역에서는 우세로 나타나고 있다.

 

Garlic 버스의 액세스는 CPU 캐쉬 snoop과 일치하지 않는다. 일관성을 취하는 CPU 버스와 접속하고 있지 않는 것은 이 때문이다. 액세스 하는 메모리 영역은 주로 공유 메모리내의 비디오메모리 영역이다. Garlic은 말하자면 별개적인 GPU 메모리 버스에 가까운 이미지의 버스 아키텍쳐다. Garlic 버스에 Radeon이라는 이름을 적용한 이유도 이와 같은 것이다.


 

 4_s.gif

Llano 다이

 

 

한편 다른 한쪽의 Fusion Compute Link(Onion) 버스는 GPU 코어를 어느 정도 CPU 코어적으로 취급하기 위한 버스다. Onion을 경유한 메모리 엑세스는 GPU 코어가 지금까지 할 수 없었던 CPU 캐쉬의 Snoop이 가능하게 된다. 액세스 하는 메모리 영역은 공유 메모리내의 CPU측 시스템 메모리 영역이다. CPU와의 직결된 버스로, CPU와 GPU의 사이의 데이터 순환을 위해서 설치되었다.

 

Fusion Compute Link(Onion) 버스는 그 기능으로 볼때 CPU 버스에 접속되고 있다고 추측된다. AMD 멀티 코어 CPU의 내부 버스는 코어간의 시스템 리퀘스트를 조정하는 큐가 있어 이것이 외부 링크와의 크로스바 스위치와 접속하고 있다. Onion는 직접방식인지 어떤지는 불명하지만, 이 일관된 큐에 접속되고 있을 것이다.

 

Llano의 CPU 코어군은 기존과 같이 L2캐쉬를 경유한 캐쉬블 메모리 엑세스 외에, 라이트 콤바인(WC) 쓰기조합 버퍼 경유를 할 수 있다. WC 버퍼는 64byte로 각 코어에 갖춰져 있다. WC 버퍼 자체는 이전부터 AMD 코어가 갖추고 있던 기능이지만 APU에서 GPU 코어와의 데이터 순환에 밀접하게 결합되고 있기 때문에 추가하여 그렸다.

 

덧붙여, 라이벌인 Intel의 Sandy Bridge는 아래의 그림과 같이 단일 링버스에 CPU 코어와 캐쉬, 그리고 GPU 코어가 각각 동렬에 접속되는 구성으로 되어 있다.

 

 

 

 4.png

Sandy Bridge 링버스 구조 


 
● 미세 영역으로 나누어진 Llano의 물리 메모리
 

그렇다면 이러한 GPU 버스와 CPU 버스를 사용한 메모리 엑세스는 어떻게 되는 것일까. 이것에 대해서는 AFDS에서 개요가 설명되었다.아래의 그림은 AFDS의 설명을 베이스로 작성한 Llano의 메모리 영역의 차트다.

 

 

 5.png

라노 메모리 엑세스 영역

 

 

Llano는 CPU 코어와 GPU 코어가 같은 물리 메모리를 공유하고 있지만 여전히 CPU와 GPU의 메모리 어드레스 공간은 완전하게 나뉘고 있다. 양쪽 메모리 영역에 액세스 할 수 없지만, 한정된 형태로 프로그램상에서 명시하는 것으로 서로의 메모리 공간에 액세스 할 수 있다.

 

우선, CPU측의 시스템 메모리에는 GPU 코어측으로부터 액세스 할수 있는 「USWC(Uncached Speculative Write Combine)」영역을 설정할 수 있다. USWC는 CPU로 캐쉬되지 않는 메모리로 CPU 측으로부터도 통상적으로 액세스를 할 수 없지만 WC 버퍼를 경유한 액세스가 가능하다.

 

또, 캐쉬된 시스템메모리에는 GPU 코어측으로부터 Fusion Compute Link(Onion) 버스 경유로 액세스하기 위한 페이지를 설정할 수 있다.다만, GPU가 액세스 하는 페이지는 CPU의 통상적인 페이지 오퍼레이션이 행해지지 않게 고정할 필요가 있다. 또, GPU를 액세스 할 수 있기 위한 메모리 공간도 한정된다.

 

GPU 코어 측에는 GPU의 메모리 시스템으로 주소 되고 있는 로컬 비디오 메모리 영역이 있다. CPU측에서 WC를 경유하는 것으로, 이 GPU의 로컬 메모리에 액세스 할 수도 있다.


 

● 메모리 영역에 퍼포먼스의 큰 차이점
 

제약이 많기는 하지만 서로 액세스가 생기는 CPU 코어와 GPU 코어. 그러나, 같은 물리 메모리에 액세스 하는 것에도 불구하고, 그 메모리퍼포먼스는 메모리 영역에 의해서 큰 차이가 있다. 아래의 그림은 왼쪽이 CPU 코어로부터 메모리 영역 액세스의 3가지 경로와 대역을 나타낸 그림. 우측이 같은 그림의 GPU 부분이다. 표시된 퍼포먼스는 AMD의 발표 수치지만, 이것은 시스템이나 드라이버로 변화될 가능성이 있다. 그러나 큰 범위에서는 변하지 않을 것이다.

 

 

7.png

Llano의 메모리 엑세스 모식도

 

 

 

우선, CPU가 통상적으로 시스템 메모리에 액세스 하는 경우 캐쉬 계층을 경유한다. 싱글 CPU 코어의 액세스 대역은 읽기&쓰기 모두 8GB/sec로, 멀티 코어의 액세스는 13GB/sec. 최대 대역의 반 정도지만 그런데도 어느정도의 대역이 확보되고 있다.

 

USWC에 WC 버퍼 경유로 액세스 하는 경우 쓰기는 통상적인 캐쉬블 시스템 메모리에 대한 것과 같은 813GB/sec. 그러나 읽기는 떨어져 1GB/sec 이하가 되어 버린다. 같은 WC 버퍼 경유로 GPU측의 로컬 비디오 메모리 영역에 액세스 하는 경우는 쓰기가 8GB/sec으로 읽기가 1GB/sec 이하로 이것도 읽기가 매우 늦다.

 

GPU를 측면에서 보면 GPU가 자신의 비디오 메모리 영역에 액세스 하는 경우에는 이미 쓴 것처럼, 읽기가 17GB/sec, 쓰기가 12GB/sec이  최대 대역이 된다. 이것은 Radeon Memory Bus(Garlic) 버스를 사용한 액세스다.

 

같은 Radeon Memory Bus(Garlic) 버스 경유에서도 CPU측의 USWC(Uncached Speculative Write Combine)에 액세스 하는 경우는 읽기&쓰기도 6~12GB/sec로 약간 저속으로 된다. 그리고 Fusion Compute Link(Onion) 버스를 사용한 캐쉬블 메모리에 액세스 하는 경우는 읽기가 4.5GB/sec, 쓰기가 5.5GB/sec로 꾀 느려진다.

 

 

●새로운 FSA의 중간 단계 Llano 메모리 아키텍쳐
 

AMD는 향후의 헤테로지니어스 컴퓨팅을 위한 프로그래밍 체제인 「FSA(Fusion System Architecture)」를 AFDS에서 발표했다. FSA에서는 궁극적으로 CPU 코어와 GPU 코어가 같은 가상 메모리 공간을 일관하면서 공유하는 것으로, 양 코어간의 자유로운 데이터 교환을 실현한다.


 

 

 7.png

AMD 차세대 코어의 메모리 공간 

 

 

그러나 이것을 실현하는 것은 AMD가 금년말에 릴리즈를 예정하고 있는 차세대 GPU 코어 「Graphics Core Next」가 APU에 통합되었을 때가 된다. 이 새로운 코어에는 기존의 AMD GPU와는 메모리 계층, 메모리 어드레싱도 일신 된다. GPU 내부의 캐쉬도 읽기&쓰기가 되어 CPU와 캐쉬 일관성이 유지되게 된다.

 

 

 8.png
次世代GPUコアのコヒーレンシ
PDF版はこちら

 

 

현재는 그 중반의 위치로 Llano 에서는 현재의 버스&메모리 컨트롤러의 아키텍쳐로 부분적인 공유를 실현하려고 한 것처럼 보인다. Llano로의 메모리 공유는 제약이 있어 프로그램으로 명시해야 하는 데다가 퍼포먼스의 큰 차이도 고려하지 않으면 안 된다. 사용하기 쉽다고는 말할 수 없는 것이 사실이다. Llano의 어프로치는 어디까지나 FSA로 가는 중간 역할에 지나지 않는 것 같다.

 

 

9.png
AMD CPUアーキテクチャの移行
PDF版はこちら

 

 

마지막으로 Llano의 코어는 단정밀도만으로 배정밀도를 지원하지 않는 것이 AFDS에서 밝혀졌다. 바탕이 되어 있는 Radeon HD 5870(Cypress) 계열은 이전의 Radeon HD 4800(RV770) 세대로부터 아키텍쳐 적으로는 배정밀도를 지원하고 있었다. 왜 Llano로 배정도를 지원하지 않았던 것인지 이유는 모르지만, 이것으로 HPC(High Performance Computing) 시장의 Llano의 길은 거의 닫혔다고 봐도 좋을 것 같다.


 

 

10.png

Sumo SIMD 어레이

 

 

 

 

 

(2011年 6月 22日)

[Text by 後藤 弘茂(Hiroshige Goto)]






List of Articles
제목 조회 수
히타치 플래시 미디어 스토리지 - 유니파이드 HUS150 ALL FLASH 3410
후지쯔, 사물인터넷 기기의 고속 암호 통신 인증 기술 개발 (TLS) 2 2964
한계에 도달한 하드디스크의 대안 SSD 5161
프로젝트 올림푸스(Open Compute Project), 데이터 센터 기술 동향 3949
포티넷(Fortinet), FortiOS 6.2에 대거 기능 강화 및 확충 2089
페이스북의 가상현실? 리프트 헤드셋 제조 업체 오큘러스VR 인수 4229
테슬라 GPU, 세계 최고 페타플롭급 슈퍼컴퓨터 탑재 7311
태블릿 시장 및 엔비디아 쿼드코어 테그라3 4939
클라우드 게임 서비스 시대로, 소니가 주목한 MS 게임 플랫폼 2981
쿼드로 3000M을 탑재한 파워풀 노트북, 후지쯔 FMV LIFEBOOK NH90/DN 8703
차원이 다른 올 플래시 스토리지, EMC DSSD D5 출격 3 15133
차원이 다른 x86 서버, HP Integrity Superdome X 발매 4759
차세대 윈도우8의 주요 특징 정리 2 22807
차세대 윈도우10은 7가지 에디션 - 모든 플랫폼을 통합 15735
차세대 반도체(DRAM), DDR4와 LPDDR3 칩이 등장 17157
중국 텐허2가 슈퍼컴퓨터 1위 / 제온파이 라인업 추가 100490
주니퍼 네트웍스의 차세대 클라우드 아키텍처 메타 패브릭(MetaFabric)+QFX5100 스위치 발표 4957
전세계 게이머들의 CPU, GPU, S/W 등 사용 동향 3 12024
자율 주행 자동차와 엔비디아 (DRIVE PX2, DGX-1) 2 24493
인텔의 신형 아이태니엄부터 아톰S 까지 서버 프로세서 로드맵 8203
인텔의 매니코어 아키텍쳐 MIC와 아톰 SoC 메드필드 5929
인텔, 대규모 빅 데이터를 위한 독자적인 Hadoop(하둡) 배포판을 릴리즈 8555
인텔, HPC 타겟 “초 고밀도 집적 회로”의 개발에 착수 5863
인텔 아이비 브릿지와 AMD의 파일 드라이버 [ ISSCC ] 1 8304
인텔 실적 발표, 어닝 서프라이즈 및 최고 주가 경신 4 3233
인텔 실적 발표 - 2014년 브라이언 크르자니크의 경영 성과는? 2 3206
인텔 샌디브릿지 아키텍처 분석 (링버스,AVX,SSE,uOP 캐시,SIMD) 1 52092
인텔 베이트레일 태블릿 종합 - 델 베뉴 8/11 프로,아수스 T100,레노버 믹스2,아이코니아W4등 14469
인텔 네할렘 아키텍처, 로드맵 분석 (SMT,터보부스트) 3 35594
인텔 IDF 2011 (베이징) 주요 내용 요약 (시더트레일/오크트레일/아이태니엄) 2 15595
인텔 / AMD의 x86 CPU 아키텍처 동향(CELL,멀티코어,불도저,나노공정) 1 8542
인공지능(AI) 및 클라우드, 5G를 위한 Xeon Scalable 출시 4238
인간vs기계, 구글 인공지능 알파고와 이세돌의 경기에 집중 4 2856
유튜브의 랩터 인터내셔널 버전이 추가 되었습니다. 4902
윈도우 태블릿의 전망은? 14906
웨스턴디지털의 샌디스크 인수 - 백그라운드는 중국 3 4292
와이브로(WIBRO)의 간략한 소개 3062
오라클, 솔라리스(Solaris)에 Docker 통합 계획 발표 2175
오라클, 5TB의 테이프 드라이브 발표 4520
오라클 올 플래시 스토리지 신제품 Oracle FS1 발표 - 하이브리드 지원 3443
오라클 엑사데이터X5(Exadata) 제공 시작, 올 플래시 구성 대응 3185
엔씨소프트 실적 발표, 매출-영업이익-순익 증가 3 2903
엔비디아, GPU 컴퓨팅의 가능성을 어필 (Accelerated Computing) 1 5745
엔비디아 실적발표 - 글로벌 4차 산업혁명의 중심 기업 3 4668
엔비디아 실적 발표, 인텔과 "패권" 전쟁 돌입 3 8018
엔비디아 실적 발표 - 매출 21% / 순익 48% 증가 (Nvidia earnings) 2 4779
애플의 최신 OS 라이언은 맥OS 의 보급을 가속할 수 있을까 8236
애플실적 발표 - 사상 최대 실적의 어닝 서프라이즈 4 3810
애플 실적발표, "다각화 된 비지니스 포트폴리오의 견고함" 2 3111
애플 실적 발표, 다가올 사상 최대 실적의 서막 3 3807
애플 실적 발표 - 한계에 도달한 모바일 사업 3 86741
애플 실적 발표 - 아이폰 판매량 35% 증가 7945
애플 실적 발표 - 아이폰 및 맥PC 판매 호조, 아이패드 판매 감소 지속 4340
애저 네트워크 컨테이너와 광통신 기술의 오픈 소스화 2171
아마존, 음성 인식 비서 아마존 에코 발표 (Amazon Echo) 12117
아마존 웹 서비스, 보다 대용량 및 고속 SSD 기반 EBS 볼륨 제공 4280
아마존 AWS CloudTrail, Glue, EFS 등 서비스 개선 및 추가 5458
시스코와 Netapp, 플렉스팟 (FlexPod) 아키텍쳐로 양사의 제휴를 확대한다 6390
시스코, 사물 인터넷 시대에 대응하는 포그 컴퓨팅 플랫폼 IOx 발표 6955
시스코, 기업 iOS 디바이스를 보호하는 Security Connector 발표 2403
시스코 테트레이션 애널리틱스, 데이터 센터를 가시화 (Tetration analytics) 3777
스마트폰 랩터 사운드 벨소리 다운로드 17419
소프트웨어 정의 시대, SD-WAN 네트워크 기술 동향 (ISP) 3 121715
소프트웨어 정의 스토리지 - 레노버 Storage DX8200C 3505
세계 웹브라우저 점유율 및 OS 시장 점유율 1 4180
세계 사물인터넷 기업 순위는? 인텔-IBM-MS가 IoT 리더 2 14515
세계 모바일AP 시장 점유율, 퀄컴의 독주와 애플/미디어텍 약진, 엑시노스 추락 (ARM) 13363
서버/PC/모바일, 인텔 CPU-메인보드-SSD 종류 및 스펙 4398
서버 / PC 성능 저하의 원인은 하드디스크 단편화, 그 해결책은? (디스크키퍼) 12504
삼성전자 2분기 실적 발표 - 모바일 사업 급락, 반도체/소비자 가전 선방 2 12359
삼성의 아이피니티 지원 멀티 디스플레이 (AMD 아이피니티) 2 5980
사타3의 후속 규격, 사타 익스프레스의 본격적인 규격 작업 시작 8203
빅데이터 플래시 시스템, 샌디스크 인피니플래시 발표(InfiniFlash) 1 4534
베이트레일, 메리필드를 위한 인텔 실버몬트 아키텍처 분석 1 24833
반도체 아키텍처 분석) x86, HSA, HBM, TSV, 3D V-NAND 3 72151
미션 크리티컬 타겟 델 파워에지 R920 / 1U 파워에지 R220 발표 3169
미래는 해저 데이터 센터? Project Natick 실증 실험 1939
모빌리티로의 추진이 비지니스의 지속성과 생산성을 향상 (인텔 vPro) 5954
만물 인터넷(IoE) 대응, 시스코 인터클라우드 강화(Cisco Live US 2015) 2 13953
마침내 1GB당 1달러에 도달한 SSD의 가격, 더 가까워진 대중화 11826
마이크로소프트의 새로운 시작, 제품별 직종별 대규모 조직 개편 시행 5290
마이크로소프트, 애저 PaaS 기반 서비스 패브릭(Service Fabric) 오픈 소스화 3847
마이크로소프트 인터넷 익스플로러10 사용 캠페인 (IE10) 1 5351
리눅스 파운데이션, 드론(무인항공기) SW를 위한 드론코드 프로젝트(Dronecode Project) 발족 16073
레드햇(Red Hat), CoreOS를 2억 5000만 달러에 인수 3154
랩터 인터내셔널 배경화면 배포 4504
랩터 인터내셔널 RSS 주소 입니다. 1 17681
라우터와 스위치, 글로벌 네트워크 시대의 핵심 (이더넷,프레임릴레이) 1 23859
디도스(DDos) 공격 동향 보고서 - 아카마이 테크놀로지 3 5369
델 테크놀로지스 탄생, 세계 최대 비상장 통합 IT 기업 4 4256
델 소닉월 캡처 제공 시작 (Dell SonicWALL UTM Capture) 2099
델 EMC 인수 - 엔터프라이즈 시장 경쟁력 강화 5 9729
뉴 패러다임 메모리 기반 컴퓨팅 - HPE The Machine 4611
넷북 사용자들을 위한 S/W 4135
네트워크 가상화를 위한 VMware NSX의 최신 동향 4090
네이버vs다음 국내 포털 점유율, 대한민국은 네이버가 지배한다 (네이버 각 데이터센터) 16184
네이버vs다음 국내 포털 점유율 - 확대되는 격차 (네이버,다음 실적) 13737
네이버 라인은 일본 국민 메신저 임을 재확인, 성인 81.6%가 라인 사용 5066
기업 스토리지의 41%는 방치 데이터 - 베리타스 (Veritas) 2 3561
글로벌 서버 시장 점유율 - 메인프레임/유닉스 몰락, x86의 시장 통일 13109
Board Pagination Prev 1 2 Next
/ 2