4월 19일 (금) 오후 5:16

logo

  • home
  • head
  • itnews
  • product
  • mobile
  • game
  • benchmark
  • analysis
  • blog

개봉 2023.11.22. / 등급: 12세 관람가 / 장르: 드라마 / 국가: 대한민국 감독 : 김성수 출연 : 황정민, 정우...
노량: 죽음의 바다 / 개봉 2023.12. / 장르: 액션, 드라마 / 국가: 대한민국 감독 : 김한민 출연 : 김윤석, ...

 

AMD는 미 스탠포드에서 개최된 칩 컨퍼런스 Hot Chips 22(A Symposium on High Performance Chips)에서 차세대 불도저 아키텍처와 밥캣의 기술적인 내용을 설명했다. 따라서 AMD의 향후 수 년간을 책임질 불도저 아키텍처를 현재까지 공개된 정보를 토대로 분석해본다. 

 
 

이번 Hot Chips의 발표 자료로 Bulldozer와 Bobcat의 CPU 아키텍처를 대략적으로 확인할 수 있었다. Bulldozer 아키텍처의 핵심은 2개의 CPU 코어를 통합한 CPU '모듈'로 2스레드를 실행한다. 1개의 CPU 모듈안에 2개의 정수 코어(Integer Core)와 L1캐시를 갖추어 2스레드를 병렬로 실행하며 부동 소수점 유닛(FP Units)이나 명령 디코더(Instruction Decoder), L2 캐시 등은 CPU 모듈에 1개 또는 1그룹씩으로 2스레드의 공유 자원이 되고 있다. 1코어로 2스레드를 실행하는 인텔의 Hyper-Threading과 같은 SMT(Simultaneous Multithreading) 기술과는 달리 각각의 스레드의 정수 연산을 실행하는 코어는 완전하게 분리되어 있다. 


또한 2개의 정수 연산 코어 각각에 정수 연산 파이프가 2개, 로드/스토어의 주소 생성 파이프가 2개로 구성 된다. 2코어로 공유되는 부동 소수점 연산 유닛부는 2개의 128-bit SIMD(Single Instruction, Multiple Data) 형태의 부동 소수점(FMAC) 유닛과 2개의 SIMD형 정수 연산 유닛을 갖추고 있다. 


눈에 띄는 것은 명령과 데이터 각각의 프리패치를 강화하고 연산 유닛의 효율을 높이고 있는 점이다. 분기 예측도 강화되고 있는 것 외 Intel CPU의 Macro-Fusion 과 같은 동등한 기능 등 명령 디코드 로테이션도 강화되고 있다. 전력 효율 기능에서는 32nm 버전 K10 부터 내장되는 파워게이팅이 Bulldozer에도 채용되어 본격적으로 강화된 터보 모드도 탑재된다. 그러나 소문에 돌고 있던 트레이스 캐시 등의 채용은 없다.  


전체적으로 Bulldozer는 예상대로 스레드 성능을 중시한 코어로 같은 규모의 Intel CPU보다 multi-thread 성능은 높아질 가능성이 있다. 그 반면 정수 연산계 파이프를 기존의 K7/K8/K10 계열 보다 얇게 구성하여 싱글 스레드 성능에는 불한한 요소가 있다. 그러나 AMD는 Bulldozer의 설계가 IPC(Instruction-per-Clock)의 스위트 스팟을 노린 것이며 클럭당 게이트수를 줄이는 것도 목적이라고 설계 의도를 설명한다. Bulldozer는 명령의 병렬도가 높은 CPU 코어와 비교하면 IPC는 떨어지나 전력 소비당 IPC 효율이 높고, 동작 주파수도 오를 것이라 추측된다.

 
 

2스레드의 명령 스트림을 원활히 진행하기 위해 Bulldozer의 프론트 엔드는 기존의 K8/K10과 비교해서 상당히 강화되고 있다. 우선 예측 파이프라인이 명령어 인출 파이프로부터 독립하여 동작한다. 예측 유닛에 가이드 된 명령을 프리패치 유닛이 명령을 예측한다.


L1명령 캐시로부터 명령어 인출의 패치 대역은 32-byte 폭, 큐는 스레드에 맞춰 이중화 되고 있을 가능성이 있다. 명령 디코더는 최대 4개의 x86 명령을 내부 명령으로 디코드할 수 있다. 명령 디코더는 인텔의 Macro-Fusion과 같이 비교 명령과 조건 분기 명령을 융합시키는 것으로 명령어 수를 줄이는 기능을 갖춘다. 이 때문에 디코더의 명령어 인출수는 최대 5개의 x86 명령이라 추정된다. 여기까지의 프론트엔드 부분은 사이클 단위로 스레드를 스위치 하거나 큐를 2중화하는등의 방법에 의해서 2개의 스레드로 공유되고 있다.  


2개의 정수 연산 코어는 같은 기능을 갖는다. 명령어 인출 유닛에서는 최대 4개의 명령이 각각의 정수 명령 스케줄러에 접속된다. 연산 파이프는 2개로 통상적인 연산 회로 외에 다른 한쪽의 파이프가(MUL:Multiplier), 다른 한쪽의 파이프가 DIV:Divider 를 갖추고 있다. 그 외에 로드/스토어의 주소 생성(Address Generation) 파이프가 2개 있다. 명령 디코드측이 2 명령/스레드/클럭이라고 볼 수 있는데 파이프라인이 4개인 것은 x86 명령 가운데 연산과 메모리 엑세스가 혼합한 명령이 연산 Micro-OP 와 메모리 엑세스 Micro-OP로 분리되기 위해서라고 추정된다.   


각각의 정수 코어의 로드/스토어 유닛은 2개의 128-bit 로드와 1개의 128-bit 스토어를 1사이클로 동시에 실행할 수 있다. 16KB의 L1 데이터 캐시는 3개의 메모리 작업을 동시에 진행할 수 있다. 다만, 주소 생성은 2 파이프 밖에 없다. 레지스터는 물리 레지스터를 레지스터 리네이밍으로 매핑 하는 방식을 택하고 있다. 이것은 데이터 이동을 최소화 하기 위해서다. 각각의 스레드의 명령 인출은 정수 연산 유닛내에서 시행한다.

 
 

부동 소수점(FP) 연산 유닛은 코-프로세서(Co-Processor)적인 발상으로 만들어져 있다. 불도저의 FP유닛은 정수 유닛에 종속되는 형태로 로드/스토어 명령도 정수 유닛측에서 실행되어 FP 유닛내에는 L1 데이터 캐시도 갖추지 않고 로드 버퍼만을 갖는다. 연산 파이프는 2개의 128-bit SIMD(Single Instruction, Multiple Data) 형태의 부동 소수점(FMAC) 유닛과 2개의 128-bit SIMD형 정수 연산 유닛, 부동 소수점 연산계열과 정수 연산계열이 분리되어 있다. 또, 부동 소수점 연산 파이프는 다수의 스레드의 명령을 1 사이클에 혼재할 수 있는 SMT(Simultaneous Multithreading)로 실행이 되어 있다. 2개 스레드의 부동 소수점 연산 명령을 동시에 실행할 수 있다는 점.   


Bulldozer 모듈의 L2캐시는 2개의 정수 코어로 공유되고 있다. L1과 L2의 데이터 프리패치는 크게 강화되었다. 규칙적인 데이터를 프리패치하는 스트라이드 베이스드(Stride-Based) 뿐 만 아니라 데이터가 불규칙 적으로 어려운 경우에도 대응할 수 있는 프리패치를 갖춘다. 또, 예측에 의해서 데이터 대역을 압박하는 프리패치를 로드되는 양에 따라 유지시키는 메커니즘도 갖춘다.  


전력 효율 기능에서는 모듈 단위로 전원을 완전하게 OFF 할 수 있는 파워게이팅을 탑재한다. AMD는 6코어 CPU 투반에 이미 터보 모드를 적용했다. 투반의 터보 모드는 3코어 단위로 동작하지만 Bulldozer의 터보 코어는 이것보다 더 세부적으로 확장되고 있는 것으로 보인다.  


Bulldozer의 이점은 코어의 갯수라는 multi-thread 퍼포먼스다. AMD는 Intel의 6코어(12스레드) CPU에 Bulldozer 베이스의 8코어(4모듈) CPU를 대응, Intel의 상위 10코어(20스레드) CPU에는 16코어(8모듈, 2다이) CPU를 대응 시킬것이라 추정된다. 서버 전용의 Bulldozer 8코어는 Valencia(발렌시아), 16코어는 Interlagos(인터라고스), 데스크탑 전용의 8코어는 Zambezi(잠베지).   


Interlagos는 DDR3 쿼드 메모리 채널의 소켓 G34, Valencia는 DDR3 듀얼 메모리 채널의 소켓 G32. 모두 GPU 코어는 통합하지 않고, CPU 코어와 노스 브릿지의 기능을 탑재한 CPU로, 지원하는 메모리는 DDR3의 새로운 차기 스펙인 1.25V의 지원이 추가된다.

 

  • ?
    파시스트 2010.09.12 16:17
    불도저의 초점은 멀티쓰레드 성능인것 같은데 그에 따라서 걱정되는 부분이 싱글쓰레드 성능이군요. 현재와 같이 멀티쓰레드 환경 자체가 제대로 구축되지 않은 상황에서 불도저가 어떤 모습을 보여줄 것인지가 관건이군요. 빨리 샌디와 불도저의 대결을 보고 싶다는.
  • profile
    김수창 2016.12.16 18:13
    위대한 글로벌 원탑 수퍼 애널리스트 랩터님이 나가신다!






List of Articles
제목 조회 수
히타치 플래시 미디어 스토리지 - 유니파이드 HUS150 ALL FLASH 3410
후지쯔, 사물인터넷 기기의 고속 암호 통신 인증 기술 개발 (TLS) 2 2960
한계에 도달한 하드디스크의 대안 SSD 5161
프로젝트 올림푸스(Open Compute Project), 데이터 센터 기술 동향 3946
포티넷(Fortinet), FortiOS 6.2에 대거 기능 강화 및 확충 2085
페이스북의 가상현실? 리프트 헤드셋 제조 업체 오큘러스VR 인수 4227
테슬라 GPU, 세계 최고 페타플롭급 슈퍼컴퓨터 탑재 7308
태블릿 시장 및 엔비디아 쿼드코어 테그라3 4939
클라우드 게임 서비스 시대로, 소니가 주목한 MS 게임 플랫폼 2978
쿼드로 3000M을 탑재한 파워풀 노트북, 후지쯔 FMV LIFEBOOK NH90/DN 8702
차원이 다른 올 플래시 스토리지, EMC DSSD D5 출격 3 15129
차원이 다른 x86 서버, HP Integrity Superdome X 발매 4756
차세대 윈도우8의 주요 특징 정리 2 22807
차세대 윈도우10은 7가지 에디션 - 모든 플랫폼을 통합 15734
차세대 반도체(DRAM), DDR4와 LPDDR3 칩이 등장 17156
중국 텐허2가 슈퍼컴퓨터 1위 / 제온파이 라인업 추가 100369
주니퍼 네트웍스의 차세대 클라우드 아키텍처 메타 패브릭(MetaFabric)+QFX5100 스위치 발표 4956
전세계 게이머들의 CPU, GPU, S/W 등 사용 동향 3 12019
자율 주행 자동차와 엔비디아 (DRIVE PX2, DGX-1) 2 24490
인텔의 신형 아이태니엄부터 아톰S 까지 서버 프로세서 로드맵 8203
인텔의 매니코어 아키텍쳐 MIC와 아톰 SoC 메드필드 5927
인텔, 대규모 빅 데이터를 위한 독자적인 Hadoop(하둡) 배포판을 릴리즈 8554
인텔, HPC 타겟 “초 고밀도 집적 회로”의 개발에 착수 5862
인텔 아이비 브릿지와 AMD의 파일 드라이버 [ ISSCC ] 1 8303
인텔 실적 발표, 어닝 서프라이즈 및 최고 주가 경신 4 3228
인텔 실적 발표 - 2014년 브라이언 크르자니크의 경영 성과는? 2 3202
인텔 샌디브릿지 아키텍처 분석 (링버스,AVX,SSE,uOP 캐시,SIMD) 1 52090
인텔 베이트레일 태블릿 종합 - 델 베뉴 8/11 프로,아수스 T100,레노버 믹스2,아이코니아W4등 14466
인텔 네할렘 아키텍처, 로드맵 분석 (SMT,터보부스트) 3 35592
인텔 IDF 2011 (베이징) 주요 내용 요약 (시더트레일/오크트레일/아이태니엄) 2 15593
인텔 / AMD의 x86 CPU 아키텍처 동향(CELL,멀티코어,불도저,나노공정) 1 8541
인공지능(AI) 및 클라우드, 5G를 위한 Xeon Scalable 출시 4234
인간vs기계, 구글 인공지능 알파고와 이세돌의 경기에 집중 4 2851
유튜브의 랩터 인터내셔널 버전이 추가 되었습니다. 4901
윈도우 태블릿의 전망은? 14906
웨스턴디지털의 샌디스크 인수 - 백그라운드는 중국 3 4291
와이브로(WIBRO)의 간략한 소개 3062
오라클, 솔라리스(Solaris)에 Docker 통합 계획 발표 2173
오라클, 5TB의 테이프 드라이브 발표 4519
오라클 올 플래시 스토리지 신제품 Oracle FS1 발표 - 하이브리드 지원 3438
오라클 엑사데이터X5(Exadata) 제공 시작, 올 플래시 구성 대응 3183
엔씨소프트 실적 발표, 매출-영업이익-순익 증가 3 2901
엔비디아, GPU 컴퓨팅의 가능성을 어필 (Accelerated Computing) 1 5744
엔비디아 실적발표 - 글로벌 4차 산업혁명의 중심 기업 3 4666
엔비디아 실적 발표, 인텔과 "패권" 전쟁 돌입 3 8013
엔비디아 실적 발표 - 매출 21% / 순익 48% 증가 (Nvidia earnings) 2 4776
애플의 최신 OS 라이언은 맥OS 의 보급을 가속할 수 있을까 8234
애플실적 발표 - 사상 최대 실적의 어닝 서프라이즈 4 3808
애플 실적발표, "다각화 된 비지니스 포트폴리오의 견고함" 2 3106
애플 실적 발표, 다가올 사상 최대 실적의 서막 3 3805
애플 실적 발표 - 한계에 도달한 모바일 사업 3 86622
애플 실적 발표 - 아이폰 판매량 35% 증가 7942
애플 실적 발표 - 아이폰 및 맥PC 판매 호조, 아이패드 판매 감소 지속 4338
애저 네트워크 컨테이너와 광통신 기술의 오픈 소스화 2169
아마존, 음성 인식 비서 아마존 에코 발표 (Amazon Echo) 12114
아마존 웹 서비스, 보다 대용량 및 고속 SSD 기반 EBS 볼륨 제공 4275
아마존 AWS CloudTrail, Glue, EFS 등 서비스 개선 및 추가 5455
시스코와 Netapp, 플렉스팟 (FlexPod) 아키텍쳐로 양사의 제휴를 확대한다 6389
시스코, 사물 인터넷 시대에 대응하는 포그 컴퓨팅 플랫폼 IOx 발표 6955
시스코, 기업 iOS 디바이스를 보호하는 Security Connector 발표 2401
시스코 테트레이션 애널리틱스, 데이터 센터를 가시화 (Tetration analytics) 3776
스마트폰 랩터 사운드 벨소리 다운로드 17417
소프트웨어 정의 시대, SD-WAN 네트워크 기술 동향 (ISP) 3 121587
소프트웨어 정의 스토리지 - 레노버 Storage DX8200C 3502
세계 웹브라우저 점유율 및 OS 시장 점유율 1 4177
세계 사물인터넷 기업 순위는? 인텔-IBM-MS가 IoT 리더 2 14511
세계 모바일AP 시장 점유율, 퀄컴의 독주와 애플/미디어텍 약진, 엑시노스 추락 (ARM) 13362
서버/PC/모바일, 인텔 CPU-메인보드-SSD 종류 및 스펙 4395
서버 / PC 성능 저하의 원인은 하드디스크 단편화, 그 해결책은? (디스크키퍼) 12502
삼성전자 2분기 실적 발표 - 모바일 사업 급락, 반도체/소비자 가전 선방 2 12357
삼성의 아이피니티 지원 멀티 디스플레이 (AMD 아이피니티) 2 5979
사타3의 후속 규격, 사타 익스프레스의 본격적인 규격 작업 시작 8202
빅데이터 플래시 시스템, 샌디스크 인피니플래시 발표(InfiniFlash) 1 4532
베이트레일, 메리필드를 위한 인텔 실버몬트 아키텍처 분석 1 24832
반도체 아키텍처 분석) x86, HSA, HBM, TSV, 3D V-NAND 3 72147
미션 크리티컬 타겟 델 파워에지 R920 / 1U 파워에지 R220 발표 3167
미래는 해저 데이터 센터? Project Natick 실증 실험 1937
모빌리티로의 추진이 비지니스의 지속성과 생산성을 향상 (인텔 vPro) 5954
만물 인터넷(IoE) 대응, 시스코 인터클라우드 강화(Cisco Live US 2015) 2 13949
마침내 1GB당 1달러에 도달한 SSD의 가격, 더 가까워진 대중화 11826
마이크로소프트의 새로운 시작, 제품별 직종별 대규모 조직 개편 시행 5288
마이크로소프트, 애저 PaaS 기반 서비스 패브릭(Service Fabric) 오픈 소스화 3844
마이크로소프트 인터넷 익스플로러10 사용 캠페인 (IE10) 1 5349
리눅스 파운데이션, 드론(무인항공기) SW를 위한 드론코드 프로젝트(Dronecode Project) 발족 16070
레드햇(Red Hat), CoreOS를 2억 5000만 달러에 인수 3150
랩터 인터내셔널 배경화면 배포 4504
랩터 인터내셔널 RSS 주소 입니다. 1 17681
라우터와 스위치, 글로벌 네트워크 시대의 핵심 (이더넷,프레임릴레이) 1 23857
디도스(DDos) 공격 동향 보고서 - 아카마이 테크놀로지 3 5365
델 테크놀로지스 탄생, 세계 최대 비상장 통합 IT 기업 4 4251
델 소닉월 캡처 제공 시작 (Dell SonicWALL UTM Capture) 2096
델 EMC 인수 - 엔터프라이즈 시장 경쟁력 강화 5 9724
뉴 패러다임 메모리 기반 컴퓨팅 - HPE The Machine 4604
넷북 사용자들을 위한 S/W 4135
네트워크 가상화를 위한 VMware NSX의 최신 동향 4088
네이버vs다음 국내 포털 점유율, 대한민국은 네이버가 지배한다 (네이버 각 데이터센터) 16183
네이버vs다음 국내 포털 점유율 - 확대되는 격차 (네이버,다음 실적) 13720
네이버 라인은 일본 국민 메신저 임을 재확인, 성인 81.6%가 라인 사용 5049
기업 스토리지의 41%는 방치 데이터 - 베리타스 (Veritas) 2 3556
글로벌 서버 시장 점유율 - 메인프레임/유닉스 몰락, x86의 시장 통일 13109
Board Pagination Prev 1 2 Next
/ 2