랩터 인터내셔널에 오신걸 환영 합니다
>

logo

  • head
  • news
  • product
  • mobile
  • benchmark
  • analysis
  • computing
  • multimedia

□ 개요  o Paloalto는 자사 제품...
Dan Swinhoe | CSO 무차별 대...
전세계 무선 이어폰 시장...

a100.jpg


미국 엔비디아(NVIDIA)는 차세대 Ampere(암페어) 아키텍처 기반 하이엔드 GPU로 NVIDIA A100을 발표했다.


암페어 A100은 TSMC 7나노 프로세스의 하이엔드 GPU로, 다이 사이즈는 826mm2로 Volta와 거의 동등한 사이즈에 트랜지스터는 540억으로 Volta의 2배 이상, D램은 HBM2, 메모리 인터페이스는 6144비트, 6개의 HBM 스택을 GPU에 접속한다. 메모리 대역은 1.6TB/s, 메모리 용량은 40GB로 현시점 몬스터 급의 수퍼 GPU.


99b983892094b5c6d2fc3736e15da7d1_1.jpg


현행 GPU로는 최대 규모인 A100은 연산 성능도 월등하여 CUDA 코어가 6912, FP64에서 9.7TFLOPS, FP32에서 19.5 TFLOPS의 연산 성능, 동작주파수는 최대 1.4GHz로 추정되고 있다.


NVIDIA GPU는 Volta 이후 딥러닝 전용의 텐서 연산 유닛으로 텐서 코어(Tensor Core)를 탑재하고 있다.GPU는 본질적으로는 벡터 연산 프로세서지만 텐서 연산 프로세서를 조합한 하이브리드로 구성 함으로써 딥러닝 성능을 향상시켰으며 신형 암페어(Ampere) 아키텍쳐도 그것을 계승하고 있다.


NVIDIA A100의 텐서 코어 수는 432개로, 각 SM마다 4코어가 배치된다. SM마다 8코어였던 Volta와 비교해 텐서 코어 수가 줄어든 것처럼 보이지만 이는 텐서 코어의 합계 방식이 달라졌기 때문이다. Volta에서는 각 SM 프로세싱 블록마다 16×16 텐서 연산 유닛을 2개로 카운트했으나 Ampere는 16x32 유닛으로 카운트 되고 있다.


Ampere는 텐서 코어가 대폭 확장됐다. 우선 새롭게 BFloat16과 Tensor Float32, 2개의 새로운 데이터 포맷이 지원됐다. BFloat 16(Brain Floating Point 16)은 뉴럴 네트워크 용도를 전제로 제안된 새로운 부동소수점수 포맷으로 프로세서 업계 전체에서 채용이 진행되고 있다. 기존의 IEEE 754 부동소수점은 FP32(32-bit 단정밀도 부동소수점)가 부호부(Sign) 1-bit, 지수부(Exponent) 8-bit, 가수부(Mantissa) 23-bit로 구성되어 있다. 그에 반해 FP16(16-bit 부동소수점)에서는 부호부(Sign) 1-bit, 지수부(Exponent) 5-bit, 가수부(Mantissa) 10-bit.bfloat 16(BF16)은 부호부(Sign) 1-bit, 지수부(Exponent) 8-bit, 가수부(Mantissa) 7-bit.


데이터 사이즈는 FP16과 동등하면서도 다이내믹 레인지는 FP32와 동등하며 가수부의 데이터 정밀도를 줄였다. 다이나믹 레인지가 중요한 뉴럴 네트워크(neural network)에 적합한 포맷이다. Tensor Float32(TF32)는 부호부(Sign)1-bit, 지수부(Exponent)8-bit, 가수부(Mantissa)10-bit로 다이내믹 레인지는 FP32와 동등하지만 가수부의 데이터 밀도는 FP16과 동등하며 FP32의 다이내믹 레인지를 들여오면서 FP16의 정밀도를 유지하는 새로운 포맷이다. Ampere의 텐서 코어는 FP16 이외에 BF16, TF32, Int8, Int4, FP64를 폭넓게 지원하며 TF32는 딥 러닝 훈련에 주안점을 둔 확장으로 TF32 도입으로 훈련 성능이 크게 증가한다.


또, 벡터부 FP64는 9.7TFLOPS지만 텐서부 FP64는 19.5TFLOPS로 FP16의 벡터 연산과 동등한 성능을 달성한다. 이것은 과학 기술계 애플리케이션을 의식한 확장으로 보이며 딥 러닝 액셀러레이터에 대한 GPU는 범용성이 포인트로 Ampere는 과학 기술에서 중요한 FP64로 범용적인 컴퓨팅도 강화하고 있다.


99b983892094b5c6d2fc3736e15da7d1.jpg


그 외 Ampere 아키텍처는 GPU 칩 내의 자원을 분할하고 다른 인스턴스를 나란히 하는 멀티 인스턴스에 대응한다. 최대 7인스턴스를 1칩에서 가동시킬 수 있다. NVIDIA GPU는 그 동안 큰 워크로드에서 칩 전체가 대응하는 것에 초점을 맞춰 왔다. 그러나 Ampere는 AMD GPU와 같이 보다 정밀도가 작은 작업을 병렬화하는 방향으로 진행하고 있다.


딥러닝에서 뉴럴 네트워크의 사이즈는 점점 커지고 있어 GPU에는 스케일 업이 요구된다. NVIDIA는 이러한 상황에 대응해 GPU에 칩 간 인터커넥트 기술인 NVLink를 탑재하여 GPU 간의 다이렉트한 접속을 실현해 왔다. NVLink는 Volta 아키텍처의 Tesla V100에서 칩 전체 대역은 피크 300GB/s였으나 Ampere 아키텍처의 A100은 NV Link 전체 대역은 피크 600GB/s에 달하고 있다.


NVIDIA는 A100을 GPU 컴퓨팅 시스템 DGX 시리즈로 제공한다. Ampere 기반의 DGX A100은 8개의 NVIDIA A100 GPU와 2개의 64코어 AMD Rome CPU, 거기에 NVLink 스위치인 NVSwitch가 6개의 구성으로 되어 있다. 시스템 전체의 성능은 FP16에서 5 PFLOPS.


nvidia-nvlink-nvswitch-2c50-d.jpg


- 이하 엔비디아 공식 기술 설명


과학자, 연구자, 엔지니어와 같은 이 시대의 다빈치와 아인슈타인들이 AI와 고성능 컴퓨팅(HPC)을 통해 세계에서 가장 중요한 과학, 산업, 빅 데이터 과제를 해결하려 노력하고 있습니다. 기업들과 전체 산업들은 온프레미스와 클라우드 모두에서 대규모 데이터 세트로부터 새로운 인사이트를 추출하기 위해 AI의 힘을 활용하려고 합니다. 탄력적 컴퓨팅의 시대에 맞게 설계된 NVIDIA Ampere 아키텍처는 이전 세대 대비 혁신적인 성능 도약으로 모든 규모에서 비교할 수 없는 가속화를 제공하여 혁신가들이 중요한 연구 과제를 수행할 수 있도록 지원합니다.


540억 개의 트랜지스터로 제작된 NVIDIA Ampere는 현재까지 제작된 가장 큰 7나노미터(nm) 칩으로, 획기적인 5개의 핵심 혁신을 선보입니다.


3세대 Tensor 코어
NVIDIA Volta™ 아키텍처에서 최초로 도입된 NVIDIA Tensor 코어 기술은 AI에 극적인 가속을 제공하여 트레이닝 시간을 몇 주에서 몇 시간으로 단축하고 추론을 막대하게 가속시킵니다. NVIDIA Ampere 아키텍처는 새로운 정밀도인 Tensor Float(TF32) 및 부동 소수점 정밀도 64(FP64)를 도입하여 이러한 혁신을 토대로 AI 채택을 단순화하고 Tensor 코어의 성능을 HPC로 확장합니다.


TF32는 FP32와 같이 작동하면서 코드 변경 없이 AI를 최대 20배까지 가속합니다. NVIDIA Automatic Mixed Precision를 사용하여 연구원은 코드를 단 한 줄만 추가해도 2배의 추가 성능을 얻을 수 있습니다. 그리고 NVIDIA A100 Tensor 코어 GPU의 Tensor 코어는 bfloat16, INT8 및 INT4 에 대한 지원으로 AI 트레이닝 및 추론 양쪽에 놀랍도록 다재다능한 가속기를 생성합니다. 또한, A100은 Tensor 코어의 성능을 HPC에 도입하여 완전하고 IEEE 인증을 받은 FP64 정밀도로 매트릭스 연산을 가능케 합니다.


MIG(Multi-Instance GPU)
모든 AI 및 HPC 애플리케이션은 가속의 이점을 얻을 수 있지만 모든 애플리케이션에 A100 GPU의 전체 성능이 필요한 것은 아닙니다. MIG를 통해 각 A100은 자체 고대역폭 메모리, 캐시, 컴퓨팅 코어로 하드웨어 수준에서 완전히 격리되고 보호되는 무려 7개의 GPU 인스턴스로 분할될 수 있습니다. 이제 개발자는 크고 작은 모든 응용 프로그램의 획기적인 가속화에 액세스할 수 있으며 보장된 서비스 품질을 경험할 수 있습니다. 그리고 IT 관리자는 최적화된 활용을 위한 적절한 규모의 GPU 가속화를 제공할 수 있으며 베어 메탈 및 가상화된 환경 전반에서 모든 사용자와 애플리케이션으로 액세스를 확장할 수 있습니다.


3세대 NVLink
여러 GPU에서 애플리케이션을 확장하려면 데이터 이동 속도가 매우 빨라야 합니다. A100의 3세대 NVLink는 GPU 간의 직접적인 대역폭을 2배인 600GB/s로 증가시키며 이는 PCIe Gen4의 10배에 달합니다. 최신 세대의 NVSwitch와결합되는 경우 서버의 모든 GPU는 서로 간에 최대 NVLink 속도로 통신하며 데이터를 놀랍도록 빠르게 전송할 수 있습니다.

NVIDIA DGX™ A100 다른 선두 컴퓨터 제조업체의 서버는 NVLink 및 NVSwitch 기술을 통해 NVIDIA HGX™ A100 baseboards는 HPC 및 AI 워크 로드에 더 높은 확장성을 제공 합니다.


구조적 희소성
최신 AI 네트워크는 수백만 개, 일부 경우에는 수십억 개의 매개변수와 함께 점점 더 커지고 있습니다. 이 매개변수가 정확한 예측과 추론에 모두 필요한 것은 아니므로, 일부는 정확성을 감소시키지 않고 모델을 "희소"하게 만들기 위해 0으로 변환할 수 있습니다. A100의 Tensor 코어는 희소한 모델에 대해 최대 2배 높은 성능을 제공할 수 있습니다. 희소성 기능은 AI 추론에 더 수월하게 이점을 제공하지만, 모델 트레이닝의 성능을 개선하는 데 사용할 수도 있습니다.


A100은 데이터센터에 방대한 양의 컴퓨팅을 제공합니다. 이러한 컴퓨팅 엔진의 활용도를 완전하게 유지하기 위해 업계 최고 수준인 1.5TB/s의 메모리 대역폭을 보유하여 이전 세대에 비해 67% 증가했습니다. 또한, A100은 40MB 레벨 2 캐시를 포함하여 이전 세대에 비해 7배 더 많은 온 칩 메모리를 보유함으로써 컴퓨팅 성능을 극대화합니다.


NVIDIA Ampere 아키텍처와 NVIDIA Mellanox의 ConnectX-6 Dx SmartNIC의 조합인 NVIDIA EGX™ A100는 전례없는 컴퓨팅 성능과 네트워크 가속 기능으로 엣지에서 생성되는 대규모 데이터를 처리합니다. Mellanox SmartNIC는 최대 200GB/s의 회선 속도로 해독하는 보안 오프로드를 포함하며 GPUDirect™는 AI 처리를 위해 비디오 프레임을 GPU 메모리로 직접 전송합니다. EGX A100 덕분에 비즈니스는 엣지에서 AI 배포를 더 안전하고 효율적으로 가속할 수 있습니다.






  1. NVIDIA, 차세대 인공지능 몬스터 GPU '암페어(Ampere)' 아키텍처 A100 발표

    미국 엔비디아(NVIDIA)는 차세대 Ampere(암페어) 아키텍처 기반 하이엔드 GPU로 NVIDIA A100을 발표했다. 암페어 A100은 TSMC 7나노 프로세스의 하이엔드 GPU로, 다이 사이즈는 826mm2로 Volta와 거의 동등한 사이즈에 트랜지스터는 540억으로 Vol...
    Date2020.05.15 Reply0 Views738
    Read More
  2. Apple, 홈 버튼과 A13 Bionic 탑재 2세대 iPhone SE를 24일 발매

    미국 애플(Apple)은 4월 15일, 2세대 iPhone SE를 24일에 발매한다고 발표했다. 색상은 화이트, 블랙, 레드 세 가지를 준비한다. 2016년에 발매된 4인치형(1136×640) 1세대에서 True Tone 테크놀로지 채용의 Retina HD 디스플레이를 탑재함으로써 4...
    Date2020.04.16 Reply0 Views858
    Read More
  3. IT 기술을 활용한 '코로나 맵', '코로나 바이러스 현황 지도' 주요 정보를 한눈에

    국내의 한 대학생이 '신종 코로나 바이러스 맵' 을 개발하여 국민들에게 무상으로 정보를 제공하고 있다. 해당 개발자는 다음과 같이 홈페이지에 설명하고 있다.  신종 코로나 바이러스 맵 * 질병관리본부의 DATA 근거, 일일 업데이트(11:00, 18:00),...
    Date2020.02.01 Reply0 Views2526
    Read More
  4. 전세계 직원 연봉 순위 - 팔로알토 네트웍스, 엔비디아 등 IT 기업 초강세

    ○ 2019년 기준 전 세계 직원 연봉 순위 (대표나 간부를 제외한 중간 이하 실제 직원 연봉) 1. 팔로알토 네트웍스 : 약 2억 5백만원 2. 엔비디아 : 약 2억 4백만원 3. 트위터 : 약 1억 9500만원 4. 길리어드 사이언...
    Date2019.12.17 Reply4 Views1457
    Read More
  5. [Q&D] "왜 갤럭시만 털렸을까?"..연예인 해킹사건, 복제의 비밀

    Q2. 삼성 갤럭시만 뚫린 건가요? D : 연예인 A,B,C,D,E,F,G 등 모두 갤럭시 스마트폰을 썼습니다. 그들의 휴대폰에 저장된 '사진', '영상', '문자' 등이 털렸습니다. 문자는 이통사가 제공하는 기본 SMS입니다. 해커는 "너의 폰을 복제했다"고 말했...
    Date2020.01.10 Reply4 Views1852
    Read More
  6. 2020년대 인공지능 기술 동향 예측 (AI, GPU 등)

    James Kobielus | InfoWorld 인공지능(AI)은 사실상 기술 산업의 모든 분야에서 없어서는 안될 요소가 됐다. 애플리케이션, 개발 툴, 컴퓨팅 플랫폼, 데이터베이스 관리 시스템, 미들웨어, 관리 및 모니터링 툴 등 거의 모든 IT 분야에 영향을 미치고 있다....
    Date2020.01.02 Reply0 Views1081
    Read More
  7. 글로벌 반도체 기업 순위, 1위 인텔 및 TSMC의 위대한 성장

    글로벌 시장조사 기관 IC인사이츠(www.icinsights.com)가 2019년 반도체 시장 보고서를 발표했습니다. 발표 내용에 따르면 2019년 글로벌 반도체 시장 1위는 지난해 2위였던 미국 인텔이 지속적인 CPU 호황에 따라 글로벌 황제로 복귀한 것...
    Date2019.11.23 Reply2 Views1399
    Read More
  8. 2019년 3분기 전세계 PC 시장, 공급 문제에도 지속 성장

    Top Companies, Worldwide Traditional PC Shipments, Market Share and Year-Over-Year Growth, Third Quarter 2019 (Preliminary results, shipments are in millions of units) Company 3Q19 Shipments 3Q19 Market Share 3Q18 Shipments 3Q18 Ma...
    Date2019.10.13 Reply0 Views1308
    Read More
  9. 애플, 독보적인 A13 바이오닉과 트리플 카메라 탑재 "아이폰11" 발표

    미국 애플이 현존 최고 성능의 A13 Bionic 프로세서와 트리플 카메라를 탑재한 플래그십 스마트폰 iPhone 11 Pro, iPhone 11 Pro Max를 발표했습니다. 스마트폰 현존 최고 프로세서인 신형 A13 Bionic은 성능이 더 향상되면서도 소비 전력...
    Date2019.09.13 Reply0 Views5142
    Read More
  10. 애플 에어팟, 세계 무선 청각(헤드폰+이어폰) 시장 정복 및 시장 동향

    2019년 무선 청각 시장은 중국 시장의 수요 증가와 기존 주요 시장의 지속적인 성장으로 1억 2천만대에 도달할 것으로 전망됩니다. □ Counterpoint Research의 Hearables Market Tracker에 따르면 2019년 2분기 무선 청취 가능 제품의 세계 시장 규...
    Date2019.09.01 Reply3 Views1624
    Read More
  11. 2019년 2분기 글로벌 스마트폰 시장 현황 및 각 벤더별 점유율

    □ 글로벌 스마트폰 출하량은 2019년 2분기 3억 3천 5백만로 전년 대비 3% 감소하였습니다. □ 벤더별 점유율 1위는 삼성, 2위는 화웨이, 3위는 애플, 4위는 샤오미와 오포 입니다. □ 전년 대비 인도(5.8% YoY)의 성장이 가장 높았으며 MEA(5...
    Date2019.09.01 Reply0 Views1323
    Read More
  12. 인텔 vs. AMD 전세계 CPU 점유율 현황 (데스크톱,노트북,서버)

    탐스 하드웨어(www.tomshardware.com)에서 2019년 2분기 서버 - 데스크톱 - 노트북 시장의 글로벌 CPU 점유율을 보도했습니다. 첫번째, 전 세계 데스크톱 PC 시장 CPU 점유율입니다. AMD의 데스크톱 CPU 점유율은 2019년 2분기 17.1%로 나타났으며 ...
    Date2019.08.17 Reply3 Views1660
    Read More
  13. 애플 실적발표, "다각화 된 비지니스 포트폴리오의 견고함"

    미국 애플이 2019년 4월 ~ 6월 실적 발표 실적 데이터 - 애플 프레스 릴리스 (괄호는 전년 동기 대비 비교폭) ○ 총합 매출액 - 538억 0900만 달러 (1% 증가) 순이익 - 100억 4400만 달러 (13% 감소) ○ 각 제품 및 서비스별 매출액 ...
    Date2019.08.11 Reply0 Views1234
    Read More
  14. AMD, 2019년 2분기 실적발표 - 지속되는 내리막 길

    AMD가 2019년 2분기 실적을 발표했다. 결과에 따르면 매출은 15억 3000만 달러, 영업 이익은 5900만 달러, 순이익 3500만 달러, 주당 순이익은 0.03 달러를 기록했다. GAAP Quarterly Financial Results  Q2 2019  Q2 2018  Y/YQ1 2019  Q/QRevenue ($B)$1...
    Date2019.08.01 Reply5 Views1666
    Read More
  15. 인텔의 새로운 Co-EMIB, ODI, MDIO 반도체 패키징 기술 공개

    인텔이 샌프란시스코에서 진행한 SEMICON West 행사에서 새로운 Co-EMIB 패키징 기술을 발표했다. Co-EMIB 기술은 인텔이 기존에 발표한 EMIB(Embedded Multi-die Interconnect Bridge) 및 논리칩을 3차원으로 적층하는 Foveros 기술을 조합한 것으...
    Date2019.07.13 Reply0 Views1145
    Read More
  16. 글로벌 서버 시장 동향, x86과 DELL 강세 및 유닉스/메인프레임 퇴출

    Top 5 Companies, Worldwide Server Unit Shipments, Market Share, and Growth, First Quarter of 2019 (Shipments are in thousands) Company 1Q19 Unit Shipments 1Q19 Market Share 1Q18 Unit Shipments 1Q18 Market Share 1Q19/1Q18 Unit Gro...
    Date2019.06.06 Reply3 Views1948
    Read More
  17. 가격 하락 중인 DRAM, 2분기 이후로도 지속 하락 전망

    시장 조사 기관 트렌드포스(TrendForce) 산하 DRAMeXchange는 3월 25일, 과잉 재고에 의해 2019년 DRAM 제품의 평균 판매 가격이 시장 전체에서 20% 이상 하락한다는 조사 결과를 발표했다. 시장에서 DRAM의 재고 수준(웨이퍼 포함)은 1...
    Date2019.04.06 Reply0 Views1088
    Read More
  18. 미 에너지부, 최초의 엑사스케일 슈퍼컴퓨터 오로라(Aurora) 계약

    미국 인텔(Intel)은 미국 크레이(Cray)와 공동으로 미 에너지부에 슈퍼 컴퓨터 오로라(Aurora)를 2021년에 납품하는 계약을 체결했다고 발표했다. 신규 오로라는 세계 최초의 초당 100경 회의 부동 소수점 연산이 가능한 엑사 스케일 슈퍼 컴퓨터 시스...
    Date2019.03.21 Reply0 Views1219
    Read More
  19. Intel Architecture Day) 인텔의 차세대 아키텍처 기술 방향

    미국 인텔(Intel)은 창업자 고 로버트 노이스의 사저에서 기자설명회 "인텔 아키텍처 데이(Intel Architecture Day)"를 12월 11일 개최했다. 본 기사에서는 현지에서 취재하면서 알 수 있었던 Intel의 큰 개발 전략 변경에 필자의 고찰을 섞어 전하고 ...
    Date2018.12.15 Reply0 Views4742
    Read More
  20. 세계 스마트폰/태블릿 시장 점유율, 삼성 모바일 사업 최대 위기 직면

    글로벌 시장 조사 기관 미국 IDC가 2018년 3분기 세계 모바일(스마트폰/태블릿) 시장 보고서를 발표했습니다. 먼저 세계 스마트폰 시장은 예상대로 시장이 계속 축소되며 전년 대비 6% 감소했습니다. 내리막 길 시장속의 1위는 삼성으로 전년 대...
    Date2018.11.03 Reply4 Views1934
    Read More
  21. 3분기 애플 실적 발표, ASP 상승 효과에 따른 순이익 32% 증가

    미국 애플이 2018년 7월 ~ 9월 실적 발표 실적 데이터 - 애플 프레스 릴리스 (괄호는 전년 동기 대비 비교폭) 이전 실적 확인 - https://raptor-hw.net/xe/rapter_analysis/166408 총합 매출액 : 629억 0000만 달러 (20% 증가)...
    Date2018.11.03 Reply0 Views1354
    Read More
  22. 마침내 인텔 Core i9-9900K, Core i7-9700K, Core i5-9600K 공식 발표

    그 동안 루머로만 소식을 접할 수 있었던 인텔의 새로운 9세대 Core 시리즈가 공식 발표됐다. 인텔은 한국 시간으로 오늘 새벽 라이브 스트림 이벤트를 개최하고, 새로운 9세대 Core i9-9900K, Core i7-9700K, Core i5-9600K 제품에 대한 발표를 진...
    Date2018.10.09 Reply4 Views1768
    Read More
  23. 애플, 대화면 스마트폰 대중화를 선언한 아이폰XS, XS MAX, 아이폰XR 발표

    애플이 마침내 대화면 스마트폰의 대중화를 선언하는 새로운 아이폰XS, 아이폰XS MAX, 아이폰XR 시리즈를 정식 발표했습니다. 새로운 아이폰 시리즈의 주요 특징은 다음과 같습니다. 5.8인치 iPhone XS / 6.5인치 iPhone XS Max 유기 EL ...
    Date2018.09.15 Reply2 Views2428
    Read More
  24. 엔비디아, 새로운 시대의 GPU 튜링 아키텍처 공식 발표 (NVIDIA Turing)

    세계 최정상 GPU 기업 엔비디아(NVIDIA)가 SIGGRAPH 기조 강연에서 새로운 GPU 아키텍처 Turing을 공식 발표했다. CEO 젠슨황은 Turing은 NVIDIA의 GeForce와 Quadro를 위한 새로운 GPU이며 과거 GTX 8800과 같이 혁신적인 제품이라고 설명했다. ...
    Date2018.08.19 Reply2 Views1243
    Read More
Board Pagination Prev 1 2 3 4 5 6 7 8 9 10 ... 15 Next
/ 15