7월 30일 (수) 오전 1:13
랩터 인터내셔널에 오신걸 환영 합니다
>

logo

  • head
  • news
  • product
  • mobile
  • benchmark
  • analysis
  • computing
  • multimedia

a100.jpg


미국 엔비디아(NVIDIA)는 차세대 Ampere(암페어) 아키텍처 기반 하이엔드 GPU로 NVIDIA A100을 발표했다.


암페어 A100은 TSMC 7나노 프로세스의 하이엔드 GPU로, 다이 사이즈는 826mm2로 Volta와 거의 동등한 사이즈에 트랜지스터는 540억으로 Volta의 2배 이상, D램은 HBM2, 메모리 인터페이스는 6144비트, 6개의 HBM 스택을 GPU에 접속한다. 메모리 대역은 1.6TB/s, 메모리 용량은 40GB로 현시점 몬스터 급의 수퍼 GPU.


99b983892094b5c6d2fc3736e15da7d1_1.jpg


현행 GPU로는 최대 규모인 A100은 연산 성능도 월등하여 CUDA 코어가 6912, FP64에서 9.7TFLOPS, FP32에서 19.5 TFLOPS의 연산 성능, 동작주파수는 최대 1.4GHz로 추정되고 있다.


NVIDIA GPU는 Volta 이후 딥러닝 전용의 텐서 연산 유닛으로 텐서 코어(Tensor Core)를 탑재하고 있다.GPU는 본질적으로는 벡터 연산 프로세서지만 텐서 연산 프로세서를 조합한 하이브리드로 구성 함으로써 딥러닝 성능을 향상시켰으며 신형 암페어(Ampere) 아키텍쳐도 그것을 계승하고 있다.


NVIDIA A100의 텐서 코어 수는 432개로, 각 SM마다 4코어가 배치된다. SM마다 8코어였던 Volta와 비교해 텐서 코어 수가 줄어든 것처럼 보이지만 이는 텐서 코어의 합계 방식이 달라졌기 때문이다. Volta에서는 각 SM 프로세싱 블록마다 16×16 텐서 연산 유닛을 2개로 카운트했으나 Ampere는 16x32 유닛으로 카운트 되고 있다.


Ampere는 텐서 코어가 대폭 확장됐다. 우선 새롭게 BFloat16과 Tensor Float32, 2개의 새로운 데이터 포맷이 지원됐다. BFloat 16(Brain Floating Point 16)은 뉴럴 네트워크 용도를 전제로 제안된 새로운 부동소수점수 포맷으로 프로세서 업계 전체에서 채용이 진행되고 있다. 기존의 IEEE 754 부동소수점은 FP32(32-bit 단정밀도 부동소수점)가 부호부(Sign) 1-bit, 지수부(Exponent) 8-bit, 가수부(Mantissa) 23-bit로 구성되어 있다. 그에 반해 FP16(16-bit 부동소수점)에서는 부호부(Sign) 1-bit, 지수부(Exponent) 5-bit, 가수부(Mantissa) 10-bit.bfloat 16(BF16)은 부호부(Sign) 1-bit, 지수부(Exponent) 8-bit, 가수부(Mantissa) 7-bit.


데이터 사이즈는 FP16과 동등하면서도 다이내믹 레인지는 FP32와 동등하며 가수부의 데이터 정밀도를 줄였다. 다이나믹 레인지가 중요한 뉴럴 네트워크(neural network)에 적합한 포맷이다. Tensor Float32(TF32)는 부호부(Sign)1-bit, 지수부(Exponent)8-bit, 가수부(Mantissa)10-bit로 다이내믹 레인지는 FP32와 동등하지만 가수부의 데이터 밀도는 FP16과 동등하며 FP32의 다이내믹 레인지를 들여오면서 FP16의 정밀도를 유지하는 새로운 포맷이다. Ampere의 텐서 코어는 FP16 이외에 BF16, TF32, Int8, Int4, FP64를 폭넓게 지원하며 TF32는 딥 러닝 훈련에 주안점을 둔 확장으로 TF32 도입으로 훈련 성능이 크게 증가한다.


또, 벡터부 FP64는 9.7TFLOPS지만 텐서부 FP64는 19.5TFLOPS로 FP16의 벡터 연산과 동등한 성능을 달성한다. 이것은 과학 기술계 애플리케이션을 의식한 확장으로 보이며 딥 러닝 액셀러레이터에 대한 GPU는 범용성이 포인트로 Ampere는 과학 기술에서 중요한 FP64로 범용적인 컴퓨팅도 강화하고 있다.


99b983892094b5c6d2fc3736e15da7d1.jpg


그 외 Ampere 아키텍처는 GPU 칩 내의 자원을 분할하고 다른 인스턴스를 나란히 하는 멀티 인스턴스에 대응한다. 최대 7인스턴스를 1칩에서 가동시킬 수 있다. NVIDIA GPU는 그 동안 큰 워크로드에서 칩 전체가 대응하는 것에 초점을 맞춰 왔다. 그러나 Ampere는 AMD GPU와 같이 보다 정밀도가 작은 작업을 병렬화하는 방향으로 진행하고 있다.


딥러닝에서 뉴럴 네트워크의 사이즈는 점점 커지고 있어 GPU에는 스케일 업이 요구된다. NVIDIA는 이러한 상황에 대응해 GPU에 칩 간 인터커넥트 기술인 NVLink를 탑재하여 GPU 간의 다이렉트한 접속을 실현해 왔다. NVLink는 Volta 아키텍처의 Tesla V100에서 칩 전체 대역은 피크 300GB/s였으나 Ampere 아키텍처의 A100은 NV Link 전체 대역은 피크 600GB/s에 달하고 있다.


NVIDIA는 A100을 GPU 컴퓨팅 시스템 DGX 시리즈로 제공한다. Ampere 기반의 DGX A100은 8개의 NVIDIA A100 GPU와 2개의 64코어 AMD Rome CPU, 거기에 NVLink 스위치인 NVSwitch가 6개의 구성으로 되어 있다. 시스템 전체의 성능은 FP16에서 5 PFLOPS.


nvidia-nvlink-nvswitch-2c50-d.jpg


- 이하 엔비디아 공식 기술 설명


과학자, 연구자, 엔지니어와 같은 이 시대의 다빈치와 아인슈타인들이 AI와 고성능 컴퓨팅(HPC)을 통해 세계에서 가장 중요한 과학, 산업, 빅 데이터 과제를 해결하려 노력하고 있습니다. 기업들과 전체 산업들은 온프레미스와 클라우드 모두에서 대규모 데이터 세트로부터 새로운 인사이트를 추출하기 위해 AI의 힘을 활용하려고 합니다. 탄력적 컴퓨팅의 시대에 맞게 설계된 NVIDIA Ampere 아키텍처는 이전 세대 대비 혁신적인 성능 도약으로 모든 규모에서 비교할 수 없는 가속화를 제공하여 혁신가들이 중요한 연구 과제를 수행할 수 있도록 지원합니다.


540억 개의 트랜지스터로 제작된 NVIDIA Ampere는 현재까지 제작된 가장 큰 7나노미터(nm) 칩으로, 획기적인 5개의 핵심 혁신을 선보입니다.


3세대 Tensor 코어
NVIDIA Volta™ 아키텍처에서 최초로 도입된 NVIDIA Tensor 코어 기술은 AI에 극적인 가속을 제공하여 트레이닝 시간을 몇 주에서 몇 시간으로 단축하고 추론을 막대하게 가속시킵니다. NVIDIA Ampere 아키텍처는 새로운 정밀도인 Tensor Float(TF32) 및 부동 소수점 정밀도 64(FP64)를 도입하여 이러한 혁신을 토대로 AI 채택을 단순화하고 Tensor 코어의 성능을 HPC로 확장합니다.


TF32는 FP32와 같이 작동하면서 코드 변경 없이 AI를 최대 20배까지 가속합니다. NVIDIA Automatic Mixed Precision를 사용하여 연구원은 코드를 단 한 줄만 추가해도 2배의 추가 성능을 얻을 수 있습니다. 그리고 NVIDIA A100 Tensor 코어 GPU의 Tensor 코어는 bfloat16, INT8 및 INT4 에 대한 지원으로 AI 트레이닝 및 추론 양쪽에 놀랍도록 다재다능한 가속기를 생성합니다. 또한, A100은 Tensor 코어의 성능을 HPC에 도입하여 완전하고 IEEE 인증을 받은 FP64 정밀도로 매트릭스 연산을 가능케 합니다.


MIG(Multi-Instance GPU)
모든 AI 및 HPC 애플리케이션은 가속의 이점을 얻을 수 있지만 모든 애플리케이션에 A100 GPU의 전체 성능이 필요한 것은 아닙니다. MIG를 통해 각 A100은 자체 고대역폭 메모리, 캐시, 컴퓨팅 코어로 하드웨어 수준에서 완전히 격리되고 보호되는 무려 7개의 GPU 인스턴스로 분할될 수 있습니다. 이제 개발자는 크고 작은 모든 응용 프로그램의 획기적인 가속화에 액세스할 수 있으며 보장된 서비스 품질을 경험할 수 있습니다. 그리고 IT 관리자는 최적화된 활용을 위한 적절한 규모의 GPU 가속화를 제공할 수 있으며 베어 메탈 및 가상화된 환경 전반에서 모든 사용자와 애플리케이션으로 액세스를 확장할 수 있습니다.


3세대 NVLink
여러 GPU에서 애플리케이션을 확장하려면 데이터 이동 속도가 매우 빨라야 합니다. A100의 3세대 NVLink는 GPU 간의 직접적인 대역폭을 2배인 600GB/s로 증가시키며 이는 PCIe Gen4의 10배에 달합니다. 최신 세대의 NVSwitch와결합되는 경우 서버의 모든 GPU는 서로 간에 최대 NVLink 속도로 통신하며 데이터를 놀랍도록 빠르게 전송할 수 있습니다.

NVIDIA DGX™ A100 다른 선두 컴퓨터 제조업체의 서버는 NVLink 및 NVSwitch 기술을 통해 NVIDIA HGX™ A100 baseboards는 HPC 및 AI 워크 로드에 더 높은 확장성을 제공 합니다.


구조적 희소성
최신 AI 네트워크는 수백만 개, 일부 경우에는 수십억 개의 매개변수와 함께 점점 더 커지고 있습니다. 이 매개변수가 정확한 예측과 추론에 모두 필요한 것은 아니므로, 일부는 정확성을 감소시키지 않고 모델을 "희소"하게 만들기 위해 0으로 변환할 수 있습니다. A100의 Tensor 코어는 희소한 모델에 대해 최대 2배 높은 성능을 제공할 수 있습니다. 희소성 기능은 AI 추론에 더 수월하게 이점을 제공하지만, 모델 트레이닝의 성능을 개선하는 데 사용할 수도 있습니다.


A100은 데이터센터에 방대한 양의 컴퓨팅을 제공합니다. 이러한 컴퓨팅 엔진의 활용도를 완전하게 유지하기 위해 업계 최고 수준인 1.5TB/s의 메모리 대역폭을 보유하여 이전 세대에 비해 67% 증가했습니다. 또한, A100은 40MB 레벨 2 캐시를 포함하여 이전 세대에 비해 7배 더 많은 온 칩 메모리를 보유함으로써 컴퓨팅 성능을 극대화합니다.


NVIDIA Ampere 아키텍처와 NVIDIA Mellanox의 ConnectX-6 Dx SmartNIC의 조합인 NVIDIA EGX™ A100는 전례없는 컴퓨팅 성능과 네트워크 가속 기능으로 엣지에서 생성되는 대규모 데이터를 처리합니다. Mellanox SmartNIC는 최대 200GB/s의 회선 속도로 해독하는 보안 오프로드를 포함하며 GPUDirect™는 AI 처리를 위해 비디오 프레임을 GPU 메모리로 직접 전송합니다. EGX A100 덕분에 비즈니스는 엣지에서 AI 배포를 더 안전하고 효율적으로 가속할 수 있습니다.






  1. 세계 모바일 시장의 본격적인 축소 시작, '좋은날은 끝났다'

    세계 스마트폰 출하량, 9분기 연속 감소… “올해 출하량 10년 만에 최저 예상” 세계 스마트폰 출하량은 2019년 코로나19 이전 22억대까지 늘었지만 이후 연평균 5~10%씩 줄고 있다. 지난 3분기 스마트폰 출하량은 역대 3분기 기준...
    Date2023.10.18 Reply1 Views1545
    Read More
  2. 병원은 '쉬쉬'...동네 의원도 대학 병원도 당했다

    최근 국내 병원을 상대로 한 사이버 공격이 끊이질 않고 있습니다. 악성코드를 이용해서 병원의 서버를 잠근 뒤에 거액의 돈을 요구하는 방식입니다. 환자들의 개인 정보가 많고, 또 중요한 수술이 이뤄지는 병원은 이런 사이버 공격으로부터 안전해...
    Date2023.09.14 Reply3 Views1557
    Read More
  3. AMD 젠2에 이어 젠3, 젠4 CPU에서 또 취약점 발견

    In this demo demonstrates leaking the root password has on an up-to-date Linux machine running Ubuntu 22.04 on kernel 5.19. The CPU is the latest generation, AMD Zen 4 microarchitecture. All AMD CPUs released in the last few years are vulner...
    Date2023.08.10 Reply4 Views1715
    Read More
  4. AMD 젠2 기반 라이젠·에픽 CPU서 보안 결함 '젠블리드' 발견

    AMD 젠2 기반 라이젠·에픽 CPU서 보안 결함 '젠블리드' 발견 프로세서 내부 YMM 레지스터 초기화 미흡..."각종 암호화 키·비밀번호 등 유출 가능성" AMD가 2019년부터 지난 해까지 시장에 공급한 라이젠·에픽(EPYC)&mid...
    Date2023.07.26 Reply5 Views1239
    Read More
  5. 2018년 심겨진 악성코드 그대로…믿기지 않는 LGU+ 시스템 관리

    2018년 심겨진 악성코드 그대로…믿기지 않는 LGU+ 시스템 관리   더 눈길을 끄는 대목은, 3위 이동통신사 엘지유플러스의 가입자 개인정보 보호 수준이 동네 구멍가게보다 못하다는 게 드러난 점이다. 2018년 해킹(서버 불법 침입) 공격을 당하고도 아무도...
    Date2023.07.12 Reply3 Views1584
    Read More
  6. 상급종합병원 41곳 로그인 정보 다크웹서 유통…"관리자 계정도 포함"

    국내 상급종합병원의 90%에 해당하는 곳에서 로그인 정보가 유출돼 다크웹에서 불법 유통되고 있는 것으로 나타났다. 원본보기 사이버보안 기업 S2W가 국내 상급종합병원 45곳을 대상으로 2021년 9월부터 현재까지 다크웹 내 정보 유출 실태를 분...
    Date2023.05.15 Reply6 Views1473
    Read More
  7. "챗GPT", 인류혁신을 이끌며 전세계 인공지능(AI) 시장 지배하나

    논문 써주고, 연애 상담까지…‘일상에 파고든 AI’ 지각변동 [챗GPT 열풍] 챗GPT는 머신러닝기법을 바탕으로 이용자의 질문에 실시간으로 대답하는 대화형 AI다. 실제 인간과 상당히 비슷한 대화를 구현하며 코딩이나 작...
    Date2023.01.27 Reply3 Views1745
    Read More
  8. [단독] LGU+ 개인정보유출, 18만명?…해커, "3000만건 데이터 보유"

    다만 유출 규모에는 의문점이 남는다. LG유플러스는 18만명의 개인정보가 유출됐다고 밝혔으나 이를 훔쳐낸 해커는 ‘3000만건의 LG 데이터를 갖고 있다’고 말한다.   해커는 구체적으로 3000만건의 데이터를 갖고 있다고 말했다. 훔쳐낸 데이터의 양은 19....
    Date2023.01.11 Reply3 Views1573
    Read More
  9. "하늘의 지배자" 국산 초음속 수퍼전투기 KF-21, 마침내 비행 성공

    한국이 자체 기술로 개발한 "KF-21 보라매"가 마침내 최초 비행에 성공하며 세계 8번째 초음속 전투기 개발국가로 올라섰다. "한국형 랩터" KF-21 전투기는 지난 2001년 김대중 대통령이 "우리 손으로 첨단 전투기를 만들자"라고 선언한지 21년 만에 첫 시험 ...
    Date2022.07.21 Reply4 Views2217
    Read More
  10. 한국이 개발한 '로스트 아크', 전세계 1위 게임 등극

    스마일게이트의 PC 게임 ‘로스트아크’(사진)가 글로벌 흥행 대박을 터트렸다. 세계 최대 PC 게임 유통 서비스인 스팀에 내놓은 해외 버전이 출시 직후 이용자 수 1위를 차지했다. 한국 게임이 해당 순위 1위에 오른 것은 2017년 8월 크래프톤의 ‘배틀그라운...
    Date2022.02.13 Reply4 Views3498
    Read More
  11. "모든 게 멈췄다" KT 먹통사태에 피해 속출..섣부른 디도스 언급

    [아시아경제 조슬기나 기자, 차민영 기자, 구은모 기자] "하필 점심시간 직전, 가장 바쁜 시간에 이 난리가 났다. 배달 애플리케이션도 안되고 카드 결제도 안되고 어쩌라는 건지 안내조차 없었다." "줌 강의를 듣던 와중 교수님과 동기들이 갑자기 사라졌다."...
    Date2021.10.25 Reply1 Views2734
    Read More
  12. 밸브(Valve), 최고의 핸드헬드 게임기 "스팀덱(Steam Deck)" 발표

    밸브(Valve)는 동사의 스팀 운영체제(Steam OS)가 작동하며 다양한 PC용 게임을 플레이할 수 있는 7형 핸드헬드 게임기 스팀덱(Steam Deck)을 발표했다. 2021년 12월 발매되고, 가격은 64GB eMMC 모델이 399달러, 256GB NVMe SSD 모델이 529달러, 512GB NV...
    Date2021.07.18 Reply0 Views2620
    Read More
  13. 마이크로소프트 Windows 11 발표, 더욱 강화되는 윈도우 왕국

    미국 마이크로소프트(Microsoft)는 24일 오전 11시(미국 동부시간, 한국시간 6월 25일 자정), "What's next for Windows" 온라인 발표회를 열고 Windows 11을 공식 발표했다. Windows 11은 사용자 인터페이스를 쇄신함과 동시에 새로운 기능 추가...
    Date2021.06.26 Reply1 Views1332
    Read More
  14. 한국 미국 공동성명 전문 - "한국과 미국은 하나"

    대한민국과 미합중국 간의 동맹은 70여 년 전 전장에서 어깨를 맞대고 함께 싸우면서 다져졌다. 공동의 희생으로 뭉쳐진 우리의 파트너십은 이후 수십 년 동안 평화 유지에 기여함으로써 양국 및 양국 국민들의 번영을 가능하게 하였다. 안정과 번영의 핵...
    Date2021.05.23 Reply1 Views1412
    Read More
  15. KT 설치기사가 말하는 인터넷 속도 느린 '진짜 이유'

    [미디어오늘 금준경 기자] - 유튜버 잇섭은 극단적인 사례이긴 하지만, 반향이 큰 이유는 많은 이용자들이 자신이 가입한 속도보다 크게 낮은 속도를 체감했기 때문인 것 같다. 설치할 때 속도 측정을 한다고 했는데, 왜 속도가 느린 걸까. “규정상으로 현장에...
    Date2021.04.22 Reply5 Views1567
    Read More
  16. 코로나19 원격 근무시대, 세계 PC 판매량 55.2% 폭발적 증가

    글로벌 시장 조사 기관 IDC가 2021년 1분기 세계 PC 시장 보고서를 발표했다. 자료에 따르면, 2021년 1분기 세계 PC 시장은 전년 대비 55.2% 증가한 8300만대 규모로 폭발적인 성장을 나타냈다. 코로나19 시대에 따른 대다수 기업과 기관들이 재택/원격 근...
    Date2021.04.12 Reply1 Views991
    Read More
  17. 한국이 만들어낸 수퍼 전투기 'KF-21 보라매' 마침내 공개, 하늘을 지배할 것

    한국이 자체 개발한 KFX(KF-21 보라매) 초음속 수퍼 전투기가 마침내 세상에 공개됐다. 한국은 2001년 고등훈련기 T-50 시제 1호기 출고 이후 20년 만에 미국, 러시아, 중국, 일본, 프랑스, 스웨덴, 영국·독일·이태리·스페인(공동개발)에 이어 여...
    Date2021.04.09 Reply4 Views1456
    Read More
  18. 인공지능 무인 전투무기 시대로 - 디지털 트랜스포메이션

    글로벌 무기 개혁의 시작 with 디지털 트랜스포메이션 - 향후의 전쟁은 이제 인간이 아닌 무인 전투무기들이 교전하는 시대로 진입 - 무인 전투무기들은 모두 인공지능(AI)과 IT 기술 베이스로 개발 - 인간은 안전한 외부에서 디스플레이(카메라)를 ...
    Date2021.03.07 Reply2 Views1501
    Read More
  19. 비트코인 6천만, 이더리움 200만원 돌파 - "화폐개혁의 시작"

    글로벌 화폐(금융) 개혁의 시작 with 디지털 트랜스포메이션 선진국을 중심으로 각국 정부, 기관, 금융권, 글로벌 IT 기업 등에서 가상화폐(암호화폐)를 이미 지원(서비스)하거나 지원 예정임을 밝히며 공식적인 제도권으로 빠르게 편입되...
    Date2021.02.20 Reply2 Views2046
    Read More
  20. 벌써 2나노 제조시설 건설에 들어간 TSMC

    세계 최고의 반도체 파운드리 TSMC가 2nm 제조 시설 건설을 시작했다고 한다. 트위터에서 @chiakokhua가 번역한 DigiTimes 보고서에 따르면 TSMC는 2nm R&D 센터 건설 외에도 해당 노드에 대한 제조 시설 건설을 시작 했다는 것이다. 새로운 시설은 ...
    Date2020.09.30 Reply1 Views1042
    Read More
  21. 애플, 1조 달러 돌파 2년 만에 2조 달러 도달 "세계 황제"

    현존하는 전세계 모든 기업 포함 1위 기업인 애플이 1조 달러를 기록한 지 불과 2년 만에 2조 달러에 도달했다. 애플은 공식적으로 세계에서 가장 가치있는 황제 회사로써 세계가 COVID-19 전염병에 휘말리면서도 2조 달러 가치 평가액에 도달하면서 특...
    Date2020.08.21 Reply0 Views846
    Read More
  22. Sony Playstation 5 주문 두배 늘려, 시장 수요 폭증

    Bloomberg 보고서에 따르면, Sony는 Playstation 5 주문을 두 배로 늘렸으며 이번 회계 연도에 1000만대를 선적 할 것으로 보이고 있다. 본래 소니는 올해 11월과 2021년 3월 31일 사이 5-6백만대를 선적하려고 했으나, 소니는 차세대 콘솔에 대한 수요가 매우...
    Date2020.07.19 Reply0 Views911
    Read More
  23. 중국 반도체 파운드리 기업 SMIC, China STAR 시장에 데뷔

    중국 실리콘 제조업체 SMIC(Semiconductor Manufacturing International)는 중국 과학 기술 혁신 보드(STAR, 상하이 증시)에 공식적으로 데뷔했다. 16일전 제안서를 제출한 후 SMIC는 이미 중국 상하이 증권 거래소(SSE)의 STAR에서 주식 거래를 시작했다....
    Date2020.07.18 Reply0 Views715
    Read More
  24. NVIDIA, 차세대 인공지능 몬스터 GPU '암페어(Ampere)' 아키텍처 A100 발표

    미국 엔비디아(NVIDIA)는 차세대 Ampere(암페어) 아키텍처 기반 하이엔드 GPU로 NVIDIA A100을 발표했다. 암페어 A100은 TSMC 7나노 프로세스의 하이엔드 GPU로, 다이 사이즈는 826mm2로 Volta와 거의 동등한 사이즈에 트랜지스터는 540억으로 Vol...
    Date2020.05.15 Reply0 Views1624
    Read More
Board Pagination Prev 1 2 3 4 5 6 7 8 9 10 ... 17 Next
/ 17


Sketchbook5, 스케치북5

Sketchbook5, 스케치북5