이번에는 CRAY Y-MP 이후의 CRAY 벡터 프로세서 시리즈를 묶어 설명한다. CRAY X-MP 개발에 이어CRI는 CRAY Y-MP의 개발을 시작한다.
CRAY Y-MP |
이는 CRAY X-MP EA 기준(즉 32bit주소)로 하면서 최대 8프로세서를 지원하는 동시에 보다 고속으로 동작하는 시스템이었다.
데이비스가 지휘를 맡은 차세대기 "CRAY Y-MP"
당초 CRAY Y-MP의 개발을 이끈 것은 CRAY X-MP에서 이름이 알려진 스티브 첸(Steve Chen)이었는데 그는 여러가지 새로운 메커니즘이나 미지수적인 신기술을 적극 도입한 결과 Y-MP의 개발은 한때 좌절하게 된 것 같다.
도중에 개발의 지휘는 다시 레스 데이비스(Les Davis)가 맡게 되어 1998년 무사히 CRAY Y-MP가 발표된다. 당초 발표된 것은 4프로세서 및 8프로세서 모델로 사이클 시간은 6나노초(166MHz)까지 단축되었다.
이 결과 피크 성능은 2.67GFLOPS까지 상승했다. 메모리는 ECL 기반인 것을 최대 64MWord(512MB) 탑재가 가능하고 실효 성능에서도 2.1GFLOPS 정도를 기록했다.
최초의 세대는 나중에 CRAY Y-MP Model D 라고 불리게 되었는데 이것은 1990년에 CRAY Y-MP Model E가 투입되기 때문이다.
Model E는 메인이 되는 CPU 자체는 Mo6del D에서 변하지 않았지만 최대 메모리 탑재량은 256MWord(2GB)로 증강됐고, IOS(I/O Subsystem)가 고속화되어 2배의 산출량을 이룬 모델이다.
Model E는 Model D와 구별하기 위해 CRAY Y-MP 2E/4E/8E 라는 형식 번호가 붙어 있으며 8P 모델만 원래 2개 있는 I/O 캐비닛을 1개로 정리한 CRAY Y-MP 8I 이라는 모델이 준비되어 있다.
Y-MP에 저속이지만 대용량 DRAM을 탑재한 것이 1992년에 추가된 CRAY Y-MP M90 시리즈다. 이것은 메모리 탑재량이 최대 4GWords(32GB)까지 증강되고 있다.
일본에 맞서 개발을 진행한 "CRAY-MP"
그리고 Y-MP Model D는 결과적으로 데이비스가 지휘를 맡게되어 Y-MP 개발에서 제외된 챔버는 새로 CRAY-MP(Multi Processor)라는 제품 개발을 맡는다. 고성능 컴퓨팅 분야에서 일본 컴퓨터 업체의 추격이 거세 이와 싸우기 위해 고성능 머신이 필요했기 때문이다.
이 시기에 CRAY Labs는 아직 CCC(Cray Computer Corporation)로 독립하지 않아 CRAY-2를 기대할 가능성도 있었을 것이다. 그럼에도 불구하고 CRAY-MP 개발이 시작된 것은 아마도 CRAY-2의 완성 시기가 명확하지 않아 얼마나 기대할 수 있을지를 당시의 CEO John Rollwagen이 의심했기 때문일 것이다.
그런데 CRAY-MP의 개발은 CRAY Y-MP 개발에 고리를 걸어 난항을 한 것 같다. 첸 팀은 맹렬한 기세로 예산을 탕진하면서 신기술을 계속 도입해 확립되지 않은 기술을 포함하는 것이므로 개발은 난항, 추가 예산이 필요한 것으로 나타나면서 결국 1987년말 John Rollwagen은 CRAY-MP 개발을 중지시킨다.
여기서 John Rollwagen의 심중을 짐작하는 것은 그리 어렵지 않다. 하나의 회사에 세이모어 크레이(Seymour Cray)는 2명이 필요 없다. 원래 X-MP 이후는 모든 것이 크레이의 백업 계획에서 비롯되는 것으로 첸에게 요구되고 있던 것은 기존의 기술을 바탕으로 확실하게 성능을 내는 것으로, 과단성 있게 신기술에 도전하기 위해 개발비를 물 쓰듯 투입된 것은 아니다.
첸의 발언 등의 기록이 의외로 남아 있지 않지만 약간의 자료를 보는 한에서는 크레이에게 지지 않을 정도의 기술력을 갖고 있다는 자부심이 있는 것 같다.
1987년 12월 Los Angeles Times의 인터뷰를 보면 자타가 첸에게는 자신감과 전망(야망과 바꾸어도 좋을듯)을 갖고 있으며 그것이 약간 공상가에 가까운 방향으로 쏠렸던 것처럼 보인다.
몽상가에 가까운 것은 크레이도 비슷하지만 그는 CDC-6600에서 CRAY-1까지의 실적이 있는 것으로 X-MP의 주임 기술자에 불과한 첸과 어느 쪽이 우선인가 하면 생각 할 필요도 없다.
CRAY-MP의 중단에 반발한 첸은 자신의 팀을 거느리고 독립, SSI(Supercomputer Systems Inc.)라는 회사를 설립한다. 이곳은 IBM으로부터 자금 원조를 얻어 SS-1이라는 머신의 개발에 종사한다. 우여곡절이 있었지만 1993년 SS-1이 "곧 완성"이라는 상황에 이른다.
그런데 불행히도 1993년은 IBM이 한해에 80억달러, 1991년부터 누적으로는 150억달러라는 기록적인 적자에 빠진 해이기도 하다. 이에 따라 IBM은 그때까지 CEO였던 John F. Akers을 경질, 당시 RJR 나비스코의 회장 겸 CEO 였던 Louis V. Gerstner, Jr.을 CEO로 교체한다.
이 정도의 적자에 CEO까지 바뀐다면 지출을 크게 삭감하는 것은 필수적이며 SSI에 대한 자금 제공도 멋지게 중지한다. 그 결과 SSI는 그 해 도산하고 SS-1도 미완성인 채로 버려졌다.
여담이지만 첸은 같은 해 이번에는 SCI(SuperComputer International)라는 회사를 설립, 후에 Chen Systems로 개명하면서 Sequent Computer Systems라는 고성능 컴퓨팅 업계에서는 여러가지 화제를 제공한 회사에 인수됐다.
이야기를 되돌리면 CRAY Y-MP Model D의 후계 제품이 CRAY Y-MP C90, 후에 CRAY C90 이라고 불리게 된 시리즈다.
CPU의 내부 구조에 손이간 "CRAY C90"
이야기를 되돌리면 CRAY Y-MP Model D의 후계 제품이 CRAY Y-MP C90, 후에 CRAY C90 이라고 불리게 된 시리즈다.
CRAY C916의 카탈로그(MCPB-104-1191) 표지에서 발췌. 정확한 높이는 모르지만 다른 사진에서 옆에 선 남자보다 머리 2개 분량 이상 높아 2m 이상으로 생각된다 |
아래 사진은 C90 시리즈 프로세서 구조다. 잘 보면 메모리의 오른쪽 절반은 CPU 0의 내부 구조인데 메모리의 왼쪽에도 CPU 0이 나란히 있는 것이 재밌지만 이는 오식으로 실제로 왼쪽은 CPU 1~15로 이해.
C90 시리즈 프로세서 구조. CRAY C90 Series Functional Description Manual(HR-04028-0A)에서 발췌 |
C90은 최대 16프로세서를 지원하며 사이클 시간은 더 단축되고 4.1ns(244MHz)에 이른 것이지만 그것보다 큰 차이는 CPU 내부 구조에 손이 간 것이다.
X-MP의 내부 구조와 비교해보면 알겠지만 벡터 길이가 기존의 2배인 128bit가 됐다. 즉 1사이클당 2개의 부동 소수점 연산이 가능하게 되어 있다. 물론 CRAY-1에서 채용된 Chaining을 계속 이용하면 실질적으로 1사이클당 4개의 부동 소수점 연산이 가능하게 되는 셈이다.
이에 따른 피크 성능은 프로세서 1개 당 975.6MFLOPS 정도. 16프로세서 구성에서는 피크에서 15.6GFLOPS에 달했다. 이는 CRAY-3의 15.17GFLOPS와 거의 동등하며 그리고 실제로 CRAY-3 대신 각종 계약을 맺는데 성공했다.
그리고 C90은 벡터의 폭을 늘리고 있어 그 성능을 최대한 살리기 위해서는 재 컴파일과 프로그래밍이 필요하지만 128bit의 벡터 레지스터 절반을 쓰지 않아도 괜찮다면 Y-MP의 바이너리가 그대로 동작했으므로 비교적 이행도 순조롭다고 한다.
이 C90 시리즈는 라인 업으로 모두 22개 모델 정도를 제공하고 있었다.
CRAY C90 시리즈의 라인업 | ||
---|---|---|
모델 명칭 | 프로세서 수 | 메모리 양 |
C92A | 1~2 | 64~128MWords(512MB~1GB) |
C94A | 2 | 128MWords(1GB) |
C94 | 2~4 | 128~256MWords(1~2GB) |
C98 | 4~8 | 256~512MWords(2~4GB) |
C916 | 8~16 | 128~1024MWords(1~8GB) |
이 중 C92A/C94A는 다른 것에 비해 한층 케이스 크기가 작은 엔트리용과 같은 느낌이다. 모든 모델이 냉각 방법은 공랭이지만 역시 작동 주파수가 200MHz를 넘으면 ECL 기반이므로 열은 대단하다.
이를 강제 공냉하는 것은 전용 열 교환기(HEU:Heat Exchanger Unit)로 제공되는 것이지만 하이엔드 C916 시리즈가 되면 열 교환기가 더블 탑재하는 굉장한 것이 되고 있다.
C916 시리즈와 열 교환기(HEU). 참고로 HEU-C90만 RCU(Refrigeration Control Unit)라는 것이 있으며 이는 머신 룸 밖의 냉각수 등과 접속된다. HEU는 CPU에 공급하는 공기를 냉각하는 일차 냉각이지만 RCU는 HEU을 냉각하는 2차 냉각수로 이용된다 |
이 C90 시리즈도 뒤쫒는 형태로 ECL SRAM 대신 DRAM을 탑재하는 모델이 추가되어 이쪽은 D92/D92A/D94/D98 이라는 제품 번호로 판매됐다. 역시 하이엔드 C916에는 이 모델이 없었던 것 같지만 최대 2MWords(16GB) 모델도 준비됐다.
이 제품의 후계가 CRAY T90 시리즈다. 이것은 1995년에 출하된 제품으로 사이클 시간은 2.2나노초(450MHz)까지 단축, 프로세서 수는 32까지 늘렸다. 프로세서의 내부 구성은 CRAY C90과 마찬가지로 완전히 바이너리 호환으로 되어있다.
CRAY T90(출처:craysupercomputers.com) |
모델은 8/16/32의 3가지가 있는 것은 확실하고 4프로세서 모델도 있었다고 하지만 입수한 카탈로그에는 그 기재가 없다. 32프로세서 모델에서의 피크 성능은 58.2GFLOPS로 점차 60GFLOPS에 도달해 CRAY-3와 C90의 4배에 가깝다.
사실 네이티브(라는 표현이 적절할지는 모르지만)인 듀얼 벡터 머신은 T90이 최후가 되고 있다.
이들과는 다른 제품 라인도 존재했다. 지난번 마지막으로 저렴한 가격에 CRAY X-MP EA/se라는 모델이 있었음을 소개했다. 이 후계 제품으로 CRI는 CRAY Y-MP EL 이라는 시리즈를 1992년에 발표했다.
이것은 아키텍처는 Y-EL과 호환 되면서 내부 구조는 CMOS 베이스였다. 더 말하면 이 EL은 CRI가 개발한 것이 아니라 Supertek Comuters라는 회사가 개발한 것이다. 이 회사는 1985년에 설립된 CRAY복제 제조 벤더로 최초의 Supertek S-1은 CRAY X-MP 호환 모델이었다.
이어 S-2라는 CRAY Y-MP 호환 제품을 만들지만 Supertek Computers 자체를 CRI가 인수, 자사의 라인 업에 추가한다. Supertek S-1은 CRAY XMS로 1990년부터 판매되며 Supertek S-2가 CRAY Y-MP EL이 된 셈이다.
호환이라고는 해도 내부 버스는 VME로 CPU 수는 1(EL92)/2(EL94)/4(EL98)뿐이었다. 사이클 시간도 30나노초(33.3MHz)이므로 성능적으로 전혀 비교가 안됐지만 그 만큼 가격도 운용 비용도 엄청나게 저렴했는데 프로그램의 개발용에는 이것으로 충분했던 모양이다.
UCAR(University Corporation for Atmospheric Research)의 SCD(Scientific Computing Division)은 1994~1997년까지 이 CRAY Y-MP EL92×1과 EL98×2를 운용했는데 프로그램의 개발과 대량의 메모리를 처리하는 실행에는 최적이었다고 밝히고 있다.
1995년에는 Cray J90이 발표된다. 이것은 CRI가 개발한 제품이다. 이 J90은 0.5μm 프로세스의 CMOS에서 제조되어 작동 주파수는 100MHz에 이른다. 이 J90에 관한 논문 요약을 보면 전용 ASIC를 10가지 종류로 내고 있어 최대 규모의 것은 50만 게이트 상당이라고 하니 상당히 소형화가 진전된 것으로 생각된다.
1995년에는 Cray J90이 발표된다. 이것은 CRI가 개발한 제품이다. 이 J90은 0.5μm 프로세스의 CMOS에서 제조되어 작동 주파수는 100MHz에 이른다. 이 J90에 관한 논문 요약을 보면 전용 ASIC를 10가지 종류로 내고 있어 최대 규모의 것은 50만 게이트 상당이라고 하니 상당히 소형화가 진전된 것으로 생각된다.
CRAY J90 (출처:craysupercomputers.com) |
그 만큼 프로세서 수도 늘어나 J98에서는 최대 8개, J916에서 최대 16, J932에서는 최대 32프로세서가 탑재된다. 프로세서 자체는 ASIC2로 구성되어 다수 탑재하는 것이 그렇게 어렵지 않았던 것이다.
또 1997년에는 스칼라 연산부만 200MHz(벡터 연산부는 계속 100MHz로)로 동작 주파수를 올린 J90SE을 발표한다.
일련의 시리즈 마지막을 장식하는 것은 1998년에 투입된 CRAY SV1이다. 이에 앞서 1996년 CRI는 Silicon Graphics에 인수되면서 이 회사의 슈퍼 컴퓨터 부문이 되어 지금까지와 다른 시스템 개발에 종사하게 된다.
CRAY SV1(출처:craysupercomputers.com) |
왜 CRI가 인수됐는지는 Los Angeles Times의 기사에 있으나 원래 슈퍼 컴퓨터가 발달한 것은 군이 매우 높은 계산 능력을 필요로 했기 때문이다. 오로지 핵무기 등의 개발과 시뮬레이션이다.
그러나 냉전 종료에 따라 1990년 무렵부터 핵무기 개발 속도가 떨어져 지금처럼 "어쨌든 빠른 머신을 가지고 와"라는 필요가 없어졌기 때문.
군사 개발의 변화의 바람을 비롯한 새로운 용도가 점차 활발해지고는 있었지만 군에 비하면 예산은 훨씬 엄격했기 때문에 판매는 부진했다.
그런 배경에서 CRI는 1995년에는 2억 2600만달러의 손실을 낸다. 실제로는 1990년대 들어 이 회사의 상황은 좋지 않아 자주 조정을 하고 있으니 이는 올것이 왔다고 해석됐다.
다만 이 시점에서 이 회사는 4억 3700만달러 상당의 예약을 안고 J90 등의 로우엔드 제품은 호조였기 때문에 적당한 자금과 비즈니스 모델의 적정화를 하면 부활이 가능해 보여 SGI는 7억 5200만달러로 회사를 인수했다.
SV1은 SGI에 인수된 뒤의 제품이다. 기본적으로는 J90의 고속판(당초는 300MHz, 후에 500MHz 버전도 릴리즈)에서 J90 및 Y-MP와 바이너리 호환을 가지고 있었던 반면 멀티 스트리밍(최대 4개의 CPU 코어를 가상적인 1개의 코어로 동작시킴으로써 최대 4배의 성능을 낸다)라고 하는 기능도 탑재됐다.
시스템 자체는 최대 32CPU지만 최대 32시스템을 뭉치는 방식으로 동시에 가동시킬 수 있어 이 경우 1024코어까지 스케일 업이 가능했다.
또 SV2라는 제품도 당시의 로드맵에 게재되고 있었다. 다만 이를 맞기 전에 SGI는 CRAY를 다시 매각해 버려 SV2는 빛을 보지 못하고 사라졌다.
SGI의 로드맵. 이는 SC98에서 SGI가 행한 SV1의 제품 업데이트 프레젠테이션 자료에서 발췌. 당시 SGI의 Origin계의 워크 스테이션과 CRAY계의 제품을 2002년경까지 통합할 예정이었다. |
그런데 CRI는 이들 이외의 제품(Cray SC6400은 다른 형태로 빛을 봤다)도 있었고, SGI 시대에는 CRAY T3D/T3E라는 제품도 내놓고 있었지만 이들은 모두 호환성이 없고 아키텍처도 다르다.
또 SGI부터 다시 매각된 현재의 CRAY Inc의 제품 라인업도 복잡해져 이것은 다른 기회에 설명하고 다음부터는 Cray로 대표되는 벡터형과는 다른 방향성의 머신을 해설한다.
출처 - http://ascii.jp