데이터 센터에서 더 많은 컴퓨팅 성능에 대한 수요가 엄청난 속도로 증가하고 있으며, AMD는 무려 120만 개 이상의 GPU를 포함하는 단일 AI 클러스터를 구축하기 위한 진지한 문의를 받았다고 밝혔습니다 . AMD의 인정은 데이터 센터에서 AMD의 미래에 대해 AMD의 EVP이자 데이터 센터 솔루션 그룹의 GM인 Forrest Norrod와 함께 The Next Platform을
오랫동안 논의한 데서 비롯되었습니다 . 가장 눈에 띄는 반응 중 하나는 누군가가 진지하게 고려하고 있는 가장 큰 AI 훈련 클러스터에 관한 것이었습니다. 회사가 120만 GPU 규모의 클러스터에 대한 문의를 접수했는지 묻는 질문에 Forrest는 평가가 사실상 정확하다고 답했습니다.
Morgan: 누군가가 심각하게 생각하는 가장 큰 AI 훈련 클러스터는 무엇입니까? 이름을 언급할 필요가 없습니다. 누군가 당신에게 와서 MI500에 대해 120만 GPU 정도가 필요하다고 말한 적이 있습니까?
포레스트 노로드: 그 범위 안에 있다고요? 예.
Morgan: “그 범위 안에 있다”고만 말할 수는 없습니다. 실제 가장 큰 숫자는 무엇입니까?
Forrest Norrod: 정말 심각합니다. 그 범위에 속합니다.
모건: 한 대의 기계로요.
Forrest Norrod: 예, 저는 하나의 기계에 대해 이야기하고 있습니다.
모건: 조금 마음이 흔들립니다. 아시죠?
120만 개의 GPU는 터무니없는 숫자입니다(포레스트가 인터뷰 후반부에 농담을 하듯 놀랍습니다). AI 훈련 클러스터는 여러 서버 랙 이하에 걸쳐 고속 상호 연결을 통해 연결된 수천 개의 GPU로 구축되는 경우가 많습니다. 반면 120만 개의 GPU로 AI 클러스터를 만드는 것은 사실상 불가능해 보입니다.
백만 개가 넘는 GPU를 갖춘 AI 클러스터를 구축하기 위해 누군가가 극복해야 할 함정은 상상할 수 있지만 대기 시간, 전력 및 하드웨어 오류의 불가피성은 즉시 떠오르는 몇 가지 요소입니다.
AI 워크로드는 지연 시간, 특히 특정 데이터 전송이 다른 데이터 전송보다 훨씬 오래 걸리고 워크로드를 방해하는 꼬리 지연 시간 및 이상값에 매우 민감합니다. 또한 오늘날의 슈퍼컴퓨터는 규모에 따라 몇 시간마다 발생하는 GPU 또는 기타 하드웨어 오류를 완화해야 합니다. 이러한 문제는 현재 알려진 가장 큰 클러스터 크기의 30배로 확장할 때 훨씬 더 두드러집니다. 그리고 그것은 그러한 대담한 목표에 필요한 원자력 발전소 규모의 전력 공급을 다루기도 전입니다.
세계에서 가장 강력한 슈퍼컴퓨터라도 수백만 개의 GPU로 확장할 수는 없습니다. 예를 들어, 현재 가장 빠르게 작동하는 슈퍼컴퓨터인 Frontier에는 "유일하게" 37,888개의 GPU가 있습니다.
백만 개의 GPU 클러스터 목표는 2020년대를 형성하고 있는 AI 경쟁의 심각성을 말해줍니다. 가능성의 영역이라면 AI 처리 능력이 더 높아진다면 누군가는 시도할 것이다. 포레스트는 어떤 조직이 이 규모의 시스템 구축을 고려하고 있는지 밝히지 않았지만 "매우 냉정한 사람들"이 AI 훈련 클러스터에 수백억에서 수천억 달러를 지출하는 것을 고려하고 있다고 언급했습니다. 모두).
|