첫 번째는 더 빠르게 훈련할 수 있는 보다 지능적인 모드가 필요한 훈련입니다. 두 번째는 사용자가 방금 입력한 쿼리에 대해 즉각적인 응답을 기대하는 ChatGPT와 같은 대화형 사용자 경험을 포함하는 추론입니다. NVIDIA는 최근 수익 결산에서 LLM 서비스 제공업체가 4년 동안 투자한 1달러당 7달러의 수익을 창출할 수 있는 기회가 있으며 이는 기업에 상당히 큰 규모라고 언급했습니다.
뛰어난 AI 성능은 상당한 비즈니스 기회로 이어집니다. 예를 들어, 최근 수익 결산에서 우리는 LLM 서비스 제공업체가 NVIDIA HGX H200 서버에서 Llama 3 70B 모델을 실행하여 단 4년 만에 1달러 투자를 7달러로 전환할 수 있는 방법을 설명했습니다. 이 수익은 $0.60/M 토큰으로 Llama 3 70B를 제공하는 LLM 서비스 제공업체가 초당 24,000개 토큰의 HGX H200 서버 처리량을 가지고 있다고 가정합니다.
NVIDIA H200 GPU는 생성적 AI 및 HPC를 강화합니다.
NVIDIA H200 Tensor GPU는 강력한 Hopper 아키텍처를 기반으로 구축되었으며, 141GB의 HBM3 메모리와 H100 GPU에 비해 40% 이상 더 많은 메모리 대역폭을 제공합니다. AI 훈련에서 가능한 것의 한계를 넓힌 NVIDIA H200 Tensor Core GPU는 MLPerf 훈련 데뷔에서 H100의 성능을 14% 확장했습니다.
NVIDIA 소프트웨어로 비교할 수 없는 성능 향상 제공
또한 NVIDIA 소프트웨어 스택에 대한 수많은 최적화 덕분에 512 H100 GPU 구성을 사용한 제출 속도가 불과 1년 전보다 최대 27% 빨라졌습니다. 이러한 개선은 동일한 하드웨어에서도 지속적인 소프트웨어 개선을 통해 성능을 크게 향상시킬 수 있다는 점을 강조합니다.
이 작업의 결과로 더 큰 규모와 상당한 소프트웨어 개선을 통해 단 1년 만에 성능이 3.2배 향상되었습니다. 이 조합은 또한 거의 완벽한 확장성을 제공했습니다. GPU 수가 3.2배 증가함에 따라 제공되는 성능도 향상되었습니다.
LLM Fine-Tuning에 탁월함
기업이 사전 훈련된 대규모 언어 모델을 사용자 정의하려고 함에 따라 LLM 미세 조정이 업계의 주요 워크로드가 되고 있습니다. MLPerf는 이번 라운드에서 Meta Llama 2 70B에 적용된 인기 있는 LoRA(낮은 순위 적응) 기술을 기반으로 하는 새로운 LLM 미세 조정 벤치마크를 도입했습니다.
NVIDIA 플랫폼은 8개에서 1,024개의 GPU로 쉽게 확장하여 이 작업에 탁월했습니다. 이는 NVIDIA의 플랫폼이 소규모 및 대규모 AI 작업을 모두 효율적으로 처리할 수 있어 다양한 비즈니스 요구에 맞게 다용도로 사용할 수 있음을 의미합니다.
안정적인 확산 및 GNN 훈련 가속화
NVIDIA는 또한 지난 라운드에 제출된 동일한 시스템 규모에서 Stable Diffusion v2 교육 성능을 최대 80% 가속화했습니다 .
|