9월 9일 베이징 시간, MLCommons 커뮤니티는 최신 MLPerf 2.1 벤치마크 결과를 발표했으며, 새로운 벤치마크는 거의 5,300개의 성능 결과와 2,400개의 전력 소비 측정을 가지고 있습니다. 이전 라운드보다 각각 1.37배 및 1.09배 더 높으며, MLPerf의 적용 범위는 더욱 확대되었습니다.
Alibaba, ASUS, Azure, Battery Technologies, Dell, Fujitsu, 기가바이트, H3C, HPE, 웨이브, 인텔, 크라이, 레노버, Moffett, Nettrix, Neural Magic, NVIDIA, OctoML, Qualcomm, SAPEON 및 Supermicro는 모두 이 테스트의 기여자입니다.
그 중에서도 NVIDIA는 H100과 함께 처음으로 MLPerf 테스트를 수행하고 모든 워크로드에서 세계 기록을 경신하는 등 여전히 강세를 보이고 있습니다.
H100은 A100보다 4.5배 향상된 세계 기록을 경신했습니다
엔비디아는 지난 3월 새로운 아키텍처인 엔비디아 호퍼(NVIDIA Hopper)를 기반으로 한 H100 GPU를 출시해, 2년 전 출시된 엔비디아 암페어(NVIDIA Ampere) 아키텍처에 비해 규모의 성능 도약을 이뤄냈습니다.
GTC 2022에서 젠슨 황은 20개의 H100 GPU가 전 세계 인터넷 트래픽과 동일한 트래픽을 지원할 수 있으며, 고객이 고급 추천 시스템을 출시하고 실시간으로 데이터 추론을 실행하는 데 도움이 되는 대규모 언어 모델을 출시할 수 있다고 말했습니다.
AI 실무자들이 기대하고 있는 H100은 2022년 3분기에 공식적으로 출하될 예정이었으나, 현재 사용자의 실제 사용량과 H100의 실제 성능을 알 수 없기 때문에 최신 MLPerf 테스트 점수를 통해 H100의 성능을 미리 확인할 수 있습니다.
![퀘이사존](https://img2.quasarzone.com/editor/2022/09/10/1e08219106df028ca7709b4ca418d9ba.png)
이번 테스트에서는 Intel Sapphire Rapids, Qualcomm Cloud AI 100, Biren BR104, SAPEON X220-enterprise에 비해 NVIDIA H100은 데이터 센터의 6개 신경망 모델 모두에서 테스트 결과를 제출할 뿐만 아니라 단일 서버 및 오프라인 시나리오에서 처리량과 속도면에서 선도적인 위치를 점했습니다.
NVIDIA A100에 비해 H100은 MLPerf 모델 중 가장 크고 성능이 가장 까다로운 모델 중 하나인 자연어 처리를 위한 BRT 모델에서 4.5배, 다른 5개 모델에서 1~3배 더 많은 성능을 제공합니다.
H100이 BRT 모델에서 뛰어난 성능을 발휘한 주된 이유는 Transformer Engine 덕분입니다.
Biren BR104만이 오프라인 시나리오에서 ResNet50 및 BRT-Large 모델에서 NVIDIA A100에 비해 두 배 이상의 성능 향상을 보였으며, 다른 제출 제품은 A100을 능가하지 못했습니다.
데이터 센터 및 에지 컴퓨팅 시나리오에서 A100 GPU는 NVIDIA AI 소프트웨어의 지속적인 개선으로 인해 2020년 7월 MLPerf에 처음 등장한 것에 비해 6배 향상된 성능으로 테스트 결과를 유지했습니다.
AI 공통성을 추구, 모든 AI 모델을 커버하는 테스트 결과
사용자는 일반적으로 사용자의 음성 요청을 이해하고, 이미지를 분류하고, 권장 사항을 제시하고, 음성으로 응답해야 하는 AI 응용 프로그램과 같이 다양한 유형의 신경망을 사용하여 함께 작업해야 하므로 각 단계에는 서로 다른 AI 모델이 필요합니다.
![퀘이사존](https://img2.quasarzone.com/editor/2022/09/10/8b77efe142acbc58f06fedef5eadce96.png)
따라서 MLPerf 벤치마크는 컴퓨터 비전, 자연어 처리, 추천 시스템 및 음성 인식과 같은 인기 있는 AI 워크로드 및 시나리오를 다루어 사용자가 안정적이고 유연한 성능을 배포할 수 있도록 합니다. 즉, 제출된 테스트 점수가 더 많은 모델을 커버할수록 더 나은 결과를 얻을 수 있으며 AI 기능이 더 보편적입니다.
이번 테스트에서 NVIDIAAI는 데이터 센터 및 에지 컴퓨팅에서 모든 MLPerf 추론 워크로드 및 시나리오를 실행할 수 있는 유일한 플랫폼으로 남았습니다. 데이터 센터에서 A100과 H100은 모두 6개의 모델 테스트 결과를 제출했습니다.
에지 컴퓨팅에서 NVIDIA Orin은 모든 MLPerf 벤치마크를 실행했으며 모든 저전력 시스템 수준 칩 중에서 가장 많은 테스트를 이겼습니다.
![퀘이사존](https://img2.quasarzone.com/editor/2022/09/10/77e950a1621b8e5537d6ddec6a354814.png)
Orin은 NVIDIA Ampere 아키텍처 GPU 및 Arm CPU 코어를 하나의 칩에 통합하여 로봇 공학, 자율 기계, 의료 기계 및 기타 형태의 에지 임베디드 컴퓨팅에 사용됩니다.
현재 Orin은 NVIDIA Jetson AGX Orin 개발자 키트뿐만 아니라 로봇 및 자율 시스템 생성 모델 테스트에 사용되어 자율 주행 자동차 플랫폼, 의료 기기 플랫폼 및 로봇 플랫폼을 포함한 전체 NVIDIA AI 소프트웨어 스택을 지원합니다.
오린의 에너지 효율은 지난 4월 MLPerf에서의 데뷔에 비해 50% 향상되었으며, 이전 세대 Jetson AGX Xavier 모듈보다 각각 5배, 2배 빠른 속도와 평균 에너지 효율을 제공합니다.
범용을 추구하는 NVIDIA AI는 업계의 광범위한 기계 학습 에코시스템에 의해 지원되고 있습니다. 이 벤치마크 라운드에서 70개 이상의 커밋이 NVIDIA 플랫폼에서 실행되었습니다. 예를 들어 Microsoft Azure는 클라우드 서비스에서 NVIDIA AI를 실행한 결과를 제출했습니다.
|