RTX를 위해 태어난 GPU 아키텍처 - 튜링 지포스 RTX 20 시리즈의 튜링(Turing) 아키텍처 GPU는 RTX를 위해 설계되었습니다. 튜링 GPU(TU102 기준)는 RT 코어와 AI(Artificial Intelligence)를 위한 텐서 코어(Tensor Core)가 탑재되고, 튜링 SM(Turing SM)을 통해 초당 14조의 부동소수점(14 TFLOPS)과 14조의 정수 연산(14 IPS)을 병렬로 처리할 수 있습니다. RTX 성능의 경우 RT 코어를 통해 초당 10 기가 레이(10 Giga Rays/sec) 연산이 가능하죠. 이러한 아키텍처 구조는 이전 세대와는 완전한 차별성을 가지기 때문에 단순 비교가 불가능한 부분이기도 합니다. ※ FLOPS: Floating-point Operations Per Second/IPS: Instructions Per Second
또한 튜링의 SM(Streaming Multiprocessor) 성능 효율이 크게 향상되었습니다. 엔비디아에 따르면 파스칼 아키텍처 대비 CUDA 코어당 성능이 50% 개선되었다는 내용이 있는데, 여기에는 두 가지의 아키텍처 변경 사항으로 논리적인 설명이 뒷받침됩니다. 첫 번째로 튜링 SM은 부동소수점 연산을 위한 데이터 경로에 독립적인 정수 데이터 연산이 가능한 경로가 추가되었습니다. 이전 아키텍처에서는 이러한 명령이 가해지면 워크로드(workloads)에서 부동소수점 연산이 실행되지 못하도록 차단됩니다.
두 번째는 SM 메모리 경로가 하나의 유닛(공유 메모리, 텍스처 캐싱, 메모리 로드 캐싱)으로 통합되도록 재설계되었다는 것입니다. 따라서 일반적인 워크로드의 L1 캐시에 두 배 이상의 대역폭과 두 배 이상의 용량을 제공할 수 있게 되었습니다.
볼타(Volta) 아키텍처 GPU인 GV100에 포함된 텐서 코어(Tensor Core)도 추가되었습니다. 텐서 코어는 딥러닝(Deep Learning)에 사용되는 핵심 컴퓨팅 기능인 텐서/매트릭스(Matrix) 연산을 수행하도록 특별히 설계된 실행 유닛입니다. 볼타의 텐서 코어와 마찬가지로 튜링 텐서 코어는 심층 신경망 훈련(트레이닝, Training)/추론(인퍼런싱, Inferencing)의 핵심인 매트릭스 연산에 괄목할 만한 향상을 가져옵니다. 튜링 GPU에는 딥러닝 추론 연산을 위해 새로운 버전의 텐서 코어 설계가 포함되기 때문이죠. ▲ 텐서 코어의 매트릭스 연산 시뮬레이션 영상(독일 RTX 에디터스 데이) 또한 튜링의 텐서 코어는 FP16 정밀도(precision)를 요구하지 않는 추론 워크로드에 대해 새로운 INT8/INT4 정밀 모드를 추가했으며, 최초로 지포스 게이밍 PC와 쿼드로 기반의 워크스테이션에 새로운 딥러닝 기반 AI(Artificial Intelligence) 기능을 도입했습니다.
그리고 딥러닝 슈퍼샘플링(Deep Learning Super Sampling, 이하 DLSS)이라는 새로운 기술이 텐서 코어를 통해 구동됩니다. DLSS는 심층 신경망(Deep Neural Network, DNN)을 활용하여 렌더링된 장면의 다양한 요소를 추출하고, 여러 프레임의 세부적인 정보를 지능적으로 결합하여 고품질의 최종 이미지를 생성합니다. 즉 DLSS는 TAA(Temporal AntiAliasing)와 같은 기존의 기술보다 더 적은 양의 샘플 정보를 사용하면서도, 기존 기법이 투명성(Transparency)과 기타 복잡한 장면 요소로 인해 직면하게 되는 알고리즘상의 어려움을 피할 수 있습니다. ▲ GTX 1080 Ti /w TAA vs. RTX 2080 Ti /w DLSS 성능 비교 영상 퀘이사존은 2018년 8월, 당시 RTX를 세상에 처음 공개했던 RTX 에디터스 데이 행사에서 DLSS의 성능을 직접 확인할 수 있었습니다. 언리얼 엔진 4의 인필트레이터(Infiltrator) 데모 렌더링 영상을 통해 DLSS를 적용한 RTX 2080 Ti와 TAA를 적용한 GTX 1080 Ti의 성능을 직접 확인해보시기 바랍니다.
드디어 레이트레이싱입니다. 튜링은 실시간 레이트레이싱(Real-time Ray Tracing) 기술을 아키텍처에 도입하여 단일 GPU가 물리적으로 정확한 그림자와 반사 그리고 굴절을 통해 현실적인 3D 게이밍이 가능하게 합니다. 레이트레이싱은 영화나 CG 업계에서는 이미 활발히 사용되는 기술로 단어 뜻 그대로인 광선 추적을 의미합니다.
실질적인 구현은 3D 화면을 구성할 때, 바라보는 시점으로부터 객체(object)의 반사와 빛 굴절 등의 광선을 추적하여 광원, 객체 등의 상호 영향을 계산하는 과정을 거쳐 이미지를 렌더링 합니다. 따라서 실제에 가까운 자연스러운 3D 이미지를 얻을 수 있지만, 이러한 과정은 매우 높은 연산 능력을 요구하기 때문에, 실시간 렌더링 기반의 3D 게임 화면에서는 쓰이지 못하고 래스터화(Rasterization) 기법에 의존하고 있었습니다. 이런 한계점을 극복하기 위해 튜링 GPU 아키텍처에는 RT 코어로 명명된 레이트레이싱 가속화 유닛이 탑재되었습니다. 하이브리드 렌더링 방식을 통해 구현되는 RTX 기술은 완전히 새로워진 RTX-OPX 워크로드와 BVH(Bounding Volume Hierarchy) 기법을 통해 최적화된 레이트레이싱 성능을 제공합니다. 또한 RTX 기술은 마이크로소프트의 DXR(DirectX Raytracing), 엔비디아 OptiX, Vulkan 레이트레이싱과 같은 API를 모두 지원합니다. 레이트레이싱에 관한 상세한 내용은 본 칼럼 후반의 RTX 섹션과 레이트레이싱 개별 페이지를 확인해주시기 바랍니다. |