이 정도는 알아야 컴덕이지! 퀘이사존 공식 기획 기사

지포스 RTX의 심장, 튜링(Turing) 아키텍처의 모든 것

QM벤치

66 18922 43 2018.09.15 10:11

<img src="https://img2.quasarzone.co.kr/img/data/img/editor/1809/1809___1195037622.jpg" title="c7312ab4654f0e38268abee5ec3c62dc_1537100777_5912.jpg" style="max-width:100%; height:auto;"> <table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"> 지포스 RTX의 심장, 튜링(Turing) GPU의 모든 것 안녕하세요. 퀘이사존벤치입니다. 엔비디아(NVIDIA)의 차기 게임용 그래픽카드, 지포스 RTX 2080 Ti/RTX 2080에 대한 세간의 관심도가 절정입니다. 뭐 당연한 이야기겠죠. 이미 젠슨황(Jensen Huang) 회장이 독일 게임스컴(Gamescom)에서 직접 그래픽카드를 손에 들고 RTX를 어필하며 호기심을 폭발시킨 상황이지만, 아직까지 정확한 게임 성능 정보는 공개되지 않았기 때문입니다. 그래서 그런지, RTX에 대한 사람들의 평가도 관점에 따라 다릅니다. 새롭고 다양한 기술에 대한 긍정적인 시선도 존재하지만, 과거에 비해 많이 비싼 가격 때문에 "과연 얼마나 좋아졌나 보자" 또는 "돈값 못할 것 같다" 느낌의 냉소적인 시선도 분명 존재합니다. 결국 핵심은 “비싼 가격이 납득될 수 있을 만큼의 변화 혹은 기술적 이점이 있는가?”입니다. 여기에 답을 내리기 위해서는 리뷰 엠바고가 해제되는 시점의 구체적인 성능 테스트 결과가 반드시 필요하겠죠. 하지만 그렇다고 해서 지포스 RTX에 대한 답이 되어주기엔 충분 조건이 되어주지 못할 것입니다. RTX 기술은 엔비디아가 세상에 처음 꺼내든 무기로써 미래가치의 성격을 가지고 있어 현시점에서 검증하기에는 데이터가 부족하기 때문입니다. 따라서 지금 당장 성급한 답을 내리기는 힘들고, 현재의 상황과 RTX의 실체가 무엇인지 잘 따져보고 이해하는 과정을 밟는 것이 제품의 가치를 평가함에 있어 도움이 될 것입니다. 현재 퀘이사존은 RTX 2080 Ti/RTX 2080 파운더스 에디션을 입수한 상태이며, 리뷰 엠바고가 해제되는 시점에 맞춰 자세한 성능 벤치마크가 등록될 수 있도록 최선의 노력을 다 하고 있는 상태입니다. 물론, RTX 혹은 DLSS 테스트는 현재의 게임들이 지원하지 않고 있기 때문에, 기존 게임 위주의 성능 검증이 주가 될 것입니다. 그리고 오늘 이 시간에는 리뷰 엠바고 해제 전까지 조금이나마 지포스 RTX 그래픽카드에 대한 갈증에 목을 축이셨으면 하는 바람으로, RTX의 심장 튜링(Turing) GPU 아키텍처는 물론, 새롭게 등장한 기술을 다뤄보는 시간을 갖도록 하겠습니다. 내용에 대한 기술적 근거는 엔비디아의 튜링 백서(whitepaper)와 독일 게임스컴에서 발표한 프레젠테이션 자료입니다. ※ 본 기사는 뼛속까지 컴덕의 피가 흐르는 분들 입장에서는 흥미로운 이야기들이 가득 차있습니다. 그러나 주제의 특성상 그래픽카드 관련 기술적 내용이 주를 이루고 전문 용어가 많기 때문에 초보자 분들께서는 이해하기 어려울 수 있습니다. 따라서 천천히 조금씩 내용을 이해하면서 감상하시는 걸 추천드립니다.    </td></tr></tbody></table><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1809/1809___1770342506.jpg" title="fcad64afc38d98cadd31f571f50e93b0_1536926017_9976.jpg" style="max-width:100%; height:auto;"> <table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"> 그래픽의 재창조 | GRAPHICS REINVENTED '그래픽의 재창조(Graphics Reinvented)'란 말이 등장합니다. 지포스 RTX를 지칭하는 엔비디아의 새로운 캐치프레이즈인데요. 이 짧은 두 단어에는 분명한 사실적 의미를 내포하고 있습니다. 지금껏 그래픽카드의 발전 즉 GPU의 발전은 기존 세대보다 진보된 기술로 더 빠른 성능에 집중해왔습니다. 하지만, 지포스 RTX 그래픽카드의 튜링(Turing) GPU는 속도도 속도지만, 단순히 절대적인 성능이 아닌 그래픽 경험의 혁신에 방점을 찍고 있습니다. 기존에 관습처럼 굳어져 온 게임 렌더링 방식이나 알고리즘을 그대로 따라가는 것이 아니라, 완전히 새로운 기술을 적용하여 놀라운 그래픽을 선사한다는 내용으로 해석할 수 있겠죠. 이러한 기본 기조에 따라 엔비디아는 지포스 브랜드를 새롭게 정립할 필요성을 느낀 것 같습니다. 지포스 GTX(GeForce GTX)라는 10년의 역사를 가진 엔비디아 게임용 그래픽카드 타이틀이 이제는 레이트레이싱(광선 추적, Ray Tracing)의 의미를 담은 지포스 RTX로 태어났습니다. 물론, 현재 밝혀진 RTX 2080 Ti/RTX 2080/RTX 2070보다 하위 세그먼트에 속하는 제품은 GTX를 유지한다는 설도 있습니다만, 어쨌든, 하이엔드 그래픽카드 제품군은 이제 GTX가 아닌 RTX 타이틀을 가지게 되었습니다. 이런 상황에서 퀘이사존은 기존에 진행했던 단순 게임 성능 벤치마크로는 RTX의 세부적인 내용을 모두 전달하기에 무리라는 판단을 내렸습니다. 튜링 아키텍처와 새로운 그래픽 기술들을 모두 담기엔 콘텐츠에 대한 집중력이 떨어질 뿐더러 전달력도 약해지기 때문이죠. 레이트레이싱이 무엇인지 그렇다면 RTX는 무엇인지, 어떤 효과를 누릴 수 있을지, 튜링 GPU 아키텍처는 기존 아키텍처와 무엇이 달라졌는지 그 세부적인 내용을 알고 싶어하는 회원분들이 분명 존재할 것입니다. 그렇다면, 먼저 튜링 아키텍처의 대표적인 특징들을 요약해보도록 하겠습니다.    </td></tr></tbody></table><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1809/1809___452482980.jpg" title="fcad64afc38d98cadd31f571f50e93b0_1536927554_8174.jpg" style="max-width:100%; height:auto;"><table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"> 튜링 GPU의 핵심 요소 튜링 GPU는 파스칼(Pascal) 아키텍처에 이어 등장한 엔비디아의 가장 진보된 GPU 아키텍처입니다. 하이엔드 그래픽카드인 RTX 2080 Ti의 TU102 GPU는 TSMC 12nm FFN(FinFET NVIDIA) 공정으로 제작되어 약 186억 개의 트랜지스터(GTX 1080 Ti는 118억 개)가 집적되었습니다.  새로운 코어 아키텍처를 갖추게 되었고, 텐서 코어(Tensor Core)와 RT 코어(Ray Tracing Core)를 포함하며 진보된 셰이딩(Shading) 기법을 지원합니다. 세부적으로는 메시 셰이딩(Mesh Shading), 가변 비율 셰이딩(Variable Rate Shading, VRS), 텍스처 공간 셰이딩(Texture-Space Shading), 멀티뷰 렌더링(Multi-View Rendering, MVR) 등이 있으며 개발자에게 유용하고 더 높은 게임 경험과 최적화를 가능하게 해줍니다.    </td></tr></tbody></table><div><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1809/1809___1354318576.jpg" title="fcad64afc38d98cadd31f571f50e93b0_1536941851_7772.jpg" style="max-width:100%; height:auto;"> <table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"> RTX를 위해 태어난 GPU 아키텍처 - 튜링 지포스 RTX 20 시리즈의 튜링(Turing) 아키텍처 GPU는 RTX를 위해 설계되었습니다. 튜링 GPU(TU102 기준)는 RT 코어와 AI(Artificial Intelligence)를 위한 텐서 코어(Tensor Core)가 탑재되고, 튜링 SM(Turing SM)을 통해 초당 14조의 부동소수점(14 TFLOPS)과 14조의 정수 연산(14 IPS)을 병렬로 처리할 수 있습니다. RTX 성능의 경우 RT 코어를 통해 초당 10 기가 레이(10 Giga Rays/sec) 연산이 가능하죠. 이러한 아키텍처 구조는 이전 세대와는 완전한 차별성을 가지기 때문에 단순 비교가 불가능한 부분이기도 합니다.※ FLOPS: Floating-point Operations Per Second/IPS: Instructions Per Second  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1809/1809___14392021.jpg" title="fcad64afc38d98cadd31f571f50e93b0_1536942187_589.jpg" style="max-width:100%; height:auto;"> 또한 튜링의 SM(Streaming Multiprocessor) 성능 효율이 크게 향상되었습니다. 엔비디아에 따르면 파스칼 아키텍처 대비 CUDA 코어당 성능이 50% 개선되었다는 내용이 있는데, 여기에는 두 가지의 아키텍처 변경 사항으로 논리적인 설명이 뒷받침됩니다. 첫 번째로 튜링 SM은 부동소수점 연산을 위한 데이터 경로에 독립적인 정수 데이터 연산이 가능한 경로가 추가되었습니다. 이전 아키텍처에서는 이러한 명령이 가해지면 워크로드(workloads)에서 부동소수점 연산이 실행되지 못하도록 차단됩니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1809/1809___1864941688.jpg" title="fcad64afc38d98cadd31f571f50e93b0_1536942105_0954.jpg" style="max-width:100%; height:auto;"> 두 번째는 SM 메모리 경로가 하나의 유닛(공유 메모리, 텍스처 캐싱, 메모리 로드 캐싱)으로 통합되도록 재설계되었다는 것입니다. 따라서 일반적인 워크로드의 L1 캐시에 두 배 이상의 대역폭과 두 배 이상의 용량을 제공할 수 있게 되었습니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1809/1809___1269340354.jpg" title="fcad64afc38d98cadd31f571f50e93b0_1536929036_1394.jpg" style="max-width:100%; height:auto;"> 볼타(Volta) 아키텍처 GPU인 GV100에 포함된 텐서 코어(Tensor Core)도 추가되었습니다. 텐서 코어는 딥러닝(Deep Learning)에 사용되는 핵심 컴퓨팅 기능인 텐서/매트릭스(Matrix) 연산을 수행하도록 특별히 설계된 실행 유닛입니다. 볼타의 텐서 코어와 마찬가지로 튜링 텐서 코어는 심층 신경망 훈련(트레이닝, Training)/추론(인퍼런싱, Inferencing)의 핵심인 매트릭스 연산에 괄목할 만한 향상을 가져옵니다. 튜링 GPU에는 딥러닝 추론 연산을 위해 새로운 버전의 텐서 코어 설계가 포함되기 때문이죠.  <div class="apms-autowrap"><div class="apms-autosize"><iframe width="800" height="450" src="https://www.youtube.com/embed/XHFfgAZusAY" frameborder="0" allow="autoplay; encrypted-media" allowfullscreen=""></iframe></div></div> ▲ 텐서 코어의 매트릭스 연산 시뮬레이션 영상(독일 RTX 에디터스 데이) 또한 튜링의 텐서 코어는 FP16 정밀도(precision)를 요구하지 않는 추론 워크로드에 대해 새로운 INT8/INT4 정밀 모드를 추가했으며, 최초로 지포스 게이밍 PC와 쿼드로 기반의 워크스테이션에 새로운 딥러닝 기반 AI(Artificial Intelligence) 기능을 도입했습니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1809/1809___497525326.jpg" title="fcad64afc38d98cadd31f571f50e93b0_1536931147_8582.jpg" style="max-width:100%; height:auto;"> 그리고 딥러닝 슈퍼샘플링(Deep Learning Super Sampling, 이하 DLSS)이라는 새로운 기술이 텐서 코어를 통해 구동됩니다. DLSS는 심층 신경망(Deep Neural Network, DNN)을 활용하여 렌더링된 장면의 다양한 요소를 추출하고, 여러 프레임의 세부적인 정보를 지능적으로 결합하여 고품질의 최종 이미지를 생성합니다. 즉 DLSS는 TAA(Temporal AntiAliasing)와 같은 기존의 기술보다 더 적은 양의 샘플 정보를 사용하면서도, 기존 기법이 투명성(Transparency)과 기타 복잡한 장면 요소로 인해 직면하게 되는 알고리즘상의 어려움을 피할 수 있습니다.  <div class="apms-autowrap"><div class="apms-autosize"><iframe width="800" height="450" src="https://www.youtube.com/embed/88PLWXzyHx0" frameborder="0" allow="autoplay; encrypted-media" allowfullscreen=""></iframe></div></div> ▲ GTX 1080 Ti /w TAA vs. RTX 2080 Ti /w DLSS 성능 비교 영상 퀘이사존은 2018년 8월, 당시 RTX를 세상에 처음 공개했던 RTX 에디터스 데이 행사에서 DLSS의 성능을 직접 확인할 수 있었습니다. 언리얼 엔진 4의 인필트레이터(Infiltrator) 데모 렌더링 영상을 통해 DLSS를 적용한 RTX 2080 Ti와 TAA를 적용한 GTX 1080 Ti의 성능을 직접 확인해보시기 바랍니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1809/1809___311778962.jpg" title="fcad64afc38d98cadd31f571f50e93b0_1536931019_8672.jpg" style="max-width:100%; height:auto;"> 드디어 레이트레이싱입니다. 튜링은 실시간 레이트레이싱(Real-time Ray Tracing) 기술을 아키텍처에 도입하여 단일 GPU가 물리적으로 정확한 그림자와 반사 그리고 굴절을 통해 현실적인 3D 게이밍이 가능하게 합니다. 레이트레이싱은 영화나 CG 업계에서는 이미 활발히 사용되는 기술로 단어 뜻 그대로인 광선 추적을 의미합니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1809/1809___1151854610.jpg" title="fcad64afc38d98cadd31f571f50e93b0_1536942930_883.jpg" style="max-width:100%; height:auto;"> 실질적인 구현은 3D 화면을 구성할 때, 바라보는 시점으로부터 객체(object)의 반사와 빛 굴절 등의 광선을 추적하여 광원, 객체 등의 상호 영향을 계산하는 과정을 거쳐 이미지를 렌더링 합니다. 따라서 실제에 가까운 자연스러운 3D 이미지를 얻을 수 있지만, 이러한 과정은 매우 높은 연산 능력을 요구하기 때문에, 실시간 렌더링 기반의 3D 게임 화면에서는 쓰이지 못하고 래스터화(Rasterization) 기법에 의존하고 있었습니다. 이런 한계점을 극복하기 위해 튜링 GPU 아키텍처에는 RT 코어로 명명된 레이트레이싱 가속화 유닛이 탑재되었습니다. 하이브리드 렌더링 방식을 통해 구현되는 RTX 기술은 완전히 새로워진 RTX-OPX 워크로드와 BVH(Bounding Volume Hierarchy) 기법을 통해 최적화된 레이트레이싱 성능을 제공합니다. 또한 RTX 기술은 마이크로소프트의 DXR(DirectX Raytracing), 엔비디아 OptiX, Vulkan 레이트레이싱과 같은 API를 모두 지원합니다. 레이트레이싱에 관한 상세한 내용은 본 칼럼 후반의 RTX 섹션과 레이트레이싱 개별 페이지를 확인해주시기 바랍니다.    </td></tr></tbody></table><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1809/1809___4320948.jpg" title="fcad64afc38d98cadd31f571f50e93b0_1536931982_1719.jpg" style="max-width:100%; height:auto;"></div><table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"> 진보된 셰이딩 기술 | Advanced Shading 튜링 GPU의 가장 중요한 발전 중 하나가 바로 진보된 셰이딩 기술입니다. 여기에는 알고리즘 방식에 따라 세분화된 다양한 기술이 존재하며, 아래에서 하나씩 기술 개요를 설명하도록 하겠습니다. 각 셰이딩 기법에 대한 알고리즘 상세 내용은 본 칼럼의 개별 페이지에서 확인하실 수 있습니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1809/1809___8839866.jpg" title="fcad64afc38d98cadd31f571f50e93b0_1536932890_8298.jpg" style="max-width:100%; height:auto;"> 1. 메시 셰이딩(Mesh Shading)메시 셰이딩은 그래픽 파이프라인의 버텍스(Vertex), 테셀레이션(Tessellation) 및 지오메트리(Geometry) 셰이딩으로 이루어지는 실행 단계에 새로운 셰이더 모델을 제공함으로써 엔비디아의 지오메트리 프로세싱 아키텍처를 개선하고 보다 유연하고 효율적인 접근 방식을 가능하게 합니다. 이를 통해 한 장면에 수많은 객체(object)가 등장할 경우 CPU의 객체 처리(draw call)로 인한 병목 현상(bottleneck)을 CPU가 아닌 GPU의 병렬형 메시 셰이딩으로 이동시켜 장면당 더 많은 객체를 처리할 수 있게 도와줍니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1809/1809___596660498.jpg" title="fcad64afc38d98cadd31f571f50e93b0_1536933386_7925.jpg" style="max-width:100%; height:auto;"> 2. 가변 비율 셰이딩(Variable Rate Shading, VRS)VRS는 개발자가 보다 효율적으로 셰이딩(shading) 처리가 가능하게 해주는 매우 강력한 도구입니다. 4x4 픽셀의 16 픽셀 단위를 지정하여 각 단위별로 셰이딩 처리 비율을 동적으로 조절할 수 있습니다. 이는 결국 전체 화면의 셰이딩 처리 영역에서 시각적으로 이미지 품질의 이점이 체감되지 않는 영역의 셰이딩 처리 작업을 줄여 프레임을 향상시킬 수 있습니다. VRS 기반 알고리즘의 몇 가지 클래스가 이미 준비되어 있기 때문에, 애플리케이션의 특성에 따라 콘텐츠 적응형 셰이딩(Content Adaptive Shading), 모션 적응형 셰이딩(Motion Adaptive Shading)에서 적합한 알고리즘을 적용할 수 있으며, VR 애플리케이션을 위한 포비에이티드 렌더링(Foveated Rendering)을 적용할 수 있습니다. 3. 텍스처 공간 셰이딩(Texture-Space Shading)텍스처 공간 셰이딩을 사용하면, 객체가 메모리에 저장된 전용 좌표 공간(텍스처 공간)에 셰이딩 처리되고, 픽셀 셰이더는 이를 바로 처리하지 않고, 해당 공간을 샘플링합니다. 셰이딩 처리 결과를 메모리에 캐싱하고 재사용/리샘플링 할 수 있기 때문에 개발자는 중복 셰이딩 작업을 피하거나 품질을 향상시키는 다양한 샘플링 접근방식을 사용할 수 있습니다. 4. 멀티뷰 렌더링(Multi-View Rendering, MVR)MVR은 파스칼 아키텍처의 싱글 패스 스테레오(Single Pass Stereo, SPS)를 대폭 확장시킨 기술입니다. SPS는 일반적으로 두 가지 뷰(view)에 대한 렌더링을 허용했지만, MVR은 완전히 다른 원점의 위치나 뷰 방향을 기반으로 하는 경우도 싱글 패스에서 여러 뷰를 렌더링 할 수 있습니다.    </td></tr></tbody></table><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1809/1809___476815831.jpg" title="fcad64afc38d98cadd31f571f50e93b0_1536934047_2511.jpg" style="max-width:100%; height:auto;"><div><table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"> 엔비디아 NGX | NVIDIA NGX™ 엔비디아 NGX(NVIDIA NGX™)는 엔비디아 RTX 기술에 포함된 새로운 딥러닝 그래픽 프레임워크(framework)입니다. 엔비디아 NGX는 그래픽, 렌더링 및 애플리케이션을 가속화하고 향상시키는 AI 기반 기능을 수행하기 위해 ‘심층 신경망(Deep Neural Network, DNN)’과 ‘신경 서비스(Neural Services)’를 활용한다는 것이죠. 이를 통해 NGX는 튜링 텐서 코어를 사용하여 딥러닝 작업 수행의 결과물을 최종 사용자에게 신속하게 제공할 수 있습니다. NGX에 포함되는 요소들은 초고화질의 이미지를 구현하는 NGX DLSS(딥러닝 슈퍼샘플링), AI 인페인팅(InPainting) 콘텐츠 인식 이미지 교체, 고품질의 부드러운 모션을 제공하는 AI Slow-Mo, AI 해상도 리사이징 기술인 AI Super Rez 등이 있습니다.    </td></tr></tbody></table><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1809/1809___950521278.jpg" title="fcad64afc38d98cadd31f571f50e93b0_1536935674_7382.jpg" style="max-width:100%; height:auto;"> <table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"> DLSS 지원 예정 게임은? 엔비디아 NGX를 통해 구현되는 DLSS(Deep Learning Super Sampling) 기술은 게이머에게 높은 품질의 이미지와 강력한 성능의 이점을 동시에 가져다 줍니다. 하지만, 모든 게임에서 지원되는 기술은 아니며, 어디까지나 게임 개발사에서 DLSS 기능을 지원해줘야 한다는 제한사항이 존재합니다. 현재 엔비디아를 통해 DLSS를 지원할 것으로 알려진 게임은 상단 이미지를 참고해주시기 바랍니다. 대표적인 게임 타이틀로는 아토믹 하트(Atomic Heart), 파이널 판타지 XV(Final Fantasy XV), 히트맨 2(Hitman 2), 배틀그라운드(PLAYERUNKNOWN'S BATTLEGROUNDS), 시리어스 샘 4(Serious Sam 4: Planet Badass), 섀도 오브 더 툼레이더(Shadow of the Tomb Raider) 등을 꼽을 수 있습니다. DLSS는 언리얼 엔진 4(Unreal Engine 4)나 유니티 엔진(Unity Engine)을 통해 어렵지 않은 알고리즘으로 적용 가능하기 때문에 향후 더 많은 게임 타이틀에서 지원될 것으로 예상됩니다. 그리고 2018년 9월 14일 엔비디아를 통해 DLSS를 지원하는 추가 게임 타이틀 소식을 접할 수 있었습니다. 타이틀 목록은 아래와 같습니다. (1) 다크사이더스 III(Darksiders III) (2) 딜리버 어스 더 문: 포르투나(Deliver Us The Moon: Fortuna) (3) 피어 더 울브스(Fear the Wolves) (4) 헬블레이드: 세누아의 희생(Hellblade: Senua's Sacrifice) (5) 키네틱(KINETIK) (6) 아웃포스트 제로(Outpost Zero) (7) 오버킬의 워킹데드(Overkill's The Walking Dead) (8) SCUM – 게임파이어스(Gamepires)(9) 스톰다이버(Stormdivers)    </td></tr></tbody></table><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1809/1809___146030999.jpg" title="fcad64afc38d98cadd31f571f50e93b0_1536934389_877.jpg" style="max-width:100%; height:auto;"><table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"> GDDR6 고성능 메모리 시스템 튜링은 GDDR6 메모리를 지원하는 최초의 GPU 아키텍처입니다. 최근의 PC 게이밍 환경은 디스플레이 해상도가 계속 증가하고 셰이더 기능과 렌더링 기술이 더욱 복잡해지면서 메모리 대역폭(bandwidth)과 용량이 GPU 성능에 굉장히 많은 영향을 끼치게 되었습니다. GPU 입장에서는 가능한한 최고의 프레임과 연산 속도를 유지하기 위해 더 많은 메모리 대역폭과 용량이 필요하다는 뜻이겠죠. 그동안 엔비디아는 HBM2와 GDDR5X 메모리를 사용하는 세계 최초의 GPU를 내놓은 바 있고, 이제 튜링 GPU는 GDDR6 메모리를 탑재한 최초의 GPU 아키텍처가 되었습니다. GDDR6 메모리 인터페이스는 고대역폭 GDDR DRAM 메모리 설계의 큰 발전이며, 속도와 전력 효율성 및 노이즈 감소 능력이 개선되었습니다. 이전 세대의 파스칼 GPU에 사용되었던 GDDR5X와 비교하면 20% 향상된 전력 효율성을 확보했고, 14 Gbps 전송 속도(유효 메모리 클록: 14,000 MHz)를 달성했습니다.    </td></tr></tbody></table><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1809/1809___357703003.jpg" title="fcad64afc38d98cadd31f571f50e93b0_1536934940_5052.jpg" style="max-width:100%; height:auto;"></div><table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"> 2세대 NV링크 | 2nd Gen. NVIDIA NVLink™ 지포스 RTX 2080 Ti의 TU102 그리고 지포스 RTX 2080의 TU104 GPU는 튜링 GPU 간에 신뢰할 수 있는 고대역폭 및 짧은 지연시간(Latency)의 연결을 제공하기 위해 엔비디아의 NV링크(NVLink™) 기술을 포함하게 되었습니다. NV링크는 최대 100 GB/s의 양방향 대역폭을 제공하며, 기존 아키텍처 세대에서 사용된 SLI 브리지(SLI Bridge) 방식에 비해 더 고급화된 디스플레이 토폴로지(Topology) 구축이 가능합니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1809/1809___699197784.jpg" title="fcad64afc38d98cadd31f571f50e93b0_1536935429_9771.jpg" style="max-width:100%; height:auto;"> NV링크 브리지 가격은 $79 USD. 음...    </td></tr></tbody></table><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1809/1809___1388290525.jpg" title="fcad64afc38d98cadd31f571f50e93b0_1536936742_7728.jpg" style="max-width:100%; height:auto;"><div><table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"> 오버클러킹을 위한 설계 RTX 지포스 그래픽카드는 하이엔드 제품으로서 고성능의 게이밍 환경을 보장해주지만, 하드웨어 마니아들은 이런 사실과 관계 없이 언제나 CPU나 GPU를 가만두지 않았습니다. 이런 특성을 엔비디아도 잘 알기 때문에 새로운 제품을 출시하면 오버클러킹(Overclocking) 주제를 빠뜨리지 않고 있죠. 따라서 RTX 2080 시리즈 파운더스 에디션은 더 높은 클록 주파수를 향해 달려가는 오버클러커를 위해 개선된 전력 공급 시스템을 갖췄습니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1809/1809___1315653289.jpg" title="fcad64afc38d98cadd31f571f50e93b0_1536938908_2197.jpg" style="font-size: 18.6667px; max-width: 100%; height: auto;"> 파스칼 아키텍처의 GTX 1080과 비교하여 더 높은 OC 잠재력(소비전력 여유분을 기준으로 한)을 가지고 있으며, 전력 공급에 대한 리플(Ripple)도 안정화시켰습니다. 즉 보다 균일한 전압과 더 높은 전력 공급 잠재력을 가지고 있기 때문에, 소비전력 허용치로 인한 제한에서 더 자유로워진 것으로 해석할 수 있습니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1809/1809___1336366604.jpg" title="fcad64afc38d98cadd31f571f50e93b0_1536939910_6202.jpg" style="max-width:100%; height:auto;"> 오버클러킹을 위한 새로운 알고리즘이 적용된 기술, 엔비디아 스캐너(NVIDIA SCANNER)도 발표되었습니다. 그동안의 그래픽카드 오버클록 잠재력을 테스트 과정은 길고도 지루했습니다. 사용자는 수많은 시간을 들여가며 클록 주파수를 조절하고 3D 렌더링을 구동하며 실패와 성공을 판단하고 이런 과정을 반복해야만 했습니다. 하지만 엔비디아 스캐너는 NV Scanner API로 명명된 테스트 알고리즘을 통해 NV 워크로드(workload)를 수행하고, 스스로 클록 주파수와 전압을 조절해가며 클록 주파수의 한계값을 찾아냅니다. 즉 한 번의 클릭을 통해 오버클러킹이 가능한 개념이죠. 저와 같은 테스터들 그리고 오버클러킹을 즐기는 하드웨어 마니아들에게 매우 반가운 기능입니다. 물론, 작동 알고리즘의 완성도나 신뢰성이 검증되지 않은 시점이지만 상당히 흥미로운 기술이라는 건 변함 없습니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1809/1809___1731467366.jpg" title="fcad64afc38d98cadd31f571f50e93b0_1536939903_4365.jpg" style="max-width:100%; height:auto;"> 엔비디아 스캐너는 EVGA Precision X 유틸리티를 통해 지원되며, 이제 사용자의 테스트 버튼을 클릭하는 것만으로 오버클러킹 테스트가 가능합니다. 약 20분의 시간이 소요되며, 사전에 설정된 전압별 클록 주파수의 전영역을 테스트하기 때문에, 기존의 방법으로는 테스트하기 어려웠던 저전압/저클록 주파수 상황의 안정성까지 보장하게 됩니다.    </td></tr></tbody></table><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1809/1809___1732346124.jpg" title="fcad64afc38d98cadd31f571f50e93b0_1536941346_4148.jpg" style="max-width:100%; height:auto;"> <table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"> 엔비디아 RTX | NVIDIA RTX 대망의 RTX입니다. 엔비디아의 레이트레이싱 기술 그 자체, 그리고 레이트레이싱을 구현하기 위한 알고리즘, RTX-OPS로 대표되는 RTX 워크로드(workload) 등 다양한 개념을 포함하는 엔비디아 RTX는 지포스 RTX 20 시리즈의 핵심이자 필살기라고 할 수 있습니다. 앞서 간단하게 레이트레이싱을 언급했지만, 레이트레이싱을 게임에서 구현하는 것은 GPU 연산 능력의 한계로 인해 불가능에 가까웠습니다. 하지만 튜링 GPU 아키텍처는 하이브리드 렌더링 모델(Hybrid Rendering Model)을 워크로드에 도입하여 RTX-OPS 개념을 만들어내었고, 실제로 기존 아키텍처의 워크로드에서 크게 진보된 구성을 보여줍니다.    </td></tr></tbody></table><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1809/1809___184323009.jpg" title="fcad64afc38d98cadd31f571f50e93b0_1536942266_7654.jpg" style="max-width:100%; height:auto;"><table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"> RTX-OPS 워크로드 모델 RTX-OPS 워크로드는 하이브리드 렌더링 방식을 사용합니다. 이를 이해하기 위해서는 먼저 연산 과정에 가해지는 워크로드 부하와 처리에 대한 내용을 알아야 합니다. 레이트레이싱과 AI에 소요되는 연산 처리는 굉장히 중요하지만, 하나의 프레임타임(frame time) 전체를 차지하는 것은 아니기 때문에, 각 연산 처리 단계가 소요되는 시간을 파악할 필요가 있습니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1809/1809___1961132286.jpg" title="fcad64afc38d98cadd31f571f50e93b0_1536942480_6053.jpg" style="max-width:100%; height:auto;"> ▲ 튜링 GPU 아키텍처의 1 프레임 당 워크로드 튜링에서 실행되는 애플리케이션 데이터를 기반으로 1 프레임에 대한 워크로드 부하 분포를 예로 들어보겠습니다. 먼저 DNN 프로세싱으로 명시된 보라색 영역은 딥러닝 슈퍼샘플링(DLSS)과 같은 심층 신경망(DNN) 작업 부하를 뜻합니다. 전체 프레임타임의 약 20% 수준을 차지하고 있네요. 나머지 80%의 노란색 영역은 FP32의 단정밀도 연산으로 셰이딩 처리 작업이 차지하고 있습니다. 그리고 동시에 워크로드 일부는 연두색으로 칠해진 레이트레이싱 연산에 소요되며, 또 일부는 래스터화(Rasterized) 또는 G-Buffer에 사용됩니다. 위 이미지에서 레이트레이싱은 FP32 셰이딩 처리와 비교하여 약 절반 정도를 차지하는데요. 파스칼 아키텍처에서 레이트레이싱을 처리한다면 CUDA 코어의 소프트웨어 방식의 에뮬레이션으로 처리됩니다. 광선을 쏘는데 필요한 연산 능력은 기가레이(Giga Ray) 당 10 TFLOPS를 요구하게 되지만, 튜링에서는 RT 코어를 통해 10 기가레이(Giga Ray) 또는 100 TFLOPS의 컴퓨트(Compute) 연산을 수행합니다. 튜링의 워크로드 모델에서 특징적인 요소가 또 있습니다. 바로 FP32 CUDA 코어와 병렬로 실행할 수 있는 정수(INT, Integer) 연산 유닛의 도입입니다. 최신 게임들의 이미지 렌더링 경향을 분석해보면 FP32 정밀도의 파이프라인 명령어 100개마다 정수 파이프라인은 약 35개의 추가 명령어가 포함됩니다. 따라서 기존 세대의 단일 파이프라인 아키텍처에서는 CUDA 코어에서 이러한 연산 작업을 순차적으로 실행하는 사이클을 보여주지만, 튜링 아키텍처는 FP32와 정수 연산을 동시에 처리할 수 있습니다. 위 이미지에서 정수 파이프라인(INT32 SHADING)의 시간은 FP32 셰이딩 시간의 약 35% 비율로 할당되었습니다. 이렇게 네 가지로 구성된 튜링 워크로드 모델을 이해하게 되면, 단일 워크로드만 존재했던 이전 세대 GPU와 튜링의 차이점을 쉽게 비교할 수 있게 됩니다. 즉 RTX-OPS 워크로드는 하이브리드 렌더링 워크로드 방식에 굉장히 유용한 모델 기반이 되어줍니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1809/1809___1019123425.jpg" title="fcad64afc38d98cadd31f571f50e93b0_1536943857_804.jpg" style="max-width:100%; height:auto;"> RTX-OPS 워크로드를 통해 RTX 2080 Ti 파운더스 에디션의 경우 어느 정도의 연산 성능을 보여줄 수 있을지 계산하는 것도 가능합니다. 워크로드를 차지하는 각 연산 유닛의 비율을 구하고 이를 모두 더하는 것으로 말이죠. 먼저 FP32 셰이딩의 경우 14 TFLOPS의 80% = 11.2 TFLOPS, INT32 정수 연산은 14 TIPS의 28% = 3.92 TFLOPS, RT 코어의 레이트레이싱 연산은 100 TFLOPS의 40% = 40 TFLOPS, 마지막으로 텐서 코어가 담당하는 DNN FP16 연산 유닛은 114 TFLOPS의 20% = 28.8 마지막으로 이것을 모두 더하면 11.2 + 3.92 + 40 + 22.8 = 77.92 값이 나옵니다. 결과적으로 RTX 2080 Ti의 RTX-OPS 연산 성능은 약 78 RTX-OPS로 답을 내릴 수 있겠습니다.    <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1809/1809___1420190507.jpg" title="fcad64afc38d98cadd31f571f50e93b0_1536973410_8373.jpg" style="max-width:100%; height:auto;"> RTX를 지원하는 게임 타이틀  그렇다면 RTX 지원 예정 게임 타이틀은 무엇이 있을까요? 여기 슬라이드 이미지에 많은 게임들이 포함되어 있습니다. 유명하고 잘 알려진 게임들을 언급하자면 아크: 서바이벌 이볼브드(Ark: Survival Evolved), 아세토 코르사(Assetto Corsa Competizione), 아토믹 하트(Atomic Heart), 배틀필드 V(Battlefield V), 컨트롤(Control), 파이널 판타지 XV(Final Fantasy XV), 히트맨 2(Hitman 2), 메트로 엑소더스(Metro Exodus), 배틀그라운드(PLAYERUNKNOWN'S BATTLEGROUNDS), 시리어스 샘 4(Serious Sam 4: Planet Badass), 섀도 오브 더 툼레이더(Shadow of the Tomb Raider) 등이 있습니다.    </td></tr></tbody></table><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1809/1809___2029511106.jpg" title="fcad64afc38d98cadd31f571f50e93b0_1536944179_0381.jpg" style="max-width:100%; height:auto;"> </div><table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"> 튜링 GPU 아키텍처... 할 말이 너무나 많다 다소 축약된 형태의 튜링 GPU 아키텍처의 특성과 기술적 내용에 대한 것을 모두 알아보았습니다. 하지만 튜링 GPU 아키텍처와 지포스 RTX 그래픽카드에 대한 내용은 이것이 다가 아닙니다. 아직 구체적인 게임 성능 벤치마크도 나오지 않았을 뿐더러, 향후 출시 예정인 RTX 지원 게임들 그리고 RTX 적용 유무에 따른 성능 등 엔비디아의 새로운 RTX 그래픽카드는 검증 받아야 할 내용도 너무나도 많습니다. 현재 퀘이사존 역시 RTX 그래픽카드 테스트에 여념이 없지만, RTX 게임 관련 테스트는 당장 답을 내릴 수 있는 주제가 아니기 때문에 개운한 답이 되어드리지 못할 겁니다. 하지만 자신있게 약속 드리겠습니다. 충실한 성능 검증과 테스트 자료로 최대한 답이 되어줄 수 있는 자료로 다시 찾아오겠다고 말이죠. 이상, 퀘이사존벤치였습니다. 아, 그리고 여기서 끝이 아닙니다. 본 페이지는 어디까지나 튜링 GPU 아키텍처에 대한 요약 버전이며, 본 칼럼의 개별 주제 페이지에서 더욱더 재미없고 어려운 내용들이 가득 담겨 있습니다. 컴덕의 피가 끓는 분들은 꼭 확인해주시기 바랍니다.        </td></tr></tbody></table><img src="https://img2.quasarzone.co.kr/img/data/editor/1802/5865adf4aba1555eb76679ed1c3853e9_1519205276_3676.png" title="5865adf4aba1555eb76679ed1c3853e9_1519205276_3676.png" style="text-align: center; max-width: 100%; height: auto;">  <div align="center" style="text-align: center;"> 퀘이사존의 저작물은 <a href="https://creativecommons.org/licenses/by-nc-nd/4.0/" target="_self">크리에이티브 커먼즈 저작자표시-비영리-변경금지 4.0 국제 라이선스</a>에 따라 이용할 수 있습니다.  </div><div class="content_move">[이 게시물은 퀘이사존님에 의해 2020-05-28 20:21:07 퀘이사 칼럼게시판에서 이동 됨]</div><div class="content_move">[이 게시물은 퀘이사존님에 의해 2020-05-28 21:46:50 [복사본] 기획칼럼게시판에서 이동 됨]</div>