RTX 30 시리즈 자세히 들여다 보기, 지포스 30 시리즈 테크 데이

새로운 제품, 새로운 기술, 과연 전작으로부터 무엇이 바뀌었을까?

QM슈아
40 8315 2020.09.05 04:46




이미지 제공: NVIDIA



지포스 30 시리즈 테크 데이 - 파트 1

RTX 30 시리즈, 조금 더 자세히 알고 싶다



지난 2020년 9월 2일 새벽 1시, 드디어 긴 침묵을 깨고 NVIDIA에서 RTX 30 시리즈를 정식 발표했습니다. 오븐에서 갓 구운 듯한 자태로, 젠슨 황 CEO에 의해 실물이 처음 세상에 공개되었죠. 퀘이사존에서도 라이브 스트리밍을 진행하면서 많은 시청자와 함께 놀랍다는 심경을 표현하기도 했습니다. 특히 이번 라이브 스트리밍에서는 6명이나 되는 QM이 각자 의견을 이야기하는 시간을 가졌는데요. 저 역시도 기존 루머나 업계 소식으로 들었던 소문 이상으로 RTX 30 시리즈가 지닌 가능성이 컸기에 흥분을 감추지 못했습니다. 당시 흥분한 상태에서 두서없이 떠들었던 기억에, 돌이켜 생각해보니 조금 부끄러워집니다.



NVIDIA ULTIMATE COUNTDOWN 라이브 스트리밍 보러 가기

NVIDIA ULTIMATE COUNTDOWN 라이브 요약 보러 가기



새로운 제품을 발표한 직후, 퀘이사존은 어떤 이메일을 받았습니다. NVIDIA 본사에서 주관하는 지포스 30 시리즈 테크 데이 온라인 세션에 참석하겠냐는 질문이었는데요. 이런 기회를 놓칠 수 없었기에, 저와 QM벤치 두 명이 한국 시간으로 새벽에 진행한 Tech Day 온라인 세션에 참석했습니다. 이미 젠슨 황 CEO가 직접 공개했듯, RTX 3080과 RTX 3090은 공개일이 조금 남은 상황입니다. 하지만 이번 온라인 세션은 조금 더 일찍 엠바고 해제가 가능하다고 하네요. 한국 시각으로 9월 5일 오전 6시, 정식으로 엠바고가 해제된 지포스 30 시리즈 테크 데이에 대한 소식을 빠르게 전달해드리고자 합니다.












모든 내용을 한꺼번에 소개하기엔 너무 많다!



거대한 도약을 이루었다고 하는 RTX 30 시리즈지만, 지난 2020년 9월 2일에는 짧은 발표 시간 동안 모든 내용을 공유하기는 어려웠습니다. 그도 그럴 게, 아키텍처에 대한 소개는 내용이 방대할 수밖에 없기 때문입니다. 그래서 이런 온라인 세션으로 더욱 자세한 내용을 공유하곤 하죠. 이번 온라인 세션은 4개 파트로 나누어 진행이 이루어졌으며, 각 세션은 아래와 같습니다.


  • 세션 01 - NVIDIA AMPERE 아키텍처
  • 세션 02 - RTX 제품 & 게임
  • 세션 03 - e스포츠 & 성능 도구
  • 세션 04 - 크리에이터, MACHINIMA & BROADCAST(방송)


이번에 작성하는 칼럼은 4개 섹션 중 세션 01과 세션 02, 2개 섹션에 관한 내용을 다룹니다. 세션별로 약 1시간씩 진행했기에, 모든 내용을 칼럼 하나에 담기에는 너무 방대하거든요. 물론 이런 기술 정보를 재밌게 읽는 분도 계신다는 사실을 잘 알기에 세션 03과 04도 다른 칼럼으로 소개해드릴 예정입니다. 이 점 참고하여 내용을 감상해주세요.











바로 이전 세대인 튜링 아키텍처 이후 약 2년 만입니다. 드디어 NVIDIA가 새로운 그래픽카드 출시를 예고했습니다. 새로운 아키텍처와 제조 공정을 적용했음은 말할 필요도 없죠. 새롭게 바뀐 2세대 RTX, 암페어 아키텍처가 드디어 세상에 모습을 드러냈습니다. 가장 먼저 소개된 내용은 RTX에 대한 내용이었습니다. NVIDIA에서는 RTX 20 시리즈를 1세대 RTX로, RTX 30 시리즈를 2세대 RTX로 명시하고 있습니다. 모델을 정확히 기재하진 않았습니다만, RTX 20 시리즈는 RTX 2080 SUPER, RTX 30 시리즈는 RTX 3080에 해당합니다.


단순 계산으로도 성능이 엄청나게 증가하겠다는 기대감이 생기는데요. SM 구조를 변경하면서 단정밀도(FP32) 기준 11 TFLOPS 수준이던 성능이 30 TFLOPS 수준으로, RT 코어 성능도 34 RT TFLOPS에서 58 RT TFLOPS로, 텐서 코어 성능 역시 89 Tensor TFLOPS에서 238 Tensor TFLOPS로 상승했습니다. 순서대로 각각 2.7배, 1.7배, 2.7배 상승한 셈이죠. 특히 대다수 게임 성능에 영향을 주는 단정밀도 성능이 거의 3배에 가깝게 증가한 점이 놀랍습니다.







단정밀도 성능이 상승한 원인은 SM 구조 변경에 있습니다. TURING TIMES TWO, 튜링의 두 배에 달한다는 부분을 강조하는 점이 인상적입니다. 기존 튜링 아키텍처는 단정밀도 연산을 처리할 수 있는 FP32 코어와 INT32 코어를 1:1로 투입해서 GTX 10 시리즈와 성능 차별화를 꾀했습니다. 이번 암페어 아키텍처는 여기에 더해서 FP32 코어를 2배로 늘리는 강수를 두었습니다. 이 부분 때문에 라이브 스트리밍 당시 모든 QM이 깜짝 놀랄 정도로 많은 CUDA 코어 수를 볼 수 있게 되었습니다. FP32 코어가 2배로 늘었다고는 하지만 성능도 2배가 되는 건 아닙니다. 하지만 FP32 연산을 높게 요구하는 작업에 대해 조금 더 효율적으로 성능을 발휘할 수 있게 된 셈이니 나쁜 이야기는 아니죠.


물론 변화점은 여기서 그치지 않습니다. L1 대역폭을 2배로 늘리고 캐시 파티션 크기를 2배로 증설해 처리 성능 향상을 기대할 수 있게 되었고, RT 코어와 텐서 코어 역시 처리 속도 개선을 위한 차이를 꾀했습니다. 이렇듯 SM 구조 자체에 큰 변화가 생기면서 RTX 30 시리즈는 이전 RTX 20 시리즈보다 월등히 높은 성능을 기대해봄 직하게 되었습니다.











레이 트레이싱(Ray Tracing), 광선 추적에 대한 부분은 언제 들어도 어렵게 느껴집니다. 대학생 시절에도 은근히 어렵게 느꼈는데, 어느덧 그래픽 수준이 높아지면서 광선 추적을 실시간으로 처리하는 세상이 될 줄은 상상도 못 했네요. 해당 슬라이드에서 주의 깊게 볼 부분은 암페어에 들어가는 2세대 RT 코어가 어떻게 바뀌었는가 하는 점입니다.


위 SM 슬라이드에서 Triangle intersection rate가 2배로 증가했다는 내용이 언급되어 있는데요. 광선 추적의 핵심인 BVH(Bounding Volume Hierarchy) 구조 효율을 높이기 위해 Triangle intersection 처리를 2번 진행하도록 처리 알고리즘을 개선했습니다. 광선 추적과 관련해서 수혜를 볼 수 있는 항목 중 하나가 모션 블러 가속 처리인데요. 광석 추적 경로를 계산한 후 다시금 블러 처리라는 후가공까지 이뤄져야 하므로, 개발자 입장에서는 굉장히 까다로울 수밖에 없는 항목이 아닐까 합니다. 암페어 아키텍처에서 2세대로 개선된 RT 코어를 넣음으로 인해, 광선이 순회하는 시간을 최대 8배까지 빠르게 처리할 수 있다고 하니 대단하게 느껴집니다.






3세대로 거듭난 텐서 코어 역시 변화점이 확실해 보입니다. 위 슬라이드를 통해서 SM당 텐서 코어 비율이 RTX 20 시리즈 이후 다시금 개선되었다는 사실을 알 수 있는데요. RTX 2080 SUPER 셰이더 코어가 지닌 추론 성능을 1로 놓고 본다면 RTX 2080 SUPER 텐서 코어는 10, RTX 3080 텐서 코어는 20을 넘기는 수치입니다. 텐서 코어 성능끼리 비교하더라도 2배에 육박하는 차이죠.









그외에도 이번 RTX 30 시리즈는 개선점이 많습니다. 암페어 아키텍처 카드가 CONTROL 게임에서 똑같은 60 FPS를 얻기 위해 필요한 소비 전력은 튜링 아키텍처의 절반 수준에 달한다고 합니다. 이를 역산해보면 와트당 성능비는 튜링 아키텍처 대비 1.9배에 육박하죠. 이밖에도 GDDR6X를 채용했다는 부분과 HDMI 2.1 적용으로 8K@60Hz 출력이 가능해졌다는 점, 그래픽카드 최초로 AV1 코덱에 대한 하드웨어 디코딩을 지원한다는 점 등 암페어 아키텍처를 적용한 RTX 30 시리즈는 많은 부분에서 변화가 엿보입니다.









변화한 부분들을 종합했을 때, RTX 2080 SUPER와 RTX 3080은 꽤나 큰 성능 차를 보여줍니다. 쿠다 코어가 무려 2.8배 증가했으니 성능 향상도 당연하겠지만, 상대적인 성능이 1.5배에서 2배로 높아졌다니 놀랍습니다. RTX 기술 활성화 여부가 적혀 있지 않다고는 하나, 설령 적용했다고 치더라도 이전 세대 그래픽카드와 이 정도 성능 격차를 보이는 부분은 인상적입니다.









세션 01에서는 아키텍처에 대한 기본 설명을 진행한 후 울펜슈타인: 영블러드 게임을 통해서 RTX 성능을 분석했습니다. 여기서는 1 프레임을 생산하는 데 걸리는 프레임타임을 기준으로 소개했기 때문에, FPS 개념에 익숙한 분들은 조금 어렵게 느껴질 수 있습니다. 가장 먼저 소개된 내용은 RT 코어 및 텐서 코어가 없는 GTX 10 시리즈 플래그십 모델, GTX 1080 Ti에 대한 소개입니다. RTX 옵션을 적용하지 않은 전통적인 셰이딩 기반에서는 12 ms가 소요되니 프레임 레이트로 환산해보면 약 83 FPS가 나오는 셈이겠네요.


하지만 여기서 레이 트레이싱 옵션이 활성화되면 어떨까요? 12 ms였던 프레임타임이 무려 92 ms로 바뀝니다. 프레임 레이트로 환산하면 약 11 FPS 수준이니 무려 1/8 수준으로 떨어진 셈이죠. 별도의 RT 코어가 없으니 이 역할을 순전히 셰이더 유닛(CUDA 코어)이 담당해야 하므로 성능이 크게 떨어져 버리네요.






자, 그렇다면 이번에는 RTX 2080 SUPER와 비교해 봅시다. RTX 2080 SUPER는 SM 내에 RT 코어를 탑재하고 있지만, 여기서는 같은 조건으로 셰이더 유닛을 기반으로 한 성능 비교를 진행했습니다. 그럼에도 꽤 성능이 개선되었는데요. 튜링 아키텍처는 FP32 연산 유닛 외에도 INT32 유닛을 추가로 탑재했기에 연산 부하가 분배된 모습입니다. GTX 1080 Ti보다 RTX 2080 SUPER가 CUDA 코어 수는 더 적지만(3584 vs. 3072), 성능은 오히려 개선할 수 있는 이유이기도 하죠.








게다가 RTX 2080 SUPER는 RT 코어와 텐서 코어도 지니고 있습니다. 레이 트레이싱 가속을 위한 전용 ASIC 코어가 성능에 주는 영향은 굉장한데, 레이 트레이싱 옵션을 활성화했음에도 불구하고 옵션을 비활성화한 GTX 1080 Ti와 격차를 좁혀 나갑니다. 물론 19 ms 수준은 약 53 FPS에 해당하니 아직까지는 매우 만족스러운 성능은 아니겠네요. 하지만 DLSS까지 활성화해서 성능을 조금 더 끌어올린다면 13 ms, 약 77FPS까지 끌어올리는 게 가능합니다. 울펜슈타인: 영블러드는 DLSS 2.0을 지원해서 화질 열화도 적으니, GTX 1080 Ti와 근접한 화질에 레이 트레이싱 옵션까지 더해지면서도 게임 성능은 엇비슷하게 유지한다는 이야기입니다.











RT 코어 및 텐서 코어가 없는 GTX 1080 Ti와 RTX 2080 SUPER 성능 비교는 꽤 흥미로웠습니다. 그렇다면 암페어 기반 그래픽카드는 더 나아졌을까요? 결론부터 말씀드리자면 놀라울 정도로 성능이 개선됨을 확인할 수 있었습니다. DLSS 없이 단순히 레이 트레이싱만 활성화한 상태를 비교하더라도 19 ms vs. 11 ms로 차이가 꽤 극명하게 나뉩니다. 여기에 DLSS가 더해지고, 비동기 연산과 같은 2세대 RTX 기술이 버무려지면서 RTX 3080은 6.7 ms까지 그 차이를 벌리는 데 성공합니다. 프레임 레이트로 환산해본다면 약 149 FPS에 도달한 셈이니, 게임 경험 측면에서는 압도적이라고 볼 수 있겠네요.


NVIDIA에서는 슬라이드 도표로 성능 차이를 정리해두었는데, 모든 옵션을 활성화했을 때 차이는 최대 1.9배 수준입니다.











세션 01에서 두 번째로 다룬 내용은 RTX IO(Input/Output, 입출력)입니다. 최근 차세대 콘솔이 I/O 성능 개선을 위한 방법의 하나로 데이터 압축과 압축 해제에 대한 부분을 크게 강조하고 있습니다. 이를 뒷받침하기 위해서는 당연히 초고속 저장 장치도 필요합니다. 하지만 초고속 저장 장치 외에도 병목 현상이나 처리 과정 자체에서 생기는 비효율 문제 등 여전히 개선해야 할 문제는 많죠. 그래서 XBOX Series X에서는 Microsoft DirectStorage 기술을 이용해 데이터 입출력 간 병목 현상을 개선하겠다는 내용을 발표한 바 있고, 해당 기술은 Windows 10에도 적용하겠다고 이야기했습니다.


저장 장치 규격은 갈수록 빨라지고 있지만, 저장 장치를 활용하는 측면에서는 여전히 효율이 높지 않다는 문제가 있기에, 이 문제를 해결하고자 NVIDIA에서는 RTX IO라는 개념을 새롭게 도입했습니다.












RTX IO는 Microsoft DirectStorage 기술과도 밀접한 연관을 가지는데요. 전통적으로 데이터를 읽어오기 위해서는 압축된 데이터를 저장 장치에서 불러와 시스템 메모리에 적재하고, 여기서 압축 해제한 데이터를 GPU 메모리로 적재하는 순서를 밟습니다. 하지만 모든 I/O 방식이 그러하듯, 거치는 단계 수가 많고 복잡해지면 그만큼 처리 속도에서 손해를 볼 수밖에 없습니다. 특히 이런 처리 과정에 CPU가 반드시 포함되어야 하므로 CPU 연산 속도나 점유율도 중요하게 여겨졌죠


RTX IO는 처리 과정 자체를 CPU 대신 GPU로 바로 연결했다는 부분이 가장 큰 차이점입니다. 이렇게 되면 CPU 사용량 부문에서도 크게 이득을 볼 수 있고, 스케줄 관리 측면에서도 훨씬 효율적인 처리가 가능해지죠. 또한, 초고속 저장 장치를 이용하더라도 CPU에서 처리하면 앞서 말한 여러 요인들 때문에 속도에서 손해를 보게 되는데, RTX IO는 이런 부분에서도 최적화를 이룰 수 있다고 합니다.







온라인 세션에서 보여준 데모는 인상적이었는데요. NVMe 저장 장치를 GPU로 압축 해제할 때는 1.62초 만에 끝났지만, 같은 상태에서 CPU로 압축 해제를 시도하면 4.87초가 소요됐습니다. 하드디스크는 말할 필요도 없죠. 게다가 CPU는 24 코어를 지닌 AMD 라이젠 스레드리퍼를 이용했다고 하니, GPU 처리만으로도 속도 최적화를 이룰 수 있다는 방증으로 볼 수 있겠네요. 모든 영역에서 RTX IO가 속도 효율을 극한으로 끌어올릴 수 있을지는 알 수 없습니다. 하지만 점점 텍스처 용량이나 게임 자체의 덩치가 커지는 시대에 놓여 있는 현실도 되돌아볼 필요는 있습니다. 조금이라도 처리 속도를 개선하기 위해 NVIDIA가 내놓은 방안이 얼마나 효율을 끌어올릴 수 있을지는 아직 모르지만, 이런 시도 자체는 긍정적인 시선으로 보고 싶습니다.













어렵다면 어렵고, 지루하다면 지루한 아키텍처 소개 시간이 지나갔습니다. 이제는 조금 더 성능에 초점을 두어 살펴볼 차례네요. 먼저 소개하는 슬라이드는 70 라인업과 80 라인업끼리 비교한 표입니다. 단순히 셰이더 유닛만 비교하더라도 어마어마한 차이를 보이고, RT 코어나 텐서 코어 또한 큰 폭으로 증가했음을 알 수 있습니다. 그럼에도 불구하고 판매가는 동일 선상에 놓여 있네요. 물론 한 가지 유념할 점은 있습니다. RTX 20 시리즈는 파운더스 에디션이 $100씩 추가되었고, 실제로 소비자가 맞이하는 가격은 파운더스 에디션과 동급 혹은 그 이상이었기 때문입니다. 그렇기 때문에 소비자 시선에서 보자면 RTX 30 시리즈는 가격이 오히려 조금 더 하락한 셈이네요.


RTX 30 시리즈 가격은 RTX 20 시리즈와 동급 혹은 그 이하지만, 성능은 큰 차별점을 둡니다. RTX 2070과 RTX 3070을 1440p 해상도에서 비교하면 1.6배 정도 높은 성능을, RTX 2080과 RTX 3080을 2160p 해상도에서 비교하면 2배 정도 높은 성능을 얻을 수 있다고 합니다. 물론 RTX 옵션을 활성화한 상태도 포함되기에 흔히 '깡성능'이라고 부르는 일반적인 성능 격차는 조금 더 줄어들 수 있지만, 이 정도 차이만 하더라도 제법 충격적이라고 봅니다.








RTX 3080과 RTX 3090은 굉장히 독특한 외형 때문에 많은 이의 관심을 한 몸에 받았습니다. 쿨링팬이 그래픽카드 앞 · 뒤로 하나씩 장착된 특이한 모습인데요. NVIDIA에서는 이런 쿨링 형태가 흡기와 배기 흐름을 자연스럽게 따라간다고 슬라이드로 설명하고 있습니다. 사진 기준으로 왼쪽 하단에 달린 쿨링팬은 흡기한 공기를 브래킷 쪽으로 내보내고, 오른쪽 상단에 달린 쿨링팬은 방열판을 거쳐 공기를 끌어와 그래픽카드 위쪽으로 배기하는 형태입니다. 다만 배기로 보내진 공기가 CPU를 향하게 되니 CPU 쿨링 부분은 조금 걱정이 앞섭니다. 만약 공랭 CPU 쿨러를 이용한다면 그래픽 카드에서 나오는 더운 공기로 인해 CPU 쿨링 효율이 떨어질 수 있습니다. 반대로, 수랭 쿨러를 활용한다면 메모리나 전원부에 패시브 쿨링(간접 쿨링)을 기대하기 어려우므로 그래픽카드에서 나오는 더운 공기가 메모리나 전원부에 부정적인 영향을 줄지도 모르죠. 어느 쪽이건 시스템에 어떻게 작용할지 염려되긴 합니다.










주로 비레퍼런스 제품에서 볼 수 있던 플라워형 쿨링팬 2개, RTX 20 시리즈 파운더스 에디션이 지닌 이미지였습니다. RTX 3080과 RTX 3090은 쿨링팬 위치가 굉장히 독특한 형태라서 출시 전부터 많은 관심을 받았는데요. RTX 2080 SUPER와 RTX 3080 PCB 기판을 보면 크기에서도 상당히 차이가 납니다. 기판은 작아졌지만 GPU 크기는 오히려 더 커진 게 인상적이네요.










NVIDIA에서는 슬라이드를 소개하면서 '더 시원하고 더 정숙하다'는 부제를 당당히 내걸었습니다. 같은 발열량을 유지할 때 RTX 30 시리즈가 더 낮은 온도와 조용한 쿨링 소음을 보여준다는 이야기인데요. 다만, 이 그래프는 조금만 머리를 차갑게 하고 볼 필요가 있습니다. 이번 세대는 TDP(열 설계 전력; Thermal Design Power) 대신 TGP(그래픽카드 종합 소비전력; Total Graphics Power = TBP)를 적극적으로 내세우고 있습니다. 즉, 비교군으로 내세워진 두 그래픽카드는 출발선이 다를 수밖에 없다는 점을 기억해야 합니다. 이런 점을 고려하더라도 TDP 320W나 350W는 낮은 수치가 아닙니다. RTX 30 시리즈는 쿨링 성능이 이전 세대보다 더 개선되었다고 기대해봐야겠네요.










여러분은 최근 공개한 NVIDIA ULTIMATE COUNTDOWN 영상에서 어떤 부분이 가장 인상적이었나요? 저는 여러 가지 매력적인 요소가 많았다고 느끼지만, 그중에서도 꽤 인상 깊게 보았던 항목이 바로 8K 게이밍입니다. 현시점에서 보자면 4K 게이밍도 완벽히 정복하기 어려운데 8K 게이밍이라니, 굉장히 멀게 느껴지는 단어네요. 하지만 RTX 30 시리즈는 큰 폭으로 연산 성능을 끌어올렸고, 고해상도 게이밍에 대한 자신감을 당당히 내비췄습니다. RTX 관련 게임 소개에서 게임 종류나 숫자가 많이 늘어난 부분도 눈여겨볼 점이 아닐까 생각합니다. 당장 올가을만 하더라도 배틀로열 게임으로 유명한 포트나이트나 만인의 기대작 사이버펑크 2077, 최근 공개된 이후 큰 관심을 받는 콜 오브 듀티: 블랙 옵스 콜드 워, 곧 출시를 앞둔 와치 독스: 리전 등 RTX 기술을 지원하는 게임이 대거 등장을 기다리고 있습니다.











DLSS 2.0에 대한 사항도 발표 내용에 포함되어 있었는데요. 이미 퀘이사존에서도 한 차례 다루었지만, 기존 DLSS 1.0과는 비교가 무색할 정도로 DLSS 2.0은 우수한 화질과 개선된 성능이 인상적인 기술이었습니다. 해당 기술을 조금 더 폭넓게 적용한다는 사실은 RTX 그래픽카드를 활용할 유저 입장에서 반가운 소식이 아닐까 합니다.



NVIDIA DLSS 업데이트: 차세대 기술의 현주소 칼럼 보러 가기













8K 게이밍이 막연해 보이는 이유는 어마어마한 픽셀 처리량을 요구하기 때문입니다. 단적으로 4K 게이밍이 적절한 예시가 아닐까 하는데요. 3840 x 2160 해상도는 1920 x 1080 FHD 해상도 4개를 이어붙인 크기입니다. 1080p 해상도 픽셀량이 2,073,600개라면, 2160p는 4배에 해당하는 8,294,400개에 해당하죠. 그렇다면 8K 해상도는 어느 정도 크기인지 짐작이 가시나요? 맞습니다. 4K 해상도 4개를 이어붙인 크기입니다. 픽셀량은 2160p 해상도 x4에 해당하는 33,177,600개, 어마어마한 숫자가 아닐 수 없습니다. 이런 해상도에서 쾌적한 게임을 즐기기란 쉬운 일이 아닙니다.


하지만 NVIDIA는 발전한 DLSS가 불가능을 가능케 한다고 주장하네요. 가장 성능이 낮은 CONTROL을 기준으로 한다면, 8K 해상도에서는 RTX 3090을 사용해도 10 FPS 미만을 유지할 듯합니다. 하지만 DLSS를 활성화하면 무려 57 FPS까지 확보가 가능하다고 합니다. DLSS 2.0을 적용함으로 인해 게임 자체가 불가능하던 영역에서 제법 매끄러운 수준까지 끌어올릴 수 있다면, 매력적인 이야기로 받아들여집니다.








게이밍 영역과는 거리가 있지만, RTX 30 시리즈는 8K HDR 영상을 원활하게 재생할 수 있다는 점도 장점으로 내세우고 있습니다. 이를 가능케 하는 기능은 바로 AV1 하드웨어 디코딩 지원인데요. 차세대 오픈소스 기반 비디오 코덱으로 알려진 AV1은 라이선스 비용으로부터 자유롭기 위해 오픈 미디어 연합(Alliance for Open Media)을 중심으로 여러 업체가 뭉쳐 제작한 코덱입니다. 품질 면에서는 VP9이나 HEVC(H.265)보다 비트 레이트를 줄일 수 있어서 용량 대비 화질이 더 높습니다. 심지어 슬라이드에서는 H.264와 비교했을 때 50% 더 효율적이라고 분석하고 있네요. 하지만 그간 호환성이나 최적화 문제가 남았기에 제대로 활용하기는 어려운 코덱이기도 했습니다.


RTX 30 시리즈는 AV1 코덱을 하드웨어 디코딩으로 처리할 수 있는데요. 앞서 언급했던 비트 레이트 효율이 높기에 8K HDR 동영상도 CPU 자원을 크게 요구하지 않으면서 쾌적하게 플레이할 수 있으리라 기대해봅니다.











이번 칼럼에서 다룰 마지막 세션 내용은 RTXGI, 실시간 RT 글로벌 일루미네이션 기술(Real Time Ray Traced Global Illumination)입니다. 레이 트레이싱과 마찬가지로 글로벌 일루미네이션 옵션 역시 게임 성능에 큰 부하를 주는 존재입니다. 특히 레이 트레이싱 효과가 겹쳐지면 부하량은 더욱더 증가할 텐데요. NVIDIA에서는 RTX 30 시리즈 공개와 더불어 RTXGI 기술을 공개해, 성능 저하는 최소화하면서 더 역동적인 글로벌 일루미네이션 효과를 적용할 수 있다고 자신감을 내비치고 있습니다. 말보다는 감상이 이해가 빠르겠네요. 아래 링크를 이용해서 RTXGI 샘플을 감상해보시기 바랍니다.



NVIDIA RTXGI 샘플 동영상 보러 가기












레이 트레이싱이나 글로벌 일루미네이션 모두 빛에 관한 표현 방식입니다. 광원이나 광선이 어디에서 반사되고 비춰지는지 추적을 요구하고, 이는 시스템 사양을 높이는 원인으로 작용하기도 하는데요. 결국 두 기술을 독립적으로 떼어놓고 생각하면 안 된다는 이야기입니다.


그간 글로벌 일루미네이션은 LPVGI(Light Propagation Volumes Global Illumination) 방식이나 SVOGI(Sparse Voxel Octree Global Illumination) 방식을 주로 활용했습니다. 두 방식은 각자 장단점이 있지만, 방식에 관계없이 GI 옵션은 높은 시스템 사양을 요구합니다. RTXGI는 조명에 대한 레이 트레이싱이나 레이 캐스팅을 실시간으로 수행하는 데 최적화된 기술입니다. 다른 GI 방식과 달리 독립적인 해상도와 프레임 레이트를 적용한 비동기 방식으로 독립적인 처리를 한다고 합니다. 쉽게 말해, GPU 셰이더 유닛은 순수하게 게임 프레임 생성에 힘을 쓰고, 이와는 별개로 RT 코어 등이 RTXGI 연산을 처리한다는 의미입니다. 이런 구조적 이점으로 게임 성능 하락을 최소화할 수 있다고 하니 강점이 커 보입니다.


그렇다고 해서 RT 코어가 없으면 RTXGI를 사용하지 못하는 건 아니라고 합니다. 오히려 RT 코어를 지니지 않은 하드웨어에서도 충분히 빛을 발한다고 하는데요. RT 코어가 없는 GTX 10 시리즈나 구형 콘솔에서도 적용 가능하다고 하네요. RTXGI 그래픽 효과는 위 슬라이드에 포함된 스크린샷만으로도 충분히 알 수 있지 않을까 싶습니다. 간접 광이나 간접 그림자에 대한 처리에 특화되었다고 하니 조금 더 자연스러운 실내 표현 등을 기대해볼 수 있겠네요.


RTXGI는 이미 언리얼 엔진 4.25 버전에 포함되어 사용이 가능한 기술이라고 하니, 차후 등장할 언리얼 엔진 4 기반 게임이나 이미 출시했지만 업데이트로 해당 기술을 지원하는 게임이 등장한다면 조금 더 현실감 넘치는 그래픽으로 게임을 즐길 수 있는 세상이 오지 않을까 생각합니다.









마치며



칼럼을 작성하는 저도 방대한 분량에 꽤 애먹었지만, 여기까지 읽으신 여러분도 힘들었으리라 생각합니다. RTX 30 시리즈는 아직 출시까지 시간이 남은 제품입니다. 실물을 활용한 벤치마크 등으로 이야기를 전개하는 게 아니기 때문에 이해나 납득이 되지 않는 부분도 분명히 있을 겁니다. 하지만 기대감을 심어주기에는 충분한 내용이 아니었나 생각해 봅니다.


약 2년 만에 NVIDIA는 암페어라는 새로운 아키텍처를 들고 돌아왔습니다. 삼성 8 nm 제조 공정을 적용한 RTX 30 시리즈는 CUDA 코어를 비롯해 각종 연산 유닛을 혁신적으로 늘렸고, 게이밍 성능은 4K를 넘어 8K를 바라볼 수 있을 만큼 높아졌다고 자신감을 드러냈습니다. 많은 부분에서 변화가 존재하다 보니 기술을 하나하나 열거하기가 벅차기는 했지만, 암페어에 대한 궁금증이 이 칼럼으로 조금이나마 해소되었으면 합니다.







지포스 30 시리즈 테크 데이에 대한 첫 번째 소개는 여기까지입니다. 두 번째 소개는 세션 03과 세션 04에 대한 부분을 다루어볼 예정입니다. e스포츠나 성능 분석 도구, 크리에이터나 스트리머 관련 기능에 관심이 있다면 오히려 두 번째 소개가 더 유익할 수 있겠네요. 이제 RTX 3080과 RTX 3090 출시일까지 얼마 남지 않았는데요. 최근 조용했던 그래픽카드 시장에 RTX 30 시리즈가 큰 물결을 일으킬 수 있을지 기대하면서 온라인 세션에 대한 기획칼럼을 마무리하도록 하겠습니다.


지금까지 QM슈아였습니다.



지포스 30 시리즈 테크 데이 파트 2 보러 가기





퀘이사존의 저작물은 크리에이티브 커먼즈 저작자표시-비영리-변경금지 4.0 국제 라이선스에 따라 이용할 수 있습니다.​



댓글: 40

신고하기

신고대상


신고사유

투표 참여자 보기