퀘이사존 지포스 RTX 3080 벤치마크 - 게임 성능 집중 해부

80 라인, 역대급 성능 향상! 더이상 두렵지 않은 4K 해상도

QM벤치
452 64676 2020.09.16 21:10






퀘이사존 지포스 RTX 3080 벤치마크

암페어 아키텍처 첫 타자, RTX 3080의 존재감 넘치는 출발



안녕하세요. QM벤치입니다.


2020년 9월 16일 밤 10시, 오늘은 RTX 3080을 둘러싼 모든 성능 루머가 종식되는 날입니다. 엔비디아 차세대 그래픽카드이자 암페어(Ampere) 아키텍처 기반 최초의 지포스 그래픽카드, RTX 3080 성능 엠바고(Embargo)가 해제되기 때문이죠. 사실 이 날이 오기 전, 엔비디아가 얼티밋 카운트다운(Ultimate Countdown)이라는 거창한 타이틀을 내걸고 대략적인 성능을 홍보하기까지만 해도 많은 사람들이 반신반의하며 지켜보았습니다. 물론 엔비디아는 명실공히 GPU 분야 1위 기업이고, 늘 좋은 성능으로 시장을 선도하지만, 기대를 항상 만족시켜주었던 것은 아니었으니까요. 파스칼(Pascal) 아키텍처 세대, 지포스 10 시리즈는 엄청난 성능 향상으로 큰 인기를 얻었지만, RTX를 외치며 등장한 튜링(Turing)아키텍처, 지포스 20 시리즈는 성능 대신 엄청난 가격으로 실망스러운 모습을 보여주기도 했습니다. 이런 분위기 속에서 카운트다운 종료 후 지포스 스페셜 이벤트에 등장한 엔비디아 CEO, 젠슨 황(Jensen Huang)은 우리에게 희망의 메시지를 던졌습니다.





"RTX 3080은 $699에 RTX 2080 대비 최대 2배 성능"

"RTX 3070은 $499에 RTX 2080 Ti보다 빠르다"

"RTX 3090은 8K 게이밍이 가능한 BFGPU"


하나같이 중량감 넘치는 메시지입니다. 그리고 이를 지켜보던 수많은 이들은 열광의 도가니에 빠졌습니다. 역시 장사를 참 잘하는 엔비디아입니다. 분명 치밀한 계산과 철저한 마케팅 전략에 의해 완성되었을 정제된 멘트였고, 효과는 대단했습니다. 저 역시 흥분을 감추지 못했으니까요. 특히 RTX 3080은 당초 하드웨어 커뮤니티에 형성되던 예상 가격에 비해 확실히 저렴했으며, 성능 역시 튜링 세대와는 비교도 안 될 정도로 향상되었을 거란 기대를 갖게 해주었습니다. 하지만 생각해  봅시다. 분명 자사 제품을 홍보하는 자리였고, 엔비디아에게 젠슨 황이라는 인물이 가진 상징성과 가치를 고려해 본다면, 조금은 차갑고 냉정한 시선도 필요합니다. 본디 유리한 정보는 적극 어필하고 불리한 정보는 감추는 것이 기업 입장에서 기본 홍보 전략이라는걸, 여러분과 저는 잘 알고 있습니다.


그렇게 흥분의 시간이 지나고, 어느덧 퀘이사존 사무실에는 RTX 3080 파운더스 에디션(Founders Edition)이 도착했습니다. 실물이 주는 감동은 인터넷에 떠도는 픽셀 따위와 비교할 수 없었고, 그저 훌륭한 마감과 고급스러운 외형에 감탄할 뿐이었습니다. 그리고 성능 엠바고 해제까지 남은 시간은 결코 여유롭지 않았습니다. 찰나와 같던 감상을 뒤로하고 바로 테스트에 돌입할 수밖에 없었죠. '과연 RTX 2080 대비 최대 2배 성능이 맞을까?' 'RTX 2080 Ti와 비교하면 얼마나 좋을까?' '새로운 쿨러는 CPU나 메모리 온도에 얼마나 악영향을 줄 것인가?' 여러분과 똑같은 궁금증과 호기심을 품에 안은 채, 끝없는 숫자와의 싸움이 이어졌고, 이제 그 모든 결과를 여러분께 공개할 차례입니다. RTX 3080의 민낯을 말이죠.





▲ 엔비디아는 지포스 30 시리즈 출발로 RTX 3090, RTX 3080, RTX 3070을 공개하였다


엔비디아는 지포스 스페셜 이벤트에서 지포스 30 시리즈 중 3개 모델을 선공개하였습니다. 과거 80 Ti와 TITAN 시리즈 사이 그 어딘가 등급으로 추정되는 RTX 3090. 가격정책과 실질적인 구매 수요를 고려했을 때 최상위 등급인 RTX 3080. 마지막으로 RTX 2080 Ti보다 뛰어나다고 소개된 막내, RTX 3070입니다.


※ 참고: 엔비디아는 공식 슬라이드 이미지에서 RTX 3080에 과감하게도 플래그십(Flagship) 단어를 사용하며 칭했으나, 지포스 브랜드로서 RTX 3090이 어엿하게 존재하는 만큼, 퀘이사존은 이를 마케팅 용어 또는 수사적 표현으로 해석합니다.


지포스 30 시리즈의 가장 큰 변화는 아키텍처와 공정입니다. 이전 세대인 지포스 20 시리즈가 엔비디아 그래픽카드 최초로 실시간 레이트레이싱 연산 전용 RT 코어 및 RTX 기술을 강조한 튜링 아키텍처 GPU를 사용했다면, 지포스 30 시리즈는 더욱 개선된 성능 효율로 설계된 암페어 아키텍처 GPU를 탑재했습니다. 여기서 놀라운 사실은 GPU를 TSMC가 아닌 삼성 8 nm(8N NVIDIA Custom 공정) 공정으로 찍어냈다는 것이죠. 그동안 삼성의 엔비디아 GPU 생산 수주 루머는 끊이지 않았으나, 이렇게 하이엔드 그래픽카드에 사용되는 빅칩(다이 면적이 거대한 GPU)을 TSMC가 아닌 삼성에게 맡겼다는 것은 전례가 없었기에 신선한 충격이었습니다.


대규모로 증가한 CUDA 코어 수도 특징입니다. 발표 직전까지 루머로 떠돌던 CUDA 코어 대비 정확히 2배 규모를 자랑하며, 심지어 RTX 3090은 CUDA 코어 1만 개를 넘겼습니다. 도대체 무슨 일이 일어난 걸까요? 아래에서 이어질 암페어 아키텍처 섹션에서 다루도록 하겠지만, 간단하게 말하면 아키텍처가 암페어로 바뀌면서 SM 구성이 바뀌었고, CUDA 코어 정의 역시 바뀐 것에 기인합니다. 실제로 FP32 FLOPS 역시 엔비디아가 공언한 스펙대로 스루풋(Throughput) 수치가 나오는 걸 퀘이사존이 직접 확인하였습니다.




▲ 뭐? Big Fxxking GPU?? 아니, 그렇게 노린 건 맞지만 'Big Ferocious GPU'란다


가격 정책에 있어서는 엔비디아가 RTX 3090을 $1,499로 책정하면서 아주 교묘한 줄다리기를 시도하려는 의도가 보입니다. 전 세대와 비교하면 RTX 2080 Ti와 TITAN RTX 사이에 위치하는 가격이고요. 그래도 모든 유닛이 활성화된 풀칩 GPU는 아니기에 그나마 TITAN RTX($2,499)보다 RTX 2080 Ti($1,199)에 가까운 가격입니다. 대신 VRAM을 24GB로 구성하여 넉넉함을 어필하고 있죠. 사실 RTX 3090을 고려하고 계신 분들이라면 두 가지 통수 시나리오에 대비해야 할 것입니다. 아니, 엔비디아의 행보를 관심 있게 지켜봐오신 분들이라면 이미 잘 알고 계실지도 모르겠네요. 첫 번째는 RTX 3090 성능에 살짝 못 미치지만 가성비는 훨씬 뛰어난 RTX 3080 SUPER/Ti 출시 가능성일 것이고, 두 번째는 GA102 풀칩 GPU를 탑재한 상위 모델(RTX 3090 SUPER 또는 TITAN) 출시 가능성입니다. 물론 이 경우 해당 상위 모델이 $2,000를 초과하는 가격과 함께 TITAN 시리즈로 나온다면 해석하는 이에 따라서 통수가 아닐 수도 있습니다. 가성비에서 크게 차이가 나기 때문이죠.


현재 저를 포함한 많은 하드웨어 마니아들은 사실상 후자(RTX 3090 상위 모델 출시 통수)보다 전자 가능성을 높게 보고 있긴 합니다. 그래픽카드 시장 상황을 고려했을 때 엔비디아 입장에서 RTX 3090보다 상위 모델을 출시할 이유가 있어야 할 텐데, 그럴만한 이유를 찾기 힘들기 때문입니다. 어쨌든, 이런 시나리오와 관계없이 절대적인 성능에서 RTX 3090은 당분간 최강의 자리를 무리 없이 지켜낼 것입니다. 그리고 그런 가치를 추구하는 분들은 선뜻 지갑을 열 것이고요.



▲ RTX 3080: THE NEW FLAGSHIP, 'TWICE THE PERFORMANCE OF 2080'


다음은 $699 몸값을 가진 오늘의 주인공 RTX 3080입니다. 스펙상 RTX 3090과 엄청난 격차가 아님에도, MSRP는 절반이 채 되지 않습니다. VRAM에서 큰 차이가 있긴 하나 RTX 3080이 제공하는 10GB VRAM으로도 일반적인 상황에서는 VRAM 병목 현상(bottleneck)을 염려하지 않아도 됩니다. 게다가 이론적인 스펙 차이를 근거로 유추해보면 RTX 3090과 성능 차이는 커봤자 20% 수준에 머물 것으로 예상되기에 매력적인 모델로 기대를 받는 녀석이죠. 무엇보다 엔비디아가 첫 번째 엠바고 해제 타자로 자신 있게 내세운 만큼 확실한 무기를 가지고 있을 가능성이 큽니다.


그리고 이 대목에서 젠슨 황은 "3080은 2080 2배 성능이다" 메시지를 던지며, 장내 폭파 스위치를 눌렀습니다. 슬라이드 이미지에서도 'TWICE THE PERFORMANCE OF 2080' 문구가 당당하게 박혀 있습니다. 하지만 앞서 말했듯이 이 부분은 마음을 가라앉히고 냉정하게 생각해봐야 합니다. 2배라는 것이 속된 말로 '깡성능'을 말하는 것인지, 아니면 특수한 조건에서 극히 일부 상황을 말하는 것인지 말이죠. 만약 전자라면 게임에 따라서는 2배를 훌쩍 넘을 수도 있을 것이고, 후자라면 1.5~2배 범위 성능으로 나타날 것입니다.




▲ 분명히 난 'UP TO'라고 했다!


엔비디아가 이를 모를 리 없습니다. 자연스럽게 빠져나갈 구멍을 만들어 놓았습니다. 'UP TO'라는 마법의 단어를 통해서 말이죠. 즉 최대 2배입니다. 일반적인 상황에서는 얼마든지 그 이하로 성능 차이가 날 수 있다는 걸 암시합니다. 엔비디아가 직접 공언한 말이니 2배 성능이 나오는 상황이 존재하겠으나, 일반적인 성능 차이는 1.6~1.8배 사이로 추측하는 것이 경험상 적중 가능성이 높을 것입니다. 만약 그렇다고 해도 실망스러운 수준은 아닙니다. 오히려 굉장한 성능 향상입니다. 튜링과 비교했을 때는 말할 것도 없고 이 정도 성능 차이는 흡사 과거 파스칼의 재림을 연상케하는 수준이니까요. 그렇다면 암페어 아키텍처는 어떤 변화가 있었길래 큰 성능 향상이 가능했던 것일까요? 확인해 봅시다.





▲ RTX 3080에 탑재된 GA102 GPU 블록 다이어그램(6 GPC, 34 TPC, 68 SM)


성능 향상의 핵심은 개선된 아키텍처(Architecture)에 있습니다. 물론 제조공정이 미세화되면, GPU 아키텍처 변화 없이도 동일 면적에 더 많은 트랜지스터와 코어 유닛을 때려 박을 수 있기 때문에 절대 성능을 향상시킬 수 있습니다. 그러나 혁신이 부재된 발전은 감동을 주지 못합니다. 이를 잘 알고 있는 엔비디아는 튜링 아키텍처에서 부족했던 깡성능을 메꾸기 위한 핵심 설계로 암페어 아키텍처에서는 SM(Streaming Multiprocessor) 구조와 운용 방식을 대폭 변경하였습니다.




▲ 튜링 SM과 암페어 SM의 구조 변화 -> 2배로 늘었지만, 운용 방식이 달라져 2배 효율은 낼 수 없다.


GPU 아키텍처 설계에서 SM 구성은 알파이자 오메가입니다. 일명 셰이딩 유닛으로 불리는 FP32 유닛(단정밀도 부동소수점 연산)의 집합체 단위가 바로 SM입니다. 물론 FPS로 귀결되는 그래픽카드의 최종 성능은 아키텍처 설계 특성(유닛 구성 비율) 및 워크로드 구성, 나아가 물리적인 스펙까지 수많은 요인이 합쳐져 나타나는 결과이기에, 어느 한 요소를 콕 집어 이 녀석이 최고로 중요하다고 주장하기는 힘듭니다. 다만 FP32를 품에 안고 또 운용하는 SM은 결국 게이밍 성능의 기반이 되어주기 때문에 아주 중요한 요소 중 하나입니다. 하지만 게임에서 요구하는 셰이더(Shader) 워크로드 부하는 부동소수점(Floating Point, FP) 외에도 데이터 주소 지정 및 가져오기 작업 등 정수(Integer, INT) 연산이 혼합되어 있는 형태이기 때문에 비단 FP32 유닛뿐만 아니라 INT32 유닛이 꼭 필요합니다.


위 이미지를 참고하면 튜링 SM은 FP32 유닛과 INT32 유닛이 1:1 비율로 탑재되어 있음을 알 수 있습니다. 그리고 엔비디아는 FP32+INT32 유닛을 하나의 CUDA 코어로 묶어 정의하였습니다. 즉 튜링 아키텍처에서 말하는 CUDA 코어 1개는 FP32 유닛과 INT32 유닛을 합친 2개 유닛을 말합니다. 하지만 암페어 SM은 FP32/INT32 유닛 비율과 운용 방식을 완전히 바꿨습니다. SM 1개는 4개 파티션으로 나누어져 있는데, 여기서 단일 파티션을 뜯어보면 좌측은 FP32+INT32가 혼합된 유닛 16개가 존재하고 우측에는 FP32 전용 16개 유닛이 존재합니다. SM은 4개 파티션으로 구성되어 있으니까 이를 SM 1개 규모로 확장해서 생각해보면 FP32+INT32 혼합 유닛 64개와 FP32 전용 유닛 64개로 총 128개가 존재합니다. 이쯤에서 눈치채셨겠죠? 엔비디아는 이를 모두 CUDA 코어로 명명하였습니다. 결국 암페어 아키텍처는 스펙상 단일 SM에 128개 CUDA 코어로 계산(튜링 SM은 64개 CUDA)합니다. 68 SM을 가진 RTX 3080은 8,704(68x128) CUDA가 되는 것이고, 82 SM을 가진 RTX 3090은 10,496(82x128) CUDA를 가지게 된 것입니다.


기존 아키텍처 기준으로 생각하면, 단순히 CUDA 코어 상승분만큼 성능 향상을 바랄 수 없기 때문에, 그저 스펙만 웅장하게 보이려는 술책 아니냐고 반문할 수 있습니다. 저 역시 처음에는 뭔가 엔비디아의 꼼수가 작동한 건 아닐까 하는 느낌을 잠깐 받았으니까요. 하지만 막상 설계를 뜯어보고 난 후 생각이 바뀌었습니다. 이러한 CUDA 운용 방식 변화는 이론적으로 튜링 아키텍처 대비 훨씬 효율적인 설계이자 발전입니다.





잠시 전후 이해를 돕기 위해 튜링 아키텍처를 살펴보겠습니다. 튜링이 파스칼 대비 워크로드 효율이 뛰어났던 건 바로 부동소수점 연산과 정수 연산을 동시실행(concurrent execution)할 수 있다는 것이었습니다. 해당 특징 덕분에 최신 게임에서는 출시 초기보다 큰 성능 차이로 나타나기도 하고요. 반면 튜링 이전 셰이더 아키텍처는 부동소수점 연산 과정에서 정수 명령을 수행하게 되면, 부동소수점 연산을 위한 데이터 경로가 유휴 상태에 머물렀습니다.(즉 비FP 산술 명령이 떨어지면 손을 놓음) 이런 비효율성을 타파하고자 엔비디아는 수많은 워크로드 프로파일링을 통해, 부동소수점 연산이 100회 발생하는 동안 정수 연산은 평균 36회 발생한다는 데이터를 얻어내었고, 이를 기반으로 동시실행 워크로드를 구현했던 것이죠. 하지만 엔비디아가 직접 언급했듯 실행 명령 비율로 따지면 정수 연산보다는 부동소수점 연산 비율이 훨씬 큼에도 튜링 SM에 1:1 비율로 FP32/INT32 유닛이 전용 유닛으로 탑재한 것은 이상적인 효율에 한계가 있었습니다.




▲ 결국 암페어 SM 내 단일 파티션 CUDA 코어는 32개(2배)가 되었다


따라서 암페어 SM 구성 내 단일 파티션에서 좌측 16개 유닛은 FP32/INT32 연산을 선택 처리할 수 있게 하고, 우측 16개 유닛은 상시 FP32 연산 유닛으로써 작동하게 합니다. 이렇게 되면 단일 SM(4 파티션)이 FP32 유닛 128개에 달하는 연산 능력을 달성하거나 또는 INT32 유닛 64개 + FP32 유닛 64개가 합쳐진 연산 능력을 가질 수 있습니다. 상황에 따라 운용 방식을 바꾸는 것이죠. FP32 연산만 필요한 상황이라면 128개 CUDA 코어가 모두 FP32 유닛으로 작동하게 되고 이 경우 RTX 3080은 29.8 TFLOPS라는 엄청난 연산 성능을 얻을 수 있습니다.(RTX 2080 Ti FE=14.2 TFLOPS, Xbox Series X=12.1) 반면, INT32 유닛이 꼭 필요한 상황(게임 등)이라면 FP32 유닛 16개는 고정으로 가져가고, FP32/INT32 혼합 유닛을 튜링 SM보다 유연하고 효율적으로 운용할 수 있습니다. 아키텍처 운용 방식 차원에서 분명 진보된 방식이죠.


결과적으로 엔비디아는 FP32/INT32 혼합 유닛 영역까지 모두 개별 CUDA 코어로 명명함으로써, 보는 사람 입장에서는 기존 아키텍처 대비 숫자가 과장되어 보이는 측면이 있습니다. 그러나 결국 소비자에게 중요한 건 가격과 절대 성능이죠. 서로 다른 아키텍처 간에 스펙상 드러난 숫자를 근거로 성능을 유추하는 건 정확성이 떨어질 수 있다는 차원으로 이해하시면 되겠습니다.(실 예로 RTX 3070 CUDA 코어는 5,888개로 RTX 2080 Ti의 4,352개 대비 무려 35% 많은 것이지만, 이러한 차이는 실질적인 게임 성능 차이에 그대로 대입할 수 없음)


※ 아래와 같이 튜링과 암페어의 단일 SM 데이터패스 개요를 간단한 식으로 표현할 수 있습니다.


튜링 SM 데이터패스 = (16 FP32 + 16 INT32) x 4 파티션 = 64 FP32 + 64 INT32

암페어 SM 데이터패스 시나리오 #1 = (16 FP32 + 16 INT32) x 4 파티션 = 64 FP32 + 64 INT32

 암페어 SM 데이터패스 시나리오 #2 = (16 FP32 + 16 FP32) x 4 파티션 = 64 FP32 + 64 FP32 = 128 FP32




▲ 암페어 아키텍처 - 2세대 RTX


앞서 설명한 바와 같이 암페어 아키텍처는 새로운 SM 설계로 FP32 연산 스루풋(Throughput)이 개별 SM 단위에서 2배로 증가하게 되었고, 2세대 RT 코어와 3세대 텐서 코어로 기존 아키텍처 대비 개선된 연산 처리 프로세스가 가능합니다. 물론 이외에도 다양한 개선점이 존재하는데요. 상세한 내용은 QM슈아의 지포스 30 시리즈 테크 데이 기사를 참고해 주시기 바랍니다.


※ 참고 기사: RTX 30 시리즈 자세히 들여다 보기, 지포스 30 시리즈 테크 데이(링크)






▲ RTX 3080 FE 10GB 및 주요 그래픽카드 상세 스펙


지포스 RTX 3080 파운더스 에디션(Founders Edition, 이하 FE) 상세 스펙입니다. 이번 RTX 3080은 FE와 레퍼런스 모델을 구분 지어 가격과 스펙을 달리하지 않았기 때문에, 표에 나타난 내용이 그대로 레퍼런스 스펙입니다. 그래픽카드의 두뇌에 해당하는 GPU부터 확인해보죠. RTX 3080은 80 라인 모델로서는 굉장히 오랜만에 빅칩 기반 GPU, GA102를 탑재했습니다. 개인적인 평가 기준으로는 2010년 페르미(Fermi) 아키텍처 기반 GTX 580 이후 10년만으로 느껴집니다. 2013년에 빅칩 GPU 기반 GTX 780 모델이 존재하긴 했으나 지포스 700 시리즈는 지포스 600 시리즈의 케플러(Kepler) 아키텍처를 재탕하고 라인업을 개편하여 세대를 구성했기 때문에 여기서는 논외로 하겠습니다. 새로운 아키텍처와 함께 등장하는 80 모델에 기준을 두었을 때 최초란 의미입니다. 그만큼 엔비디아가 RTX 3080의 성능과 상품성에 큰 힘을 실어줬다는 판단입니다. 또한 AMD 빅나비(Big Navi GPU) 라데온 그래픽카드를 의식했을 가능성도 배제할 수 없습니다.


GPU 코드명은 GA102-200-KD-A1, 중간에 백 단위 숫자가 200입니다. 일반적으로 풀칩 GPU는 400, 풀칩에서 1단계 규모로 커팅 된 칩이 300, 2단계 규모로 커팅된 칩이 200 숫자를 가지게 되는데요. 해당 법칙에 따라 RTX 3080과 동일한 GA102를 탑재하고 더 많은 유닛(=풀칩에서 더 적게 잘려나감)을 가진 RTX 3090은 GA102-300 코드명을 갖게 될 것입니다. 컴덕후 분들이라면 컷칩이 아쉽게 느껴질 수 있으나, 엔비디아는 과거에 비해 풀칩 GPU를 '지포스' 그래픽카드로 내놓는 것에 굉장히 인색한 행보를 보이고 있습니다. 사실상 2013년 GTX 780 Ti 이후 명맥이 끊어졌기 때문이죠.


RTX 3080의 CUDA 코어는 유닛을 운용하는 방식과 정의를 바꿨기 때문에 8,704개로 전 세대에 비해 크게 늘었습니다. RT 코어는 RTX 2080 Ti와 동일하지만 알고리즘이 향상되어 더욱 개선된 성능을 기대할 수 있겠네요. 반면 텐서 코어는 오히려 절반 수준으로 줄어들었습니다만, 효율성을 개선한 3세대 텐서 코어를 갖췄기 때문에 동일선상에서 비교하기 힘듭니다. 인상적인 건 3D 게임 모니터 출력(렌더링 프로세스) 과정에서 마지막을 담당하는 매우 중요한 스펙 지표, ROPs가 RTX 2080 Ti의 88개보다 많은 96개를 갖춰 매우 고무적입니다. 고해상도 게이밍 성능에서 큰 힘이 되어줍니다.




▲ 세계에서 가장 빠른 그래픽 메모리, 그것은 GDDR6X


메모리 사양에서도 큰 변화가 있습니다. 마이크론 GDDR6X를 탑재하여 19 Gbps에 달하는 속도를 갖게 되었습니다. 매우 빠른 메모리 속도는 결국 메모리 대역폭에 큰 도움을 주게 되는데요. RTX 2080 Ti은 352-bit 메모리 버스로 616 GB/s 대역폭을 확보하지만, RTX 3080은 320-bit임에도 GDDR6X의 높은 데이터 전송속도를 통해 무려 760 GB/s를 확보하게 됩니다. 그러나 메모리 용량은 RTX 2080 Ti 대비 1GB가 줄어들어 10GB를 가지게 되었습니다. 물론 RTX 2080과 비교했을 때 2GB가 더 많긴 하나 GPU 성능을 감안했을 때 다소 아쉬운 감은 있습니다. 출력 포트 인터페이스도 최신 버전을 지원합니다. 특히 게임용 그래픽카드로는 최초로 최강 대역폭을 자랑하는 HDMI 2.1 인터페이스를 지원하여 4K/HDR/고주사율 그리고 8K 디스플레이 환경까지 폭넓은 환경 구성이 가능합니다.





많은 이들의 궁금증을 자아냈던 보조 전원 단자는 8핀 단자 2개를 파운더스 에디션 패키지에 동봉된 변환 케이블(8핀 x2 -> 12핀)에 삽입하여, 최종 12핀으로 입력받는 구조입니다. 비레퍼런스 그래픽카드는 12핀 규격을 꼭 고집할 필요가 없기 때문에 8+8핀 구성의 보조 전원 단자 구성이 주를 이룹니다. 어쨌든 이와 별개로 그동안 엔비디아 그래픽카드의 TDP/TGP 수준이 250W 전후를 지켜왔지만, 지포스 30 시리즈를 기점으로 한두 단계 위로 상승하였습니다. RTX 3080의 TGP(Total Graphic Power)가 무려 320W에 달하기 때문이죠. 엔비디아는 인텔 i9-10900K 시스템 기준, 750W 이상 파워서플라이를 권장하고 있습니다.


스펙은 이 정도에서 마무리하도록 하고, 이제 벤치마크 결과를 살펴볼 차례입니다.





▲ 퀘이사존 지포스 RTX 3080 벤치마크 시스템 사양


지포스 RTX 3080은 현존 최고(RTX 3090 출시 전까지)의 게이밍 성능을 보여줄 것임이 분명하기에 벤치마크 시스템 역시 CPU 병목현상을 최소화할 수 있도록 구성하였습니다. 비록 아직까지 PCIe 4.0을 지원하지 못하고 PCIe 3.0에 머무르고 있긴 하나, 자타공인 최강 게이밍 CPU인 인텔 코어 i9-10900K OC 5.0 GHz 설정입니다. 각 그래픽카드 성능 편차를 가늠함에 있어 이상적인 시스템입니다. 그럼에도 불구하고 FHD 급 해상도에서는 CPU 드로콜(drawcall) 병목 현상으로 각 그래픽카드 성능 차이가 줄어드는 걸 피할 수 없을 것입니다. 이를 감안하여 고급형 그래픽카드 성능 벤치마크는 4K/UHD 해상도를 중점적으로 참고하는 것이 좋습니다.



※ RTX 3080 벤치마크 시스템 후원사 특별 협찬


인텔공인대리점: 인텔 코어 i9-10900K 어벤져스 에디션(기사 링크)


게임이 포함되어 있지 않은 인텔 코어 i9-10900K 어벤져스 에디션입니다. 사실 냉정하게 말하면 단순히 패키지 껍데기가 바뀐 수준으로 볼 수도 있겠지만, 마블 코믹스를 좋아하는 분들이라면 구미가 당길 수 있는 매력적인 컬래버레이션 제품이죠. 자세한 내용은 QM슈아의 퀘이사리포트를 참고해 주시기 바랍니다.



인텍앤컴퍼니: ASUS ROG MAXIMUS XII APEX 인텍앤컴퍼니(기사 링크)


ROG 그리고 APEX. 마법의 조합과도 같은 두 단어입니다. 특히나 메모리 오버클록에 있어서는 기능성과 성능을 이미 입증한 제품이기도 하고요. 실제로 퀘이사존 자체 테스트 결과 메모리 오버에서 최고 클록을 뽑아냄에 있어 이 녀석을 능가하는 제품은 아직 경험해보지 못했습니다. 퀘이사존 기사를 놓쳤던 분들은 링크를 통해 확인해 보시기 바랍니다.




서린씨앤아이: G.SKILL TRIDENT Z ROYAL DDR4-3,200 CL14 16GB x2(기사 링크)


일명 보석 메모리로 통하는 지스킬 트라이던트 Z 로열 시리즈. 이제는 모르는 분들을 찾기 힘들 정도로 유명한 제품입니다. 최초 해당 제품이 등장했을 때는 특유의 고급스러운 디자인에 녹아든 화려한 보석 RGB LED가 충격적이기까지 했죠. QM슈아의 가장 최신 트라이던트 Z 로열 칼럼을 통해 성능과 외형의 진면목을 확인해 보시기 바랍니다.



서린씨앤아이: PATRIOT VIPER VPN100 M.2 NVMe 2TB(기사 링크)


벤치마크 시스템은 수십종 게임을 한꺼번에 테스트해야 하기 때문에, 고용량 SSD는 필수입니다.(특히 콜옵 이 xxx) 그래서 준비한 SSD가 바로 PATRIOT 바이퍼 게이밍(VIPER GAMING) 저장장치, VPN100 NVMe 2TB 모델입니다. 용량도 용량이지만, 알루미늄 방열판을 기본 장착하고 있다는 점에서 발열로 인한 스로틀링 걱정을 한시름 놓게 됩니다. 또한, 해당 제품은 QM달려가 냉철한 시각으로 분석한 칼럼도 등록되었으니 참고해 주시기 바랍니다.





▲ RTX 3080 벤치마크에 동원된 게임 목록


이번 RTX 3080 벤치마크는 3D 게임 성능을 다방면으로 알아보기 위해 게임 타이틀 역시 수십종으로 구성하였습니다. 소위 '깡성능'을 측정하기 위해 20종 게임을, 레이트레이싱(Ray Tracing)과 DLSS(Deep Learning Super Sampling)로 대표되는 RTX 게임 성능 측정을 위해 5종 게임을 마련하였습니다. 깡성능 테스트를 위한 게임들은 그래픽카드 성능 벤치마크로 상징성이 높은 게임 타이틀, 게이머들에게 인기가 높은 게임, GPU 최적화가 좋은 게임 등 다양한 기준을 통해 선정한 결과입니다. 덕분에 렌더링 API 종류도 다양성을 띠게 되었습니다. 기본적으로 3종 해상도(FHD/QHD/4K) 조건에서 테스트를 진행하며, RTX 게임 성능은 기술 구현에 따른 성능 변화 파악에 우선순위를 두어 QHD/4K 해상도 한정으로 테스트를 진행하였습니다.



※ 아래 내용부터는 벤치마크 테스트 결과로 이어집니다.

항목별 구체적인 테스트 결괏값은 세부 페이지에서 확인해 주세요.




수많은 루머를 양산하고 또 많은 이들이 궁금해했을 3DMark Fire Strike 일명 '파스' 점수입니다. 네 44.4K로 나왔네요. RTX 2080 Ti FE와 비교하면 25% 높고, RTX 2080 FE와 비교 시 57.5% 높은 점수입니다. 이  차이를 그대로 게임 성능 차이로 해석해도 될까요? 아닙니다. 사실 파스 기본 프리셋 성능은 하이엔드 그래픽카드의 평균 성능이 크게 발전한 현시점에서 정확성이 점점 떨어질 수밖에 없습니다. RTX 3080만 해도 수백 FPS를 내어주기 때문에 GPU 본연의 성능을 최대한 쥐어짜기 힘들기 때문이죠. 즉 CPU와 메모리 기타 부품 구성 요소에 따라 수백에서 수천에 이르는 점수 차이가 발생할 수 있습니다. 이는 본 벤치마크 말미 PCIe 4.0 vs. PCIe 3.0 플랫폼별 성능 비교에서 확인하실 수 있습니다.





DX12 API 기반 게임 성능을 대변하는 3DMark Time Spy 일명 '타스' 점수입니다. 18.4K로 측정되었습니다. RTX 2080 Ti FE와 비교 시 26.9%, RTX 2080 FE와 비교 시 65.5% 높은 성능입니다. 파스 대비 점수 차이가 커졌습니다. 최소 두 가지 원인을 꼽을 수 있는데요. 첫 번째는 파스 대비 GPU 연산량이 높아(=최종 렌더링 FPS가 더 낮음) 그래픽카드 본연의 성능 편차를 더 잘 드러낼 수 있고, 두 번째는 API가 달라져 아키텍처에 따른 성능 효율이 달라지는 것입니다. 물론 3DMark 역시 수많은 3D 프로그램 중 하나에 불과하기 때문에 모든 DX12 게임 성능을 대변할 수는 없습니다. 어디까지나 많은 이들이 사용하는 기준 툴로써 상호 간 성능 비교가 용이하다는 것에 가치가 있습니다.





타스 기본 설정 외에도 4K/UHD 해상도 성능을 측정하는 3DMark Time Spy Extreme를 테스트에 포함하였습니다. 또한 RTX 3080이 공개되기 전 타임스파이 익스트림 점수를 근거로 성능 루머가 많이 퍼졌기 때문에 과연 루머가 맞는지 비교해보는 흥미로운 관점도 가질 수 있습니다.


(링크1)(링크2)


해당 루머에서는 파스 익스트림 점수가  약 8.5~8.6K 수준으로 알려졌는데요. 퀘이사존 측정 결과 점수인 9.2K와 비교 시 차이는 존재하나 아예 허무맹랑한 루머로 보이지는 않습니다. 만약 유출이 사실이라면 공식 프레스 드라이버가 아닌 초기 빌드 드라이버가 제성능을 끌어내지 못했을 가능성도 존재하고, 시스템 구성에 따른 편차도 생각해볼 수 있기 때문이죠. 어쨌든 RTX 3080 타스 익스트림 점수로 보아 곧이어 출시될 RTX 3090은 무리 없이 1만 점을 쉽게 넘길 것으로 예상됩니다.





마이크로소프트의 DirectX Raytracing, 줄여서 DXR입니다. DXR은 DX12 API 확장 기능으로써 실시간 레이트레이싱 연산을 위한 윈도우 10 표준이기도 합니다. 3DMark Port Royal이 DXR로 레이트레이싱을 구현하며, RTX 지포스 그래픽카드의 레이트레이싱 연산 능력을 측정해볼 수 있습니다. 성능 측정은 2종 옵션으로 나누어 진행했는데요. 첫 번째는 기본 설정 점수이고 두 번째는 레이트레이싱 관련 옵션을 비활성화했을 때 점수입니다. 점수 차이가 작을수록 레이트레이싱에 대한 부담이 작다는 뜻이고 동시에 미래지향적인 아키텍처라는 뜻도 됩니다.


RTX 3080 FE의 포트로열 점수는 1만 점을 가볍게 돌파하며, 최상의 성능을 입증하고 있습니다. RTX 2080 Ti FE 대비 32.8%, RTX 2080 FE 대비 79.3% 높은 점수입니다. 다른 3DMark 측정 툴과 비교하여 가장 극적인 성능 차이를 보여주네요. 옵션에 따른 성능 차이를 살펴보면 아키텍처에 따라 그 양상이 확연히 달라지는데요. 아래 그래프를 통해 좀 더 명확히 파악할 수 있습니다.





위 그래프는 레이트레이싱 옵션 해제 시 점수를 레이트레이싱 옵션 적용 시 점수로 나눴을 때 백분율 수치를 정리한 것입니다. 퍼센티지가 높을수록 레이트레이싱 옵션에 대한 부담이 작다는 것을 의미합니다. RTX 3080 FE는 94%를 기록하였고 튜링 아키텍처 기반 모델들은 대략 86~88%를 기록합니다. 그리고 그 이전 세대 아키텍처로 갈수록 퍼센티지는 급격하게 낮아집니다. 다만 포트로열 렌더링 씬 자체가 레이트레이싱으로만 도배된 것은 아니기 때문에, 해당 수치 자체를 레이트레이싱 연산 효율로 그대로 해석할 수는 없습니다.






다음은 RTX 핵심 기술 중 하나인 DLSS 성능 테스트입니다. 3DMark에서는 DLSS 기능 테스트를 위해 DLSS 적용 유무에 따른 성능 차이를 보여주는데요. 본 벤치마크는 4K 해상도를 기준으로 합니다.




DLSS 적용에 따른 성능 향상을 그래프로 정리해 보았습니다. 여기서는 의외로 RTX 3080 FE가 꼴찌를 기록하고 있습니다. 여러 요인을 생각해볼 수 있겠지만, 다만 엔비디아에 의하면 DLSS 2.0 패치가 아직 적용되지 않았다는 언급이 있었기에 차후 업데이트가 완료되면 재테스트를 실시하도록 하겠습니다.





해당 그래프는 각 게임에서 RTX 2080 FE 성능(평균 FPS)을 100% 두었을 때, 나머지 그래픽카드의 상대 성능을 계산하고 이를 20종 게임으로 확장하여 평균값을 도출한 그래프입니다. RTX 게임 성능을 제외했기 '깡성능'으로 이해하시면 됩니다. 결과를 보면 최상위 성능을 가진 그래픽카드답게 해상도가 높아질수록 상대 성능 격차가 큰 폭으로 벌어집니다. 테스트 시스템에 장착된 CPU가 무려 i9-10900K OC 5.0 GHz 설정임에도 불구하고 말이죠. 반대로 말해서 중저사양 CPU를 장착하면 FHD/QHD 해상도 환경에서는 성능 격차가 더 줄어들 것입니다.


4K/UHD 해상도 기준으로 RTX 2080 FE 대비 평균 170.9% 성능을 달성하였습니다. 그래픽카드 세대간 동일 라인업 성능 차이가 이 정도로 크게 났었던 적은 흔치 않았기 때문에 매우 인상적입니다. 그야말로 폭발적인 성능 향상입니다. 전세대 최강 지포스 그래픽카드, RTX 2080 Ti FE와 비교해도 약 33% 높은 성능입니다. 이 정도 성능 차이는 RTX 2080 FE와 RTX 2080 Ti FE 성능 차이보다도 더 거대하기 때문에, RTX 2080 Ti FE를 설사 오버클록하더라도 RTX 3080 FE 성능을 따라잡기란 불가능에 가깝습니다.






▲ 파스칼부터 암페어까지 역대 80 라인 모델 성능 향상 정리(가격과 성능은 모두 FE 기준)


과연 이번 암페어만 특별했던 것일까요? 잠시 과거로 시선을 돌려 파스칼 아키텍처 세대(지포스 10 시리즈)부터 성능 향상을 살펴볼 수 있는 표를 제작하였습니다. 성능 향상 기준은 공평하게 신제품 엠바고 해제 시점 퀘이사존 4K 해상도 벤치마크로 정했습니다. 많은 분들이 괜히 파스칼을 외치는 것이 아니죠. GTX 1080 출시 당시 성능 향상은 지금 봐도 정말 대단합니다. GTX 980 대비 68.6% 높은 성능과 GTX 980 Ti 대비 30.2% 높은 성능을 보여줬으니까요. 가격은 FE 기준 $699로 출시되었습니다.


반면 여러분들이 잘 아시는 지포스 20 시리즈는 파스칼 대비 성능 향상 폭이 작음에도 가격은 큰 폭으로 상승하였습니다. RTX 2080 FE 기준 GTX 1080 Ti 대비 $100가 상승했음에도 깡성능은 고작 6.3% 향상입니다.  GTX 1080 FE와 비교하면 40.9% 향상이었고요. 새로운 세대 그래픽카드 가성비가 이 정도로 나빴던 적이 있었을까 생각해봐도 잘 떠오르지 않습니다.


그리고 이번 지포스 30 시리즈를 봅시다. $699 RTX 3080은 파스칼을 연상시킬 만큼, 아니 그 이상의 성능 향상을 보여줬습니다. 물론 전 세대 성능 향상이 시원치 않았다는 이유도 꼽을 수 있겠지만, 이번에는 전 세대 그래픽카드가 워낙 고가였기에 가격 차이까지 고려하면 그 충격은 훨씬 크게 다가옵니다. 파스칼 때야 GTX 1080 성능이 훌륭하긴 했으나 FE 가격이 GTX 980 Ti보다 높았습니다. 그러나 RTX 3080은 RTX 2080 Ti FE 가격의 58.3% 수준에 33% 더 높은 성능을 제공하니까요. 참으로 드라마틱한 변화입니다.






깡성능을 다각도로 살펴보았으니 RTX 게임 성능을 살펴볼 차례입니다. 각 게임의 구체적인 FPS 결괏값은 본 칼럼 7 페이지를 참고해 주시기 바랍니다. 테스트는 각각 레이트레이싱(Ray Tracing, 이하 RT)/DLSS 옵션 적용 유뮤에 따른 성능 차이를 확인하는 것에 목적을 둡니다. 단 게임에 따라서는 RT/DLSS 옵션을 독립적으로 조절하지 못하고 세트로 구성된 경우도 있기 때문에 이 경우에는 단독 DLSS 성능을 제외하였습니다.



1. RT on + DLSS off 4K 성능


DLSS를 제외한 순수 RT 옵션 적용 시 게임 성능입니다. 아무래도 2세대 RT 코어를 탑재한 RTX 3080 FE 성능이 돋보일 수밖에 없죠. 결과적으로 RT 옵션 적용 시 성능은 RTX 2080 FE 대비 2배까지는 아니지만 1.9배 이상의 성능을 보여주었습니다. 또한, 해당 성능은 RT 옵션 적용에 따른 성능 하락 비율과 밀접한 관계가 있기 때문에 차후 RT 옵션을 더욱 적극적으로 사용하는 게임이 출시된다면 상대 성능 차이는 더 커질 것입니다.



2. RT on + DLSS on 4K 성능


이번에는 RT/DLSS 옵션을 모두 활성화했을 때 게임 성능입니다. 전 세대 그래픽카드와 성능 차이는 좀 더 줄어듭니다. DLSS로 인해 절대 성능이 상승(FPS 수치가 자체가 높아짐)하면서 GPU 병목이 완화되는 이유 그리고 DLSS 최적화가 아직 완벽하지 않을 가능성을 꼽을 수 있습니다.



3. RT off + DLSS on 4K 성능



RT 옵션을 제외한 순수 DLSS 적용 시 성능 비교입니다. 깡성능 비교 때보다도 성능 차이가 줄어들어, 현재 게임들에서 RTX 3080 DLSS 성능 향상 효율이 최적화되지 않았다는 것을 말해줍니다.




▲ PCIe 4.0이 적용된 RTX 3080 FE GPU-Z 화면(좌: 인텔 Z490 플랫폼/우: AMD X570 플랫폼)


지포스 30 시리즈는 이전 세대와 달리 PCIe 4.0 인터페이스를 지원합니다. PCIe 4.0은 라데온 RX 5000 시리즈가 먼저 지원한 바 있긴 하나, 유의미한 성능 차이를 내어주지는 못했죠.(미세한 차이로 PCIe 4.0 성능 우위) 그러나 RTX 3080 FE은 RX 5700 XT과 비교할 수 없는 매우 뛰어난 성능을 가진 물건입니다. 그렇다면 혹시 RTX 3080 FE는 어떨까요? '실질적인 성능 차이를 보여주지는 않을까?' 이런 궁금증에서 기획한 테스트입니다.


단 테스트를 위해서는 다양한 플랫폼 환경 구성이 필요합니다. 인텔은 아직까지 PCIe 4.0을 지원하는 플랫폼이 존재하지 않기 때문이죠. 따라서 AMD 플랫폼을 동원하였습니다. 현재 AMD 라이젠 CPU 플랫폼은 X570/B550 칩세트 마더보드에서 PCIe 4.0을 누릴 수 있습니다. 가장 최신 라이젠 CPU, R9 3900XT/R9 3800 XT 2종을 준비하였고, UEFI 설정을 통해 PCIe 4.0과 3.0을 오가며 테스트를 진행하는 방식입니다. 이를 통해 PCIe 버전에 따른 RTX 3080 성능을 확인할 수 있으며, 나아가 인텔 플랫폼과 비교를 통해 PCIe 버전에 따른 성능 차이가 무시할만한 수준인지 판단할 수 있습니다.



1. 3DMark Fire Strike 1.1

※ 변인 통제를 위해 3DMark 구동 시작 시 아이들 GPU 온도를 모두 동일하게 설정


가장 먼저 3DMark Fire Strike 그래픽 점수입니다. RTX 3080 그래픽 점수가 낮게는 41.9K 높게는 44.6K까지 분포하게 됩니다. 라이젠은 PCIe 4.0이 조금이라도 더 높은 성능을 보여주는 게 확실합니다. 다만 체감 성능 차이로 이어질만한 수준은 아닙니다. 인텔 CPU는 PCIe 3.0이라도 라이젠 CPU 점수를 가볍게 능가하기 때문에 그 의미는 더욱 옅어집니다.


한 가지 인상적인 건 노오버 상태에서는 비교군에 포함된 그 어떤 CPU도 44K 벽을 넘지 못했다는 사실입니다.(단 벤치마크에 쓰인 샘플 한정, 동일 모델이라도 RTX 3080 GPU 전압/부스트 특성에 따라 달라질 수 있음) 유일하게 44K를 넘기는 상황은 i9-10900K를 오버했을 경우입니다. 단 노오버 상황에서 i5-10600K 점수가 소폭이라도 더 높았기 때문에, 하위 모델 인텔 CPU 오버클록 설정이 i9-10900K와 동급 또는 그 이상의 점수 달성 가능성도 존재합니다. 어차피 파스 그래픽 점수는 4 코어 이상 CPU 환경이라면 스레드 개수보다는 높은 클록 주파수와 IPC가 더 중요한 변인으로 작용하기 때문입니다.



2. 3DMark Time Spy 1.2


※ 변인 통제를 위해 3DMark 구동 시작 시 아이들 GPU 온도를 모두 동일하게 설정


3DMark Time Spy 그래픽 점수입니다. 여전히 i9-10900K OC + PCIe 3.0 조합이 가장 높은 성능이라는 건 변함없습니다. 그러나 라이젠 CPU 플랫폼 평균 그래픽 점수가 인텔 대비 높다는 것이 인상적입니다. PCIe 3.0을 적용하더라도 꾸준히 18K를 상회하지만, 인텔 CPU는 18K 미만입니다. 한 가지 특이한 점이라면 인텔은 오버클록을 통한 그래픽 점수 향상이 확실한데, R9 3900XT는 오버클록을 적용해도 점수 향상이 미미한 수준입니다.



3. 3DMark Port Royal 1.2

※ 변인 통제를 위해 3DMark 구동 시작 시 아이들 GPU 온도를 모두 동일하게 설정


레이트레이싱 성능 측정 툴인 3DMark Port Royal은 어떨까요? 동일한 DX12 API 기반이라 그런지 타스와 동일한 양상을 보여줍니다. 전반적으로 테스트에 활용된 CPU 기준에서는 아래와 같이 정리할 수 있습니다.


1. PCIe 4.0 vs. 3.0 차이는 분명 존재한다. 하지만 그 차이가 의미를 가질 수준은 아니다.

2. 파스 점수놀이: PCIe 버전이고 뭐고 인텔 CPU 오버가 최고로 좋은 점수를 내어준다.

3. 타스/포로 점수놀이: 노오버 조건은 라이젠 CPU가 소폭 우세하나, 오버클록까지 염두에 둔다면 인텔 CPU가 가장 좋다.



4. FHD(1920x1080) 게임 성능


점수놀이를 뒤로하고 이제 게임 성능을 살펴보겠습니다. 그동안 우리가 잘 알던 게임 성능과 크게 다르지 않습니다. 먼저 라이젠 CPU 플랫폼은 PCIe 버전에 따른 성능 차이가 나긴 가는데 고작 0.5~1% 수준입니다. 오차 범위 이내로 볼 수도 있겠지만, 실제로 테스트를 진행해보면 아주 미세하지만 조금이라도 PCIe 4.0 성능이 높게 나오는 것은 맞습니다. 물론, 의미가 없을 뿐이죠. 다만 점수놀이와 달랐던 부분은 라이젠의 경우 오버클록으로 인한 게임 성능 향상이 확실하다는 것입니다. 아무래도 RTX 3080과 FHD 조합이기 때문에 CPU 입장에서는 드로콜(drawcall) 처리에 병목현상이 발생할 수밖에 없는 환경입니다.


인텔 CPU 플랫폼과 비교하면 CPU 오버 + 메모리 오버까지 적용한 R9 3900XT PCIe 4.0 성능은 i7-10700K PCIe 3.0 성능에 살짝 미치지 못하는데요. 역시나 인텔 CPU가 근본적인 게이밍 성능이 강하다는 걸 말해줍니다. 정리하겠습니다.


1. AMD 라이젠 플랫폼은 PCIe 4.0을 지원하더라도 근본적인 게이밍 성능 한계를 벗어나지 못했다.

2. 따라서 현시점 기준, RTX 3080이 최상의 성능을 발휘할 수 있게 만들어주는 플랫폼은 AMD가 아닌 인텔.



5. 4K/UHD(3840x2160) 게임 성능



보너스로 4K/UHD 환경 게임 성능입니다. PCIe 버전에 따른 성능 차이 + 플랫폼에 따른 성능 차이 모두 무의미한 수준으로 줄어든다는 유의미한 결론을 얻었습니다.





▲ 오버클록이 적용된 RTX 3080 FE GPU-Z 화면


이제 오버클록을 적용해 보도록 하겠습니다. 3DMark Stress Test 및 4K 해상도 게이밍 반복 테스트를 실시한 결과, 달성 가능한 최고 오버클록 수치는 코어 오프셋 +75 MHz, 메모리 오프셋 +500 MHz(19 Gbps -> 20 Gbps) 수준이었습니다. 오버클록 마진은 크지 않았습니다. 다만 전력 제한은 RTX 3080 파운더스 에디션 기준 기본 320W에서 최대 115%(약 368W) 수준까지 확장 가능합니다. 해당 기능을 통해 커스텀수랭 또는 본인만의 고성능 쿨링 대책을 강구할 수 있다면, 더 높은 실제 부스트 클록을 기대할 수 있습니다.




▲ RTX 3080 FE 실제 부스트 클록 측정 결과


부스트 클록 로그 기록 분석을 통해 실제 적용되는 부스트 클록도 확인하였습니다. RTX 3080 FE는 스펙상 표기 부스트 클록이 1,710 MHz지만 엔비디아 지포스 그래픽카드 대부분이 그렇듯 실제로는 더 높은 클록을 적용합니다. 평균 1,800 MHz 후반 부스트 클록을 보여주었으며, 최고 1,965 MHz까지 도달합니다. 여기에 전력제한 해제를 동반한 오버클록을 적용할 경우 오프셋 클록 수치를 넘어선 클록이 적용됩니다. 평균 2 GHz에 가까운 클록을 내어주며, 최고 2.1 GHz를 기록하였습니다. 그러나 오프셋 클록 수치 자체로만 보면 오버클록 잠재력은 크지 않은 수준입니다. 약 100 MHz 상승하는 것인데 이는 5%를 살짝 상회하는 것에 그치기 때문입니다.




▲ 전력제한을 풀어주면 320W에서 368W까지 전력 허용



▲ RTX 3080 FE OC 적용 시 3DMark 3종 그래픽 점수 변화


OC 적용 시 3DMark 그래픽 점수 결과입니다. 파스에서 4.02%가 향상된 46.2K 점수를 기록합니다. 사실 5만 점 벽을 깨기란 쉽지 않습니다. 4만 점 이상 점수를 내어줄 수 있는 그래픽카드 입장에서는 상대적으로 파스가 저사양 게임이기 때문이죠. 결국 외부 요건에 의해 발목을 잡히게 됩니다. 반면, 타스와 포로는 상황이 약간 나아져 약 5.5~6% 향상된 점수를 기록하였습니다. 곧 출시될 RTX 3090이라면 5만 점 또는 그에 근접하는 점수를 기대해볼만 한데, 아직 장담할 수 없습니다.




▲ RTX 3080 FE OC 적용 시 3종 게임 4K 성능 변화


점수놀이보다는 역시 실 게임 성능 향상이 두드러집니다. 약 6~8%에 달하는 성능 향상이 가능합니다. 일반적으로 대략 10% 이내 그래픽카드 오버클록은 사실상 얻는 것에 비해 잃는 것이 커서 추천하지 않습니다. 체감 성능 향상에도 별 도움이 안 되고요. 하지만 우리는 컴덕후입니다. 경제논리라는 건 개인 선택일 뿐 절대적 기준이 될 수 없습니다. 저 역시 5% 성능 향상을 위해 많은 희생을 치르기도 하니까요. 자료는 참고만 해주시고 여러분의 선택에 맡기겠습니다.






마지막으로 RTX 3080 엠바고 해제 전까지 가장 뜨거운 주제였던 RTX 2080 Ti FE 그리고 RTX 2080 FE와 게임별 성능 차이를 확인해 보겠습니다. 20종 게임 평균 성능 차이는 앞선 내용에서 살펴봤으니 게임별 성능으로 접근하겠습니다.


먼저 RTX 2080 FE와 비교입니다. 전반적으로 1.6~1.8배에 달하는 게임 성능을 보이고 있고, 보더랜드 3와 둠 이터널에서 엄청난 성능 차이를 보여줍니다. 특히 둠 이터널은 Vulkan API + 이드 소프트(id Software) 엔진 최적화 노하우 덕분에 2배라고 해도 과언이 아닌 1.96배 성능을 기록하였습니다. 이 정도면 젠슨 황이 언급한 '최대 2배 성능'은 허언이 아니었던 것으로 판단합니다. 다만 새로운 아키텍처 그래픽카드가 늘 그랬듯이 앞으로 출시될 게임에서는 더 큰 성능 차이를 보여줄 가능성도 남아있습니다. 엠바고 해제 직후 성능 차이임을 감안한다면 칭찬을 아끼고 싶지 않습니다.


RTX 3080 FE는 그 강력한 성능을 바탕으로 대부분 게임에서 4K + 평균 60 FPS 이상을 바라볼 수 있습니다. 단 컨트롤, 플라이트 시뮬레이터 2020, 토탈 워: 삼국 등 게임은 여전히 난공불락의 요새처럼 느껴집니다. 특히 벤치마크 게임 목록에 새롭게 추가된 플라이트 시뮬레이터는 그래픽카드뿐만 아니라 종합적인 시스템 자원을 매우 높게 요구하기에 당분간 벤치마크와 같은 테스트에 빠지지 않을 것입니다.





다음은 RTX 3080이 등장하기 전까지 최강 지포스 그래픽카드, RTX 2080 Ti FE와 비교입니다. RTX 3080은 평균 32.9% 높은 성능을 발휘하며, 전반적으로 1.3~1.35배에 달하는 성능을 달성합니다. 보더랜드 3와 둠 이터널은 무려 40% 상당 성능 향상을 보여주고요. 사실 30% 이상 성능 격차라고 한다면 더 이상 비빌 수 있는 상대가 아니라는 걸 말합니다. 이전 세대 RTX 2080은 출시 초기 시점 기준으로 GTX 1080 Ti와 성능 차이가 크지 않아 게임에 따라서는 거의 동급으로 볼 수도 있었던 것과 확실히 대비됩니다.





▲ RTX 3080 FE - 4K 게이밍 성능 vs. 지포스 20 시리즈 - QHD 게이밍 성능 


RTX 3080의 인상적인 4K 게이밍 성능을 다른 각도에서 살펴볼 수 있도록 재밌는 자료를 준비했습니다. 바로 RTX 3080 FE가 4K 해상도에서 기록한 성능을 지포스 20 시리즈 QHD 해상도 성능과 비교한 그래프입니다.


RTX 2080 FE 성능을 100%로 두었을 때 RTX 3080 성능은 무려 95.3%를 기록하였는데요. 이는 곧 QHD 해상도에서 기대할 수 있는 RTX 2080 FE 성능과 4K 해상도에서 기대할 수 있는 RTX 3080 성능이 크게 다르지 않다는 뜻입니다. 또 다른 예로는 만약 QHD 모니터 + RTX 2070 SUPER 사용자가 4K 모니터 + RTX 3080으로 업그레이드할 경우 성능 저하가 거의 발생하지 않는다는 해석도 가능합니다.






퀘이사존 지포스 RTX 3080 벤치마크 최종 요약



■ 개선된 암페어 아키텍처로 놀라운 성능 향상 달성

-> 암페어 아키텍처 SM은 FP32/INT32로 구성된 유닛부와 FP32 전용 유닛부로 구성하여 튜링 아키텍처 대비 높은 효율성과 유연성을 동시에 가지고 있다. 단일 SM 기준으로 튜링 대비 2배에 달하는 FP32 유닛은 엄연히 제 역할을 수행해낼 수 있기 때문에 단정밀도 부동소수점 연산(FP32)은 스펙상 최대 29.8 TFLOPS를 내어준다.(AIDA64 GPGPU 실측 결과 30 TFLOPS 이상 확인) 단 FP32 한정이고, 실제 게임에서는 FP32뿐만 아니라 INT32도 요구되어 CUDA 코어 숫자만 보고 기존 튜링 아키텍처 대비 늘어난 코어 수만큼 성능 향상은 기대하기 어렵다. SM 구조를 바꿈으로써 CUDA 코어의 실질적 정의가 달라졌기 때문. 자세한 내용은 본문 암페어 SM 아키텍처 섹션 참고.


■ 4K 기준, 소위 '깡성능'은 RTX 2080 Ti FE 대비 1.33배, RTX 2080 FE 대비 1.71배

-> RTX(RT/DLSS) 기술을 적용하지 않은 게임 성능 역시 가공할 만한 위력을 보여준다. 실제로 젠슨 황이 언급한 것처럼 RTX 2080 대비 2배에 달하는 게임 성능을 내어주기도 함. 덧붙여, RTX 2080 Ti FE와 비교해도 30~35% 수준의 성능 향상을 보여주며 급이 다른 성능을 뽐낸다.


■ AAA급 게임 대부분을 4K/60fps로 구동 가능

-> 먼저 언급하자면, RTX 3080이 모든 게임에서 4K+풀옵션 조건으로 60 FPS를 내어주지는 못한다. 벤치마크와 달리 실제 게임은 다양한 시나리오에서 GPU 부하 상황이 연출되기에 벤치마크에서 드러나지 않는 프레임 저하 구간이 존재할 수도 있기 때문. 또한 장르적 특성으로 플라이트 시뮬레이터 2020 또는 토탈 워: 삼국처럼 정복 자체가 어려운 괴물 게임들이 존재한다. 그러나 그 외 게임에서는 조금만 시선을 낮추고 화질 대비 성능 하락이 큰 옵션 항목을 중점으로 옵션 타협 여지가 있다면, 얼마든지 풀옵션/상옵션으로 만족스러운 4K/60fps 게이밍이 가능하다.


■ 레이트레이싱 적용 성능은 RTX 2080 FE 대비 1.9배, DLSS 성능은 최적화 업데이트 필요

-> RTX 3080에 적용된 암페어 아키텍처 GPU는 2세대 RT 코어를 탑재하여, 지포스 RTX 20 시리즈 대비 레이트레이싱 적용 시 상대적인 성능 하락폭이 낮다. 차후 레이트레이싱 기술이 더욱 적극적으로 쓰인 게임들에서는 더 큰 성능 차이를 보여줄 것으로 예상된다.


■ 파스칼의 재림이라 불려도 손색 없는 성능 향상, 단 소비전력 증가는 아쉽

-> RTX 3080의 전 세대 대비 성능 향상은 가히 파스칼의 재림을 연상케 한다. GTX 1080은 출시 당시(엠바고 해제 시점) 퀘이사존 벤치마크에서 GTX 980 대비 68.6%, GTX 980 Ti 대비 30.2% 뛰어난 성능을 보여줬기 때문. 그러나 파스칼 아키텍처는 절대적 성능 향상뿐만 아니라 전성비에서도 큰 발전을 가져와 여러모로 균형 잡힌 팔방미인이다. 이에 반해 RTX 3080은 전성비가 향상되긴 했으나 소비전력 절대 수치는 큰 폭으로 상승했다는 약점이 있다. 이에 대한 자세한 내용은 퀘이사존 소비전력/전성비 특집 벤치마크 참고.


■ RTX 3080 4K 성능은 RTX 2070 SUPER QHD 성능과 동급

-> 바꿔 말해 RTX 2070 SUPER가 QHD(2560x1440) 해상도에서 내어주는 성능을 RTX 3080 FE는 4K/UHD(3840x2160) 해상도에서 내어준다. UHD 해상도는 QHD 대비 2.25배에 달하는 픽셀 수라는 걸 고려하면, RTX 3080의 성능이 얼마나 뛰어난지 알 수 있는 대목.


■ PCIe 4.0에 목맬 필요 없다

-> RTX 3080은 지포스 그래픽카드 최초로 PCIe 4.0 인터페이스를 지원한다. PCIe 4.0은 PCIe 3.0의 2배에 달하는 대역폭을 지원하지만, 실질적인 렌더링 성능에 대한 영향력은 크지 않다.(RTX IO를 제외한 순수 3D 성능 기준) 즉 게이밍 성능을 위해 PCIe 4.0을 지원하는 AMD 라이젠 X570/B550 플랫폼에 목맬 필요 없다는 이야기. 실제 테스트 결과를 살펴보면, 라이젠 CPU 플랫폼에서는 PCIe 4.0 모드로 구동해도 근본적인 게이밍 성능 한계에 부딪혀 PCIe 3.0으로 작동하는 인텔 CPU을 넘어서지 못한다. 결국 RTX 3080이 최상의 성능을 발휘할 수 있게 만들어주는 건 PCIe 버전과 상관없이 여전히 인텔 CPU 플랫폼이다.


■ RTX 3080에게 파스는 저사양 게임, 성능 측정 툴로써 이상적이지 않음

-> 그래픽카드 입장에서 3DMark Fire Strike는 DX11 API 기반에 FHD 해상도로 구동되는 출시된 지 오래된 게임과도 같다. 이로 인해 하이엔드급 그래픽카드에게 정확한 성능 향상치를 반영한 점수를 기대하기가 과거에 비해 힘들어진 것. 더 많은 프레임을 뽑아낼 만한 능력이 있어도, CPU가 그에 상응하는 속도로 일을 시키지 못하기에 최신 게임 성능과 파스 점수 차이 괴리감은 앞으로도 점점 더 커질 것이다. 결국 DX12 API 기반 QHD로 구동되는 타임스파이 또는 4K/UHD 해상도 타임스파이 익스트림 점수를 참고하는 것이 더 유용한 정보를 제공한다.


■ CPU에 따라 파스 점수는 41.9K~43.3K 천차만별, CPU 오버 시 44.5K 달성

-> 앞서 언급한 파스 특징으로 인해 CPU 플랫폼별 RTX 3080 파스 점수가 크게는 1,000점 이상 발생하게 된다. 여기서 인텔 i9-10900K OC 설정이 가장 높은 점수를 보이며 44.5K를 기록했는데, 차후 더 높은 성능의 CPU 그리고 PCIe 4.0까지 더해진다면 얼마든지 파스 점수는 더 높아질 수 있을 것이다.


■ RTX 3080 오버클록은 기대 이하, 파스 46.2K 달성

-> 과거에 비해 그래픽카드 오버클록 잠재력/마진은 지속적으로 쇠퇴하고 있다. 이는 CPU 분야도 마찬가지인데, 근본적인 이유는 CPU/GPU 모두 고정 클록이 아닌 가변 클록 기반 부스트 클록 알고리즘을 적용하는 것에 있다. 부스트 클록 알고리즘이 발전하고 똑똑해질수록 각 GPU 칩세트에 맞는 적절한 전압과 클록이 별다른 설정 없이 적용되기 때문. RTX 3080 FE 역시 크게 다르지 않다. 오프셋 클록 기준 코어+50 MHz, 메모리+500 MHz(19 Gbps -> 20 Gbps) 오버클록이 가능하였으며, 전력 제한 레벨은 115%(368W)까지 풀어줄 수 있다. 해당 오버클록 설정 적용 시 파스 점수는 46.2K를 기록하였으며 게임 성능은 약 6~8% 향상되었다.


■ RTX 3080 통수 가능성 그리고 가치

-> 통수 시나리오를 염두에 둔다면 이야기는 복잡해진다. 다양한 통수 시나리오가 가능하기 때문. 실제로 엔비디아가 마음만 먹는다면, RTX 3080과 RTX 3090 사이에 2~3개에 달하는 배리에이션 모델을 얼마든지 만들어낼 수 있다. RTX 3080은 20GB VRAM 구성도 가능하며, 일부 유닛을 채우고 메모리 버스를 352-bit로 향상시킨 11/22GB VRAM RTX 3080 SUPER/Ti 모델도 구상 가능하다. 하지만 통수는 언제 찾아올지 알 수 없는 녀석이다. 또한 사람에 따라서는 통수를 걱정하며 하염없이 기다리는 시간 자체가 통수보다 더한 고통일 수 있다. 결국 정말 갖고 싶을 때 지르는 것이 정답 아닐까? 각자의 선택에 맡길 문제다.


-> 20종 게임 그리고 3종 해상도에서 RTX 3080은 단 한 번도 최고 위치를 놓치지 않으며, 지포스 20 시리즈 성능을 초라하게 만든다. 물론 RTX 3080보다 뛰어난 RTX 3090 출시가 예정되어 있지만, 가격 차이가 매우 크기 때문에 최고만을 고집하는 소비자가 아니라면, RTX 3090보다 오히려 RTX 3080이 매력적인 제품이다. 여기에 더해 상위 모델과 성능 격차가 과거보다 크지 않을 것이라는 것 역시 RTX 3080의 상품성에 힘을 더해준다. 실제로 RTX 2080 Ti(TU102)와 RTX 2080(TU104)은 근본적으로 탑재되어 있는 GPU도 다를뿐더러 성능 차이 역시 약 25~30%로 제법 크다. 그러나 RTX 3080은 RTX 3090과 동일한 GA102 GPU에 기반을 두고 있고, 스펙 차이를 감안했을 때 지포스 20 시리즈 대비 성능 차이가 크지 않을 것으로 예상한다. 여러모로 잘빠진 80 모델이라는 것. 특히나 4K/60fps 게이밍을 목표로 두고 있는 사람에게는 이제서야 비로소 정말 쓸만한 성능의 그래픽카드가 등장했다는 것에 큰 의미가 있다.





퀘이사존 지포스 RTX 3080 벤치마크 - 온도/소음/전성비 분석 보러 가기





우리의 벤치마크는 계속될 것이다

늘 그랬듯이





퀘이사존 저작물은 크리에이티브 커먼즈 저작자표시-비영리-변경금지 4.0 국제 라이선스에 따라 이용할 수 있습니다.​



※ 본 칼럼의 지포스 RTX 3080 파운더스 에디션은 엔비디아로부터 제공받은 샘플입니다.


댓글: 452

신고하기

신고대상


신고사유

투표 참여자 보기