■ 칩렛 구조를 필두로 효율을 강조하는 아키텍처 이번 RX 7900 제품군은 상급 제품임에도 첫 공개부터 가성비에 초점을 맞춘 발표가 가장 큰 특징입니다. 특히 최근 브리핑에서 세부 내용을 더 공개할 때마다 달러당 가성비 그래프와 카드의 체적 비교까지 등장시켜가며 거듭 강조하고 있습니다. 상급 제품에서 이렇게까지 가성비를 강조하는 배경에는 칩렛 구조를 필두로 효율을 강조하는 RDNA 3 아키텍처가 있습니다.
AMD는 이미 라이젠 CPU에서 칩렛 구조의 효율성을 보여준 바 있으며, RDNA 3 아키텍처에서는 게임용 GPU에 걸맞은 칩렛 방식인 MCD를 통해 칩렛의 단점은 피하면서 그 효율을 극대화했다고 주장합니다. 그 외에도 좋은 효율로 높은 성능을 달성하는 여러 최적화를 적용했기에 가성비를 강조한다는 이야기입니다.
그래픽 카드는 세대를 거듭할수록 다른 부품보다 급격히 비싸지고 있는 가격에 회의를 느끼는 사용자가 늘어나고 있는 상황입니다. AMD가 칩렛 구조를 필두로 상급 그래픽 카드 제품에서 가성비와 효율을 앞세우는 전략이 앞으로 가격 문제를 얼마나 개선할 수 있을지 지켜볼 필요가 있겠습니다.
■ 개선된 레이 트레이싱 가속 지원 레이 트레이싱은 영화나 현실 같은 그래픽을 위해서는 꼭 거쳐 가야 할 기술입니다. 그렇기에 AMD도 이전 RX 6000 제품군보다 개선한 RX 7900 제품군의 레이 트레이싱 성능을 내세우고 있습니다. 최근 브리핑에서도 RDNA 3 아키텍처의 하드웨어 레이 트레이싱 가속 지원을 몇 번이나 강조하였습니다.
비록 RTX 40에서 더욱더 강화된 레이 트레이싱 성능을 이기기는 힘들어 보여도 달러당 레이 트레이싱 성능 효율 그래프에서는 RTX 4080과 대등하거나 더 나은 가성비를 나타냅니다. 레이 트레이싱 연산 요구가 특히 높은 사이버펑크 2077만 예외적으로 AMD 공식 발표에서도 모든 레이 트레이싱 비교에서 RTX 4080에 유리한 결과를 보입니다. RX 7900으로 해당 게임을 즐길 예정이라면 레이 트레이싱에 대한 기준을 다소 낮춰서 RX 7900에 유리하게 그래픽 설정을 타협할 생각을 해봄이 좋겠습니다.
■ 인공지능 가속 능력 탑재로 기대되는 부가 기능 딥러닝은 기계학습ML 인공지능 연산의 대세가 되었으며 알파고 이후 세간에도 높아진 인지도에 힘입어 더욱 발전을 거듭하고 있습니다. 최근 특정 키워드만 주면 그림을 그려주는 인공지능이 화제가 되는 등 응용 분야가 점점 넓어지는 추세이기에 AI 가속 처리 능력은 더욱더 중요해졌습니다. RDNA 3는 딥러닝에서 많이 사용하는 행렬 연산(텐서 연산) 가속 능력을 탑재하여 이전 세대보다 최대 2.7배 빠른 성능을 확보했습니다.
이런 인공지능 가속 성능의 이점을 시연하고 AV1 인코딩 지원과의 시너지 효과를 보여주기 위해 FHD 해상도에 3.5 Mbps라는 매우 제한적인 비트레이트로 스트리밍 송출 화질을 비교했습니다. 경쟁사가 시연한 QHD 해상도에 8 Mbps보다도 좀 더 제한이 심한 설정인데요. AV1 코덱 자체의 효율에만 기대지 않고 기계학습 인공지능 필터의 힘까지 더한 시너지 효과를 보여주려는 설정입니다. 343 Ellis라는 글자를 비교하면 왼쪽의 x264와는 명백한 화질 차이가 보입니다.
이렇게 인공지능 가속을 부가 기능에 적극적으로 도입하면 여러 분야에서 기존 기능보다 더 나은 결과를 기대할 수 있겠습니다. 마이크 노이즈 제거나 FSR에 인공지능을 도입해 개선한 버전을 볼 수 있기를 기대해봅니다.
■ 재편된 연산 구조, 최대 12,288개급 FP32 처리 능력 CUDA 코어(경쟁사)나 SP 개수로 이야기하는 범용 연산 능력은 게임에선 소위 깡성능에 주로 관여하는 편입니다. 레이 트레이싱이나 인공지능 가속 덕에 이전보단 덜 중요해졌지만, 여전히 게임 성능의 기본기에 해당하는 주요 성능 지표입니다. 그래서 똑똑한 하이브리드 구조를 통해 확보한 효율로 높은 성능을 확보한 점은 RDNA 3의 대표적인 변화로 꼽을 수 있겠습니다.
이전 세대의 하이브리드 레이 트레이싱 가속 유닛은 성능을 다소 희생하더라도 효율을 더 챙기는 최적화에 가까웠던 반면, RDNA 3에서는 레이 트레이싱 가속 지원을 개선하면서 나머지 구조도 성능을 더 높이기 위한 하이브리드 구조로 재편되었습니다. 경쟁사가 해당 구조를 도입한 RTX 30 제품군처럼 게임에서 많이 사용하는 FP32 연산 능력이 이전 세대보다 최대 2배가 되었다는 얘기입니다. 칩 전체로는 높아진 클록 주파수와의 시너지로 최대 2.7배가 되어 61 TFLOPs라는 수치를 뽐냅니다.
RTX 20에서는 FP32 연산 코어와 정수 연산 코어가 완전히 별개였던 반면, RTX 30 제품군은 정수 연산 코어도 FP32 연산을 수행할 수 있는 하이브리드 구조기에 이론상 최대 FP32 연산 능력은 말 그대로 2배가 되었습니다. AMD는 RDNA 3에서 비슷한 개선을 도입했으며 코어 개수를 2배로 표기하는 대신 '듀얼 이슈' SIMD라는 표현을 사용하고 있습니다. 공식 발표가 나오기 전 루머에서는 RX 7900 XTX의 범용 연산 프로세서인 SP 개수를 공식 사양 6,144개의 2배인 12,288개로도 표기하던 이유이기도 합니다.
물론 RTX 30 제품군의 실제 성능이 RTX 20 제품군의 2배는 나오지는 않았듯이 이론상 최대 성능에서 보이는 숫자가 그대로 게임 성능 향상에 반영되지는 않습니다. 그래도 공식 표기인 SP 6,144개라는 숫자에서 느껴지는 수준보다는 더 높은 성능을 볼 수 있겠지요. |