성능 비교 분석의 정수! 퀘이사존 벤치마크

퀘이사존, 라이젠 스레드리퍼 쿼드채널 vs. 듀얼채널 벤치마크

QM중독

89 18119 37 2017.08.10 21:31

<img src="https://img2.quasarzone.co.kr/img/data/editor/1708/7574a4f4809df94a66a75916e0882829_1502086384_5106.png" title="7574a4f4809df94a66a75916e0882829_1502086384_5106.png" style="max-width:100%; height:auto;">   
 <div align="center" style="text-align: center;"><table align="center" class="__se_tbl" style="" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1"><tbody><tr><td width="800" style="">8코어 16스레드와 상대적으로 저렴한 가격을 무기로 성공적으로 안착한 AMD 라이젠 프로세서!AMD는 멈추지 않고 인텔의 HEDT(=하이엔드 데스크톱)에 대응하는 16코어 /32스레드의 라이젠 스레드리퍼를 선보였다.   그동안 인텔의 HEDT 제품군은 코어를 늘리는데 상당히 소극적인 면모를 보여왔다. 인텔 최초의 6코어/12스레드 데스크톱 프로세서인 인텔® 코어™ i7-980X 프로세서 익스트림 에디션 (10년 1분기) 이후 약 3년 6개월이 지난 뒤 2코어가 늘어난 8C/16T의 인텔® 코어™ i7-5960X 프로세서 익스트림 에디션이 출시하였고 다시 2년이 지나서야 2코어가 늘어난 10C/20T의 인텔® 코어™ i7-6950X 프로세서 익스트림 에디션을 출시하였다. 아마 인텔은 AMD의 라이젠과 라이젠 스레드리퍼가 아니었다면 이번에도 10코어/20스레드에서 벗어나지 않았을 가능성이 농후하다. 하지만 AMD의 스레드리퍼를 인텔은 간과할 수 없었고 부랴부랴 코어를 늘린 제품들을 선보일 것이라고 밝힌 모양새이다.<o:p></o:p> <img src="https://img2.quasarzone.co.kr/img/data/editor/1708/491e70296eef6d195fb093bd161b83a1_1502173266_0789.jpg" title="491e70296eef6d195fb093bd161b83a1_1502173266_0789.jpg" style="max-width:100%; height:auto;">  인텔이 한 번에 8코어를 늘린다고? 이거 실화냐?? </td></tr></tbody></table></div>  <img src="https://img2.quasarzone.co.kr/img/data/editor/1708/64bdfa988a2713da64162fd21dff9267_1502253142_0326.png" title="64bdfa988a2713da64162fd21dff9267_1502253142_0326.png" style="max-width:100%; height:auto;"> <img src="https://img2.quasarzone.co.kr/img/data/editor/1708/7574a4f4809df94a66a75916e0882829_1502086679_75.jpg" title="7574a4f4809df94a66a75916e0882829_1502086679_75.jpg" style="font-size: 14pt; max-width: 100%; height: auto;">  <div align="center" style="text-align: center;"><table align="center" class="__se_tbl" style="" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1"><tbody><tr><td width="800" style="">그리고 오늘 인텔을 긴장하게 만들었던 16코어/32스레드의 라이젠 스레드리퍼 1950X과 12코어/24스레드의 1920X가 출시하였다. 스레드리퍼 프로세서의 자세한 성능은 [퀘이사존 AMD 라이젠 스레드리퍼 벤치마크]에서 확인하시기 바라며, 필자는 개인적으로 듀얼 채널의 라이젠과 달리 쿼드 채널 메모리를 지원하게 되는 스레드리퍼를 통해 듀얼 채널 / 쿼드 채널 구성시 어느 정도의 성능 차이를 보이는지를 확인하고자 한다. </td></tr></tbody></table></div>     <img src="https://img2.quasarzone.co.kr/img/data/editor/1708/448fc37822ba7ddef06fa1d37878597d_1502211173_777.jpg" title="448fc37822ba7ddef06fa1d37878597d_1502211173_777.jpg" style="max-width:100%; height:auto;"> 쿼드 채널 메모리를 지원하는 라이젠 스레드리퍼 & X399 플랫폼~!! <div align="center" style="text-align: center;"><table align="center" class="__se_tbl" style="" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1"><tbody><tr><td style="width: 800px; height: 1939px;" class="">다중 채널 메모리??  다중 채널 메모리 구조는 램(DRAM)과 메모리 컨트롤러 사이에 통신 채널을 하나 이상 더 추가하여 데이터 대역폭을 확충하는 기술이다. 정말 단순화하면 도로를 연상하면 이해하기 쉽다. 듀얼 채널이 2차선이라면 쿼드 채널은 4차선 도로에 비유할 수 있다. 동시에 더 많은 차량(데이터)이 지나갈 수 도로(대역폭)를 확충하는 것이 다중 채널 메모리 구조이다.<o:p></o:p>물론 쿼드 채널 메모리를 적용한다고 해서 무조건 2배의 성능이 나오는 것은 아니다. 애초에 차량 소통량(데이터 총량)이 2차선으로 충분하다면 4차선으로 늘어난다 하더라도 더 빨라질 수 없는 것과 같은 이치이다. 그러나 4차선에 해당하는 데이터가 이동할 때 2차선밖에 확보되어 있지 않다면?<o:p></o:p> <img src="https://img2.quasarzone.co.kr/img/data/editor/1708/7574a4f4809df94a66a75916e0882829_1502086692_1647.png" title="7574a4f4809df94a66a75916e0882829_1502086692_1647.png" style="max-width:100%; height:auto;"> 이때 비로소 데이터 병목현상이 발생하고, 쿼드 채널일 때 듀얼 채널보다 성능 상 우위를 갖게 된다. 인텔은 이와 관련해서 이미 2008년 11월 출시한 i7-9X0 시리즈의 트리플 채널을 시작으로 2011년 4분기에 출시한 인텔® 코어™ i7-3960X 프로세서 익스트림 에디션부터 쿼드 채널 메모리를 지원하였고, 이때부터 하이엔드 데스크톱 제품군만 지원하게 되는 쿼드 채널 메모리는 단순 성능을 떠나서 PC 유저라면 한 번쯤 다루고 싶은 로망과도 같다. 이제 스레드리퍼를 통해서 AMD 데스크톱 제품군에서도 드디어 만나볼 수 있게 된 것이다.    2개의 제플린 다이가 탑재된 스레드리퍼! 필자가 단순히 쿼드 채널에 대한 로망으로 인해 쿼드 채널에 대한 테스트를 짚어보는 것도 있지만, 여기에는 또 다른 이유도 있다. 스레드리퍼는 2개의 CCX(Core Complex)로 구성된 제플린(Zeppelin) 다이가 2개 탑재되었다. (솔더링 안정성 등의 이유로 더미로 쓰인 제플린 다이 2개 포함 시 총 4개지만, 기능 상으로 2개만 작동한다.)  <img src="https://img2.quasarzone.co.kr/img/data/editor/1708/ce01858e41311a442bc287427f3a0538_1502349337_4482.png" title="ce01858e41311a442bc287427f3a0538_1502349337_4482.png" style="max-width:100%; height:auto;"> CPU COMPLEX (CCX)<div style="text-align: center;" align="center"> </div>  <img src="https://img2.quasarzone.co.kr/img/data/editor/1708/ce01858e41311a442bc287427f3a0538_1502349463_5882.png" title="ce01858e41311a442bc287427f3a0538_1502349463_5882.png" style="max-width:100%; height:auto;">  인피니티 패브릭을 통해 CCX와 제플린 다이가 상호 연결되어있는 라이젠 스레드리퍼  이는 하나의 제플린 다이로 구성된 라이젠을 보면 인피니티 패브릭으로 동일한 인터커넥트를 사용하고 있음에도 2개의 CCX의 상호 통신이 CCX 내부 통신보다 느릴 수 있는데, CCX의 단위보다 상위인 2개의 제플린 다이가 연결된 스레드리퍼는 제플린 다이 간 데이터 통신이 더 느릴 수밖에 없다는 의문이 들기 때문이다.    <img src="https://img2.quasarzone.co.kr/img/data/editor/1708/448fc37822ba7ddef06fa1d37878597d_1502211979_8569.jpg" title="448fc37822ba7ddef06fa1d37878597d_1502211979_8569.jpg" style="max-width:100%; height:auto;"><img src="https://img2.quasarzone.co.kr/img/data/editor/1708/ce01858e41311a442bc287427f3a0538_1502347181_2508.jpg" title="ce01858e41311a442bc287427f3a0538_1502347181_2508.jpg" style="max-width:100%; height:auto;"> 2개의 제플린 다이 구조에 의한 메모리 액세스 차이가 나타난다.     UMA(=Uniform Memory Access, 균일 기억 장치 접근)는 프로세서가 메모리를 공유하여 접근 시간이 동일하고 프래그래밍이 쉬운 장점이 있지만, CPU의 클럭과 코어 수가 증가할수록 하나의 프로세서만 메모리에 접근하고 있어 추가적인 연산을 위한 메모리 대기 시간을 줄이기가 더 어려워졌고 이를 타개하기 위해 알고리즘 개선과 보다 큰 L3 캐시 제공과 같은 방법을 적용해왔다. 하지만 이러한 방법은 OS와 프로그램의 비대화와 함께 난관에 봉착했고, 이에 대한 해결책 중 하나가 각각의 프로세서에 로컬 메모리를 제공하는 NUMA(=Non-Uniformed Memory Access, 불균일 기억 장치 접근)이다.  <img src="https://img2.quasarzone.co.kr/img/data/editor/1708/448fc37822ba7ddef06fa1d37878597d_1502209346_7829.jpg" title="448fc37822ba7ddef06fa1d37878597d_1502209346_7829.jpg" style="max-width:100%; height:auto;"> 트랜잭션이 DRAM 전체에 균등하게 분산되는 UMA와 로컬 메모리를 최대한 활용하는 NUMA   스레드리퍼는 2개의 CCX가 탑재된 제플린 다이가 다시 2개 탑재된 MCM(Multi-chip module) 구조이기 때문에 얼핏 2개의 NUMA 노드처럼 보였으나, 스레드리퍼는 윈도우 상에서 단일 NUMA 노드로 작동한다고 밝히고 있으며, 이는 제플린 다이 간 통신 속도가 생각보다 느리지 않고 NUMA 노드를 구분하는 것보다 단일 NUMA 노드 구성일 때 더 나은 성능을 제공한다고 유추해볼 수 있다.  <img src="https://img2.quasarzone.co.kr/img/data/editor/1708/ce01858e41311a442bc287427f3a0538_1502347652_0847.jpg" title="ce01858e41311a442bc287427f3a0538_1502347652_0847.jpg" style="max-width:100%; height:auto;"> <div style="text-align: center;" align="center">라이젠 마스터 유틸리티를 통해 메모리 접근 방식을 변경해줄 수 있다. </div><div style="text-align: center;" align="center"> </div><div style="text-align: center;" align="center"> </div><div style="text-align: center;" align="center"><img src="https://img2.quasarzone.co.kr/img/data/editor/1708/448fc37822ba7ddef06fa1d37878597d_1502212938_3597.jpg" title="448fc37822ba7ddef06fa1d37878597d_1502212938_3597.jpg" style="max-width: 100%; height: auto;"> </div><div style="text-align: center;" align="center"></div> UMA는 메모리 대역폭에서, NUMA는 레이턴시에서 강점을 지녔다.<div> </div>   </td></tr></tbody></table></div><img src="https://img2.quasarzone.co.kr/img/data/editor/1708/ce01858e41311a442bc287427f3a0538_1502349992_0919.jpg" title="ce01858e41311a442bc287427f3a0538_1502349992_0919.jpg" style="max-width:100%; height:auto;"> <img src="https://img2.quasarzone.co.kr/img/data/editor/1708/64bdfa988a2713da64162fd21dff9267_1502256931_5586.jpg" title="64bdfa988a2713da64162fd21dff9267_1502256931_5586.jpg" style="max-width:100%; height:auto;">
  <div align="center" style="text-align: center;"><table align="center" class="__se_tbl" style="" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1"><tbody><tr><td style="width: 800px; height: 3054px;" class="">벤치마크 시스템 셋업 벤치마크 시스템은 부스트 클럭에 의한 변수를 차단하기 위해 라이젠 스레드리퍼 1950X의 기본 클럭인 3.4 GHz로 클럭을 고정하였고, 메모리 클럭은 JEDEC 규격을 준수하는 DDR4 2,667 MHz 16GB 듀얼킷(8GB x2)과 16GB 쿼드킷(4GB x4)으로 메모리 용량/ 세부 램 타이밍을 동일하게 설정하고 진행하였다.또한, 본 칼럼은 퀘이사존 스레드리퍼 벤치마크에 사용된 스레드리퍼 1950X를 NDA로 인한 한정된 시간 중에 짬짬이 사용하여 진행하였기에, 여건상 리뷰어 킷에 포함된 ROG ZENITH EXTREME 메인보드가 아닌 기가바이트 GA-X399 AORUS Gaming 7 메인보드로 진행하였다. <img src="https://img2.quasarzone.co.kr/img/data/editor/1708/64bdfa988a2713da64162fd21dff9267_1502272021_6461.jpg" title="64bdfa988a2713da64162fd21dff9267_1502272021_6461.jpg" style="max-width:100%; height:auto;"> 라이젠의 인터커넥트인 인피니티 패브릭은 메모리 256 bit 폭의 양방향 크로스바이며, 인피니티 패브릭의 크로스바 속도는 메모리 클럭의 영향을 받는다. 인텔의 HEDT 플랫폼에서는 쿼드 채널을 통한 이익이 실질적으로 크지 않았으나, 인피니티 패브릭으로 연결되어 있는 라이젠 스레드리퍼는 듀얼 채널 시와 쿼드 채널 시 2배에 달하는 메모리 대역폭의 차이에 따라 재밌는 결과가 나오지 않을까? ※ 듀얼 채널 / 쿼드 채널 메모리 최대 대역폭 비교2,667 MHz DDR4 메모리 듀얼 채널 대역폭 = 2채널 x 64-bit/8-bit x 데이터 레이트 2.600 GT/s = 41.6 GB/s2,667 MHz DDR4 메모리 쿼드 채널 대역폭 = 4채널 x 64-bit/8-bit x 데이터 레이트 2.600 GT/s = 83.2 GB/s ※ HEDT 프로세서답게 작업 성능 테스트에는 2,933 MHz DDR4 메모리 쿼드 채널의 결과도 추가 반영하였으며, 이때의 대역폭은 4채널 x 64-bit/8-bit x 데이터 레이트 2.933 GT/s = 93.856 GB/s이다. <img src="https://img2.quasarzone.co.kr/img/data/editor/1708/ce01858e41311a442bc287427f3a0538_1502340785_7673.jpg" title="ce01858e41311a442bc287427f3a0538_1502340785_7673.jpg" style="max-width:100%; height:auto;"> AIDA64 Extreme 메모리 벤치마크 <img src="https://img2.quasarzone.co.kr/img/data/editor/1708/ce01858e41311a442bc287427f3a0538_1502340315_3026.jpg" title="ce01858e41311a442bc287427f3a0538_1502340315_3026.jpg" style="max-width:100%; height:auto;"> 산드라 Lite에서 듀얼 채널 / 쿼드 채널의 2배에 달하는 가시적인 대역폭 차이를 볼 수 있다.   </td></tr></tbody></table></div>    inno3D 지포스 GTX 1080 Ti Gaming O.C 11GB 장착 시 게임 성능  <div align="center" style="text-align: center;"><table align="center" class="__se_tbl" style="" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1"><tbody><tr><td width="800" style=""><img src="https://img2.quasarzone.co.kr/img/data/editor/1709/354800c4099917cc821bb6895c14698b_1504247805_6026.jpg" title="354800c4099917cc821bb6895c14698b_1504247805_6026.jpg" style="max-width:100%; height:auto;"> <img src="https://img2.quasarzone.co.kr/img/data/editor/1708/64bdfa988a2713da64162fd21dff9267_1502274496_7872.jpg" title="64bdfa988a2713da64162fd21dff9267_1502274496_7872.jpg" style="max-width:100%; height:auto;"> <img src="https://img2.quasarzone.co.kr/img/data/editor/1708/ce01858e41311a442bc287427f3a0538_1502340053_9443.jpg" title="ce01858e41311a442bc287427f3a0538_1502340053_9443.jpg" style="max-width:100%; height:auto;">메모리 대역폭에 따라 위 6개의 게임은 약 6%의 성능 차이를 보였다. 배틀필드 1, 오버워치, 위쳐 3처럼 영향을 거의 받지 않은 경우 0.8% 수준이었고, 애쉬즈 오브 더 싱귤러리티: 에스컬레이션, 라이즈 오브 더 툼레이더, 토탈 워: 워해머같은 경우 의미 있는 수준의 차이를 확인할 수 있었다.  </td></tr></tbody></table></div>

<div align="center" style="text-align: center;"><table align="center" class="__se_tbl" style="" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1"><tbody><tr><td width="800" style="">인코딩 성능 멀티코어와 메모리 대역폭의 영향을 가장 크게 받는 것 중 하나를 꼽으라면 영상 인코딩을 생각해볼 수 있다. 테스트에 사용된 원본 소스는 재생 시간: 3분 19초, 1.5 GB 용량, 3840x2160 해상도의 4K 60 fps 영상이며, 이를 1920x1080, 30 fps 영상으로 변환하는데 걸리는 작업 시간을 측정하였다. <img src="https://img2.quasarzone.co.kr/img/data/editor/1708/ce01858e41311a442bc287427f3a0538_1502345692_6405.jpg" title="ce01858e41311a442bc287427f3a0538_1502345692_6405.jpg" style="max-width:100%; height:auto;"> 3분 19초의 짧은 영상의 변환임에도 57초에 달하는 성능 차이를 보였고, 이는 메모리 대역폭에 매우 큰 영향을 받은 것을 확인할 수 있다. 영상의 재생 시간과 포맷, 용량에 따라 달라지겠지만, 트랜스 코딩을 빈번하게 하거나, 영상 작업을 주 용도로 사용하시는 분들에게 AMD 라이젠 스레드리퍼 1950X는 16 코어 / 32 스레드로 작업 시간을 확실히 줄여 줄 수 있는 메리트가 있다.      마치며.. 인텔의 HEDT 시스템에서도 쿼드 채널 메모리를 통해 게임 성능에서 비약적인 향상을 보이지 않는 것처럼 라이젠 스레드리퍼 역시 유사한 모습을 보인다. AMD의 라이젠 스레드리퍼나 인텔의 X 시리즈 프로세서나 엄청나게 많은 코어와 스레드를 갖추고 있고, 2배에 달하는 메모리 대역폭까지 갖추었음에도 게임 성능에서는 의문점이 들 수 있다. 다양한 요인이 있으나, 통상적으로 게임은 스레드가 많을수록 그 힘을 받는 인코딩 같은 작업과 달리 한정적인 스레드만을 사용하는 경우가 많고, 이로 인해 클럭과 IPC가 높은 프로세서가 강점을 드러낸다. 대표적으로 인텔의 i7-7700K가 게이밍 성능에서는 가장 좋은 성능을 보여주는 것이 그러한 이치이다.  그렇다면 라이젠 스레드리퍼는 작업 성능만 높은 제품이라 할 수 있을까? 게임에는 그 어떠한 의미도 없는 것일까? 그동안 인텔은 HEDT 플랫폼이라 하더라도 2코어를 증가하는 데 무려 2년~3년 6개월의 간격을 두었다. 그러나 AMD의 라이젠 스레드리퍼의 행보로 인해 인텔에서 갑자기 8코어를 더 증가시킨 제품 로드맵을 공개하였다. 스레드리퍼로인해 멀티코어화가 더욱 가속되고 있고, 이는 그동안 작업 프로그램이외에는 다양한 스레드를 활용하도록 디자인되지 않았던 게임 영역도 그 영향을 받게 될 것이고, 마침내 메모리 대역폭과 같은 더 많은 자원 활용까지 지원하게 될 것이다.  스레드리퍼는 그 도화선이며, 이미 불은 지펴졌다.   ※ 라이젠 스레드리퍼의 보다 자세한 벤치마크는 퀘이사존 공식 벤치마크에서 확인하시기 바랍니다. </td></tr></tbody></table></div> <div class="content_move">[이 게시물은 퀘이사존슈아님에 의해 2020-05-29 17:25:45 퀘이사 칼럼게시판에서 이동 됨]</div><div class="content_move">[이 게시물은 퀘이사존슈아님에 의해 2020-05-29 20:14:31 벤치마크게시판에서 이동 됨]</div>