이번 주 초, 엔비디아는 시각적 업스케일링 기술의 "AI 기반 혁신"인 DLSS 5를 공개했습니다. 엔비디아는 이 기술이 "매 프레임마다 게임의 색상과 모션 벡터를 입력값으로 받아, 장면에 실사 같은 조명과 질감을 불어넣는다"고 설명했습니다. 인터넷상의 반응은 즉각적으로 매우 부정적이었으며, 많은 이들이 이를 'AI가 생성한 저질(slop) 필터'라며 비난했습니다.
엔비디아의 CEO 젠슨 황은 이번 주 후반에 열린 라이브 행사에서 이러한 프레임을 거부하며, 모두가 "완전히 틀렸다"고 말했습니다. 그는 DLSS 5가 실제로는 "프레임 단위의 후처리가 아니다"라고 주장했습니다. 이는 이 기술이 방대한 인터넷 학습 데이터를 기반으로 최종 2D 이미지를 수정하는 일명 '저질 필터'보다 더 미세한 수준의 뉘앙스와 제어력을 갖추고 있음을 시사하는 발언이었습니다.
하지만 엔비디아의 마케팅 전문가인 '지포스 에반젤리스트' 제이콥 프리먼이 밝힌 새로운 세부 정보는 이 논란 많은 기술에 대한 젠슨 황의 설명과 상충하는 것으로 보입니다. PC 게이밍 하드웨어 유튜버인 다니엘 오웬스는 프리먼에게 DLSS 5가 "결과물을 만들기 위해 사실상 모션 벡터와 함께 단일 2D 프레임을 입력값으로 사용하는가?"라고 물었습니다. 이에 대해 엔비디아 측 담당자는 다음과 같이 답했습니다. "네, DLSS 5는 2D 프레임과 모션 벡터를 입력값으로 받습니다." 이어서 그는 "DLSS 5는 단일 프레임을 분석함으로써 캐릭터, 머리카락, 직물, 반투명한 피부와 같은 복잡한 장면의 의미론적 요소는 물론 전면광, 역광, 흐린 날씨 같은 환경 조명 조건까지 이해하도록 종단간(end-to-end) 학습되었습니다"라고 덧붙였습니다.
기술적인 부분에 익숙하지 않은 분들은 여기서 무엇이 문제인지 의아해하실 수 있습니다. 문제는 이 발언이 지난 3월 17일 젠슨 황이 했던 발언과 정면으로 배치된다는 점입니다. 젠슨 황은 탐스 하드웨어와의 질의응답에서 "이것은 후처리가 아닙니다. 프레임 단위의 후처리가 아니라 기하학(geometry) 단계에서의 생성적 제어입니다"라고 말했습니다. 또한 "그 모든 것은 게임 개발자의 직접적인 통제하에 있습니다. 이것은 일반적인 생성형 AI와는 매우 다릅니다. 콘텐츠 제어가 가능한 생성형 AI입니다. 그래서 우리는 이를 '뉴럴 렌더링'이라 부릅니다"라고 설명한 바 있습니다.
기본적으로 엔비디아 직원은 이 기술이 단일 이미지를 참조로 사용하는 생성형 AI 필터라고 말하고 있는 반면, 젠슨 황은 단일 프레임을 참조로 사용하는 것이 아니라 3D 기하학 정보를 포함한 데이터의 모든 측면을 사용하고 있다고 주장하는 셈입니다.
요컨대, 오웬스가 표현했듯이 DLSS 5는 단순히 스크린샷을 찍어 그 위에 필터를 덧씌우는 것에 불과합니다. 최초 시연 영상에 대해 이미 반감을 가졌던 네티즌들이 이제는 젠슨 황이 최근 발언에서 DLSS 5의 성능에 대해 거짓말을 했다고 비난하며 들고일어난 이유가 바로 이것입니다. 그가 소비자들을 오도했다는 비판을 받은 것이 이번이 처음은 아닙니다.
현재로서는 DLSS 5가 그 이상의 추가 정보를 실제로 끌어오지 않는 것으로 보입니다. 이는 첫 시연에서 일부 조명 효과가 엉망으로 보였던 이유를 설명해 주기도 합니다. DLSS 5가 새로운 것을 생성하기 위해 실제 조명 데이터가 아닌 조명 이미지 자체만을 사용하고 있기 때문입니다. DLSS 5는 기하학 단계의 새로운 렌더링 기술이 아닙니다. 일반적인 생성형 AI 필터가 하는 일과 다를 바 없는, 그저 'AI 저질 결과물 2.0'에 불과할 뿐입니다.
|