생성형 AI의 폭발적인 성장으로 메모리 가격이 천정부지로 치솟았고, 구글은 이러한 추세의 핵심적인 역할을 하고 있습니다. 따라서 구글이 메모리 사용량이 적은 로컬 AI 모델을 제공하는 것은 당연한 수순입니다. 구글은 올해 초 출시된 Gemma 4 제품군의 공백을 메우는 새로운 Gemma 4 모델을 발표했습니다. 이 새로운 모델은 효율성이 뛰어나 일반적인 소비자용 노트북에서도 실행할 수 있을 것으로 예상됩니다.
지난 4월, 구글은 Gemma 4 제품군의 네 가지 모델을 출시하며 더욱 개방적인 Apache 2.0 라이선스로 전환했습니다. 초기 모델에는 모바일 최적화 옵션 두 가지(E2B 및 E4B)와 고성능 작업용 모델 두 가지(26B Mixture of Experts 및 31B Dense)가 포함되었습니다. 이로 인해 중간 성능의 모델이 부족했는데, 바로 이 부분을 새로운 모델이 채웠습니다.
Gemma 4 12B는 모바일 버전보다 훨씬 강력한 성능을 제공하지만, 로컬에서 실행하는 데 2만 달러짜리 AI 가속기가 필요하지 않습니다. 구글은 Gemma 4 12B가 품질 저하 없이 많은 일반 소비자용 노트북에서 실행될 수 있다는 점에서 독특하다고 밝혔습니다. 시스템 RAM 또는 VRAM이 16GB 이상인 컴퓨터라면 120억 개의 파라미터를 가진 모델도 문제없이 작동합니다. 이는 Gemma 4 26B MoE의 전체 메모리 사용량의 절반 정도에 불과하지만, 구글은 벤치마크 결과에서 볼 때 새로운 모델이 거의 동등한 성능을 제공한다고 주장합니다.
구글에 따르면 새로운 모델은 기존에는 더 큰 Gemma 변형 모델에서만 가능했던 복잡한 다단계 추론 및 에이전트 워크플로를 처리할 수 있습니다. 파라미터 수는 줄었지만, Gemma 4 12B에는 새롭게 개발된 다중 토큰 예측(MTP) 드래프터가 탑재되어 있습니다. 이 드래프터는 사용되지 않는 처리 사이클을 활용하여 미래의 토큰을 예측함으로써 속도와 효율성을 향상시킵니다. 구글은 다른 Gemma 4 모델에도 MTP 옵션을 제공했지만, MTP가 기본으로 탑재된 모델은 Gemma 4 12B가 처음입니다.
Gemma 4 12B는 새로운 멀티모달리티 접근 방식 덕분에 효율성이 더욱 향상되었습니다. Gemma 4 제품군은 기본적으로 멀티모달을 지원하며 텍스트, 오디오, 이미지를 입력으로 받습니다. 다른 Gemma 4 변형 모델을 포함한 대부분의 gen AI 모델은 텍스트 이외의 입력을 처리하고 해당 데이터를 LLM(Layered Load Module)으로 전달하기 위해 전용 인코더를 사용합니다. 이 방식도 충분히 작동하지만, 지연 시간과 메모리 사용량이 증가합니다.
새로운 중간급 모델에서 Google은 단일 행렬 곱셈과 위치 임베딩을 특징으로 하는 간소화된 비전 임베딩 모듈을 구현하여 데이터가 적절한 공간 인식을 유지한 채 LLM으로 전달될 수 있도록 했습니다. 이로써 부피가 큰 중간 인코더가 필요 없어졌습니다. 오디오의 경우 인코딩이 전혀 필요하지 않습니다. 개발자들은 원시 오디오 신호를 텍스트 토큰에 사용되는 것과 동일한 벡터로 변환하는 방법을 개발했습니다.
새로운 Gemma 4 모델은 LM Studio, Google AI Edge Gallery 등의 도구를 통해 다운로드 없이 바로 사용해 볼 수 있습니다. 하지만 Gemma 4 12B의 핵심 아이디어는 로컬 환경에서 원하는 조건으로 실행할 수 있다는 것입니다. RAM 용량만 충분하다면 Kaggle과 Hugging Face에서 모델 가중치를 바로 다운로드할 수 있습니다. 필요한 RAM 용량은 약 18GB입니다. |