
오늘, 텍스트 확산(text diffusion)이라는 매우 빠른 텍스트 생성 방식을 탐구하는 실험적인 오픈 소스 모델인 DiffusionGemma를 소개합니다. Apache 2.0 라이선스로 배포되는 이 26B 규모의 MoE은 일반적인 자기회귀 방식의 LLM에서 토큰 단위로 순차적으로 처리하는 방식을 뛰어넘어, 텍스트 블록 전체를 동시에 생성하여 GPU에서 최대 4배 빠른 텍스트 생성 속도를 제공합니다.
업계 최고 수준의 파라미터별 인텔리전스를 자랑하는 Gemma 4 제품군과 최첨단 Gemini Diffusion 연구를 기반으로 구축된 DiffusionGemma는 생성 속도를 극대화하도록 설계된 새로운 확산 헤드를 통합했습니다. 자기회귀 방식의 Gemma 4 모델은 여전히 고품질의 결과물을 위한 표준이지만, DiffusionGemma는 인라인 편집, 빠른 반복 작업, 비선형 텍스트 구조 생성과 같이 속도가 중요한 대화형 로컬 워크플로를 연구하는 연구원과 개발자를 위해 설계되었습니다.

실시간 대화형 AI 애플리케이션을 개발하는 개발자는 종종 로컬 추론의 지연 시간 병목 현상으로 어려움을 겪습니다. DiffusionGemma는 이러한 문제를 직접적으로 해결하지만, 몇 가지 주요 장단점이 있습니다.
- 매우 빠른 추론: 디코딩 병목 현상을 메모리 대역폭에서 컴퓨팅 성능으로 전환함으로써, DiffusionGemma는 전용 GPU에서 최대 4배 빠른 토큰 출력을 생성합니다. (단일 NVIDIA H100에서 초당 1,000개 이상의 토큰, NVIDIA RTX 5090에서 초당 700개 이상의 토큰)
- 접근 가능한 하드웨어 용량: 추론 시 3.8B 파라미터만 활성화하는 총 26B의 MoE 모델로 작동하는 DiffusionGemma는 양자화 시 고급 전용 소비자 GPU의 18GB VRAM 용량 내에서 충분히 작동합니다.
- 양방향 어텐션: 각 순방향 패스에서 256개의 토큰을 병렬로 생성하여 모든 토큰이 다른 모든 토큰에 어텐션할 수 있도록 합니다. 이는 인라인 편집, 코드 삽입, 아미노산 서열 또는 수학 그래프와 같은 비선형 영역에서 상당한 이점을 제공합니다.
- 지능형 자체 수정: 모델은 자체 출력을 반복적으로 개선하여 전체 텍스트 블록을 한 번에 평가하고 오류를 실시간으로 수정할 수 있습니다.
- 실험적 상태 및 프로덕션 권장 사항: DiffusionGemma는 속도와 병렬 레이아웃 생성을 우선시하기 때문에 전반적인 출력 품질이 표준 Gemma 4보다 낮습니다. 최고 품질이 요구되는 애플리케이션의 경우 표준 Gemma 4를 사용하는 것이 좋습니다.
미세 조정을 통해 특정 작업에서 DiffusionGemma의 성능을 향상시킬 수 있습니다. 아래 예에서 Unsloth는 DiffusionGemma를 미세 조정하여 스도쿠를 플레이하도록 했습니다. 스도쿠는 각 토큰이 다음 토큰에 의존하기 때문에 자기회귀 모델이 어려움을 겪는 작업입니다. DiffusionGemma의 양방향 어텐션 덕분에 이 작업이 훨씬 쉬워집니다.

텍스트에 확산 알고리즘을 사용하는 이유는 무엇일까요?
AI 연구 커뮤니티는 수년간 확산 기반 텍스트 생성 기술을 연구해 왔지만, 이를 대규모 모델에 적용하는 것은 여전히 어려운 과제였습니다. DiffusionGemma는 모델의 하드웨어 활용 방식을 혁신적으로 변화시켜 이 문제를 해결합니다.
기존 모델의 한계점 대부분의 언어 모델은 마치 타자기처럼 왼쪽에서 오른쪽으로 한 번에 하나의 토큰씩 생성합니다. 클라우드 환경에서는 서버가 수천 개의 사용자 요청을 일괄 처리하여 하드웨어 부하를 분산할 수 있기 때문에 효율적입니다. 하지만 로컬 환경에서 단일 사용자를 위해 실행할 경우, 이러한 단어 단위 처리 방식은 전용 GPU나 TPU의 활용도를 떨어뜨립니다. 대부분의 시간을 다음 "키 입력"을 기다리는 데 소비하기 때문입니다.
DiffusionGemma는 이러한 비효율성을 역전시킵니다. 단어를 순차적으로 예측하는 대신, 256개의 토큰으로 구성된 전체 단락을 동시에 생성합니다. 컴퓨터 프로세서에 더 많은 작업을 한 번에 처리하도록 함으로써, DiffusionGemma는 하드웨어의 잠재력을 최대한 활용합니다. 마치 단일 단어를 순차적으로 입력하는 타자기에서 전체 텍스트 블록을 동시에 찍어내는 거대한 인쇄기로 모델 추론 방식을 업그레이드하는 것과 같습니다.
즉, DiffusionGemma의 속도 향상은 로컬 및 저속 동시 추론에 최적화되어 있습니다. 높은 QPS를 처리하는 클라우드 환경에서는 자기회귀 모델을 효율적으로 배포하여 컴퓨팅 자원을 최대한 활용할 수 있으므로, DiffusionGemma의 병렬 디코딩은 효율성이 떨어지고 오히려 서비스 비용이 증가할 수 있습니다. 처리량 이점은 단일 가속기에서 낮은 배치 크기에서 중간 배치 크기일 때 가장 두드러집니다.
텍스트 확산 작동 방식 시각적 정적인 이미지에서 시작하여 반복적으로 다듬어 선명한 이미지를 생성하는 AI 이미지 생성기와 유사하게, DiffusionGemma는 텍스트에 이 과정을 적용합니다.
- 캔버스: 모델은 무작위로 생성된 자리 표시자 토큰으로 구성된 캔버스에서 시작합니다.
- 반복적인 다듬기: 모델은 여러 번의 패스를 거쳐 올바른 토큰을 확정하고 이를 문맥 단서로 사용하여 나머지 부분을 다듬습니다.
- 최종 다듬기: 텍스트가 고품질 출력으로 수렴됩니다.
이 모델은 생성과 동시에 전체 단락을 처리할 수 있기 때문에 복잡한 마크다운 서식을 완벽하게 닫거나 거의 실시간으로 코드를 생성하고 렌더링하는 등 새로운 모델 동작 패턴을 구현할 수 있습니다.

|