Google, 텍스트 확산 방식 26B MoE 오픈 모델 'DiffusionGemma' 공개 — 최대 4배 빠른 추론
Google AI Releases DiffusionGemma, a 26B MoE Open Model Using Text Diffusion for Up to 4x Faster Generation
Google DeepMind가 256토큰 블록을 병렬 생성하는 개방형 텍스트 확산 모델 DiffusionGemma를 Apache 2.0 라이선스로 공개했다.
26B MoE 아키텍처로 추론 시 3.8B 파라미터만 활성화하며 H100에서 초당 1,000토큰 이상을 처리한다. Gemma 4 백본 위에 확산 헤드를 탑재했고, 256K 토큰 컨텍스트·140개 이상 언어를 지원하며 18GB VRAM에 맞게 양자화된다.
자기회귀(AR) 디코딩을 벗어난 첫 대형 오픈웨이트 텍스트 확산 모델로, 코드 인필링·인라인 편집 등 속도 민감 워크로드에서 AR 한계를 극복하는 새 아키텍처 경쟁이 본격화됨을 알린다.