Mira Murati의 Thinking Machines Lab, 실시간 음성·영상 AI 대화 모델 'Interaction Models' 프리뷰 공개
Thinking Machines shows off preview of near-realtime AI voice and video conversation with new 'interaction models'
전 OpenAI CTO Mira Murati가 설립한 Thinking Machines Lab이 VAD 방식을 완전히 대체하는 실시간 멀티모달 AI 아키텍처 'Interaction Models'를 공개했다.
276B 파라미터 MoE 구조(활성화 12B)의 TML-Interaction-Small은 200ms 마이크로턴으로 음성·영상·텍스트를 동시 처리하며 0.40초 대화 전환 지연을 달성했다. 인터랙션 모델과 추론 모델을 분리한 2-모델 구조로 VAD 하네스 없이 연속 스트림을 처리하며, 2026년 하반기 넓은 출시가 예정되어 있다.
OpenAI Realtime API의 하네스 기반 방식과 근본적으로 다른 '인터랙션 퍼스트' 아키텍처로, 음성 AI 시장의 설계 철학에 새로운 방향을 제시하며 에이전트 AI 인터페이스 경쟁의 변곡점이 될 수 있다.