Kyutai présente Unmute, un système modulable de transcription, génération et synthèse vocale. Il permet une personnalisation rapide de la voix et de la personnalité de l'assistant. La publication prochaine de ses modèles en open source encouragera l'innovation, malgré une perte d'intonation émotionnelle.
Unmute dissocie trois étapes : transcription vocale, génération textuelle, synthèse vocale.Chaque élément est indépendant, offrant flexibilité dans l'utilisation des modèles.La configuration de la voix nécessite seulement dix secondes d'enregistrement vocal.La personnalité de l'interlocuteur peut être modifiée sans retravailler le modèle.Kyutai prévoit de publier ses modèles de synthèse et de reconnaissance vocale en open source.La séparation en modules améliore la réactivité mais peut perdre des détails subtils.