Voz y audio (STT/TTS)
La pestaña Audio controla cómo escucha y habla tu agente. Tanto la voz a texto (STT) como el texto a voz (TTS) son multiproveedor — eliges un proveedor, luego un modelo y los controles específicos del proveedor. Acertar con esto es lo que hace que un agente suene natural y entienda a quienes llaman con precisión. Configura esto en el constructor de agentes en /agent/setup.
Los ajustes de voz a texto se aplican en el modo de voz Pipeline. En los modos de tiempo real (Azure Realtime, Gemini Realtime) la transcripción la maneja internamente el proveedor, así que la sección de STT se ignora. Configura el modo de pipeline de voz en la pestaña LLM.
Voz a texto
La pestaña Voice: idioma, configuraciones regionales compatibles, detección de idioma y los ajustes del proveedor de STT / TTS.
La voz a texto convierte el audio de quien llama en texto sobre el que el agente puede actuar. Elige un proveedor y modelo que se ajusten a quienes llaman y a tu dominio. Los proveedores de STT incluyen:
- Deepgram (predeterminado) — Nova-3 / Nova-2 y más.
- Azure — modelos Default y Conversation.
- Groq — Whisper Large v3 / Turbo.
- Sarvam — Saarika (índico).
Controles comunes
El idioma, la puntuación, las marcas de tiempo de palabras y los resultados provisionales se aplican a todos los proveedores. Configurar el idioma correcto es el factor más importante en la precisión de la transcripción.
Controles específicos del proveedor
Algunos controles solo aparecen para el proveedor que los admite:
- Deepgram — refuerzo de palabras clave, formato inteligente, eliminación de muletillas, diarización (separar la transcripción por hablante), filtro de groserías, alternativas y modo de latencia.
- Azure — modo de groserías (enmascarado / eliminado / crudo).
- Sarvam — mezcla de códigos.
También puedes agregar vocabulario personalizado (nombres de productos, términos de marca, jerga) para mejorar el reconocimiento, y ajustar los tiempos de endpointing y desactivación de VAD.
La redacción de PII de transcripciones (qué tipos sensibles enmascarar) se configura en la pestaña Barreras de seguridad, no aquí. Consulta la visión general de agentes.
Texto a voz
El texto a voz es la voz con la que habla tu agente. Elige un proveedor, modelo y voz. Los proveedores de TTS incluyen:
- ElevenLabs (predeterminado) — Turbo v2.5 / v2, Multilingual v2.
- Azure — Neural y Standard.
- Google — Gemini TTS.
- Cartesia — Sonic.
- Groq — Orpheus.
- Sarvam — Bulbul (índico).
Voz
Elige la voz que se ajuste a tu marca y a quienes llaman. También puedes usar una voz personalizada creada en Voice Lab — clona una voz a partir de una muestra corta y asígnala al agente. Usa el botón de vista previa para escucharla.
Controles comunes
La velocidad, el tono, el estilo, el volumen, la emoción, el énfasis, el formato de salida y las pronunciaciones personalizadas se aplican a todos los proveedores. Un habla ligeramente más lenta es más fácil de seguir en una llamada telefónica, especialmente para números, fechas y confirmaciones.
Controles específicos de ElevenLabs
La estabilidad, el refuerzo de similitud, la exageración de estilo y el refuerzo de hablante son controles de voz de ElevenLabs:
- La estabilidad controla cuán consistente suena la voz de frase a frase — más alta es más estable, más baja permite más variación natural.
- El refuerzo de similitud mantiene la salida cerca de la voz de origen.
- El refuerzo de hablante mejora el parecido con el hablante original.
Prueba los cambios en voz alta, no sobre el papel. Usa la prueba de voz en /agent/interface después de cada ajuste — los problemas de velocidad y pronunciación son obvios en segundos cuando los escuchas.