आवाज आणि ऑडिओ (STT/TTS)

Audio टॅब तुमचा एजंट कसा ऐकतो आणि बोलतो ते नियंत्रित करतो. speech-to-text (STT) आणि text-to-speech (TTS) दोन्ही बहु-प्रदाता आहेत — तुम्ही एक प्रदाता निवडता, मग एक मॉडेल आणि प्रदाता-विशिष्ट नियंत्रणे. हे योग्य करणे हेच एका एजंटला नैसर्गिक ऐकू आणते आणि कॉलरना अचूक समजू देते. हे एजंट बिल्डरमध्ये /agent/setup वर सेट करा.

पाइपलाइन मोड फक्त STT साठी

speech-to-text सेटिंग्ज Pipeline व्हॉइस मोडमध्ये लागू होतात. realtime मोडमध्ये (Azure Realtime, Gemini Realtime) ट्रान्सक्रिप्शन प्रदात्याद्वारे अंतर्गतपणे हाताळले जाते, त्यामुळे STT विभाग दुर्लक्षित केला जातो. व्हॉइस पाइपलाइन मोड LLM टॅबवर सेट करा.

Speech-to-text

Voice टॅब: भाषा, समर्थित लोकेल्स, भाषा शोध, आणि STT / TTS प्रदाता सेटिंग्ज.

Speech-to-text कॉलरचा ऑडिओ एजंट कृती करू शकेल अशा मजकुरात बदलते. तुमच्या कॉलर आणि तुमच्या क्षेत्राला बसणारे एक प्रदाता आणि मॉडेल निवडा. STT प्रदात्यांमध्ये समाविष्ट आहे:

Deepgram (डिफॉल्ट) — Nova-3 / Nova-2 आणि अधिक.
Azure — Default आणि Conversation मॉडेल.
Groq — Whisper Large v3 / Turbo.
Sarvam — Saarika (Indic).

सामान्य नियंत्रणे

भाषा, विरामचिन्हे, शब्द टाइमस्टॅम्प आणि अंतरिम निकाल प्रदात्यांमध्ये लागू होतात. योग्य भाषा सेट करणे हा ट्रान्सक्रिप्शन अचूकतेतील सर्वात मोठा एकल घटक आहे.

प्रदाता-विशिष्ट नियंत्रणे

काही नियंत्रणे फक्त त्यांना समर्थन देणाऱ्या प्रदात्यासाठी दिसतात:

Deepgram — keyword boost, smart format, filler removal, diarization (वक्त्यानुसार ट्रान्सक्रिप्ट वेगळे करा), profanity filter, alternatives आणि latency mode.
Azure — profanity mode (masked / removed / raw).
Sarvam — code mixing.

ओळख सुधारण्यासाठी तुम्ही सानुकूल शब्दसंग्रह (उत्पादन नावे, ब्रँड संज्ञा, परिभाषा) देखील जोडू शकता, आणि endpointing आणि VAD turnoff वेळा सुधारू शकता.

PII redaction Guardrails वर राहते

ट्रान्सक्रिप्ट PII redaction (कोणते संवेदनशील प्रकार मास्क करायचे) Guardrails टॅबवर कॉन्फिगर केले जाते, इथे नाही. एजंट आढावा पहा.

Text-to-speech

Text-to-speech हा तुमचा एजंट ज्या आवाजाने बोलतो तो आहे. एक प्रदाता, मॉडेल आणि आवाज निवडा. TTS प्रदात्यांमध्ये समाविष्ट आहे:

ElevenLabs (डिफॉल्ट) — Turbo v2.5 / v2, Multilingual v2.
Azure — Neural आणि Standard.
Google — Gemini TTS.
Cartesia — Sonic.
Groq — Orpheus.
Sarvam — Bulbul (Indic).

आवाज

तुमच्या ब्रँड आणि तुमच्या कॉलरना बसणारा आवाज निवडा. तुम्ही Voice Lab मध्ये तयार केलेला एक सानुकूल आवाजही वापरू शकता — एका लहान नमुन्यातून आवाज क्लोन करा आणि तो एजंटला नियुक्त करा. तो ऐकण्यासाठी पूर्वावलोकन बटण वापरा.

सामान्य नियंत्रणे

Speed, pitch, style, volume, emotion, emphasis, output format आणि सानुकूल pronunciations प्रदात्यांमध्ये लागू होतात. किंचित संथ भाषण एका फोन कॉलवर अनुसरण करणे सोपे असते, विशेषतः क्रमांक, तारखा आणि पुष्टीकरणांसाठी.

ElevenLabs-विशिष्ट नियंत्रणे

Stability, similarity boost, style exaggeration आणि speaker boost ही ElevenLabs आवाज नियंत्रणे आहेत:

Stability आवाज वाक्यांशागणिक किती सुसंगत ऐकू येतो ते नियंत्रित करते — अधिक स्थिर, कमी अधिक नैसर्गिक भिन्नतेस अनुमती देते.
Similarity boost आउटपुट स्रोत आवाजाजवळ ठेवते.
Speaker boost मूळ वक्त्याशी साधर्म्य वाढवते.

tip

बदल मोठ्याने तपासा, कागदावर नाही. प्रत्येक समायोजनानंतर /agent/interface वरील voice test वापरा — वेग आणि उच्चारण समस्या तुम्ही ऐकता तेव्हा काही सेकंदांत स्पष्ट होतात.

Speech-to-text​

सामान्य नियंत्रणे​

प्रदाता-विशिष्ट नियंत्रणे​

Text-to-speech​

आवाज​

सामान्य नियंत्रणे​

ElevenLabs-विशिष्ट नियंत्रणे​

पुढील पावले​

Speech-to-text

सामान्य नियंत्रणे

प्रदाता-विशिष्ट नियंत्रणे

Text-to-speech

आवाज

सामान्य नियंत्रणे

ElevenLabs-विशिष्ट नियंत्रणे

पुढील पावले