आवाज आणि ऑडिओ (STT/TTS)
Audio टॅब तुमचा एजंट कसा ऐकतो आणि बोलतो ते नियंत्रित करतो. speech-to-text (STT) आणि text-to-speech (TTS) दोन्ही बहु-प्रदाता आहेत — तुम्ही एक प्रदाता निवडता, मग एक मॉडेल आणि प्रदाता-विशिष्ट नियंत्रणे. हे योग्य करणे हेच एका एजंटला नैसर्गिक ऐकू आणते आणि कॉलरना अचूक समजू देते. हे एजंट बिल्डरमध्ये /agent/setup वर सेट करा.
speech-to-text सेटिंग्ज Pipeline व्हॉइस मोडमध्ये लागू होतात. realtime मोडमध्ये (Azure Realtime, Gemini Realtime) ट्रान्सक्रिप्शन प्रदात्याद्वारे अंतर्गतपणे हाताळले जाते, त्यामुळे STT विभाग दुर्लक्षित केला जातो. व्हॉइस पाइपलाइन मोड LLM टॅबवर सेट करा.
Speech-to-text
Voice टॅब: भाषा, समर्थित लोकेल्स, भाषा शोध, आणि STT / TTS प्रदाता सेटिंग्ज.
Speech-to-text कॉलरचा ऑडिओ एजंट कृती करू शकेल अशा मजकुरात बदलते. तुमच्या कॉलर आणि तुमच्या क्षेत्राला बसणारे एक प्रदाता आणि मॉडेल निवडा. STT प्रदात्यांमध्ये समाविष्ट आहे:
- Deepgram (डिफॉल्ट) — Nova-3 / Nova-2 आणि अधिक.
- Azure — Default आणि Conversation मॉडेल.
- Groq — Whisper Large v3 / Turbo.
- Sarvam — Saarika (Indic).
सामान्य नियंत्रणे
भाषा, विरामचिन्हे, शब्द टाइमस्टॅम्प आणि अंतरिम निकाल प्रदात्यांमध्ये लागू होतात. योग्य भाषा सेट करणे हा ट्रान्सक्रिप्शन अचूकतेतील सर्वात मोठा एकल घटक आहे.
प्रदाता-विशिष्ट नियंत्रणे
काही नियंत्रणे फक्त त्यांना समर्थन देणाऱ्या प्रदात्यासाठी दिसतात:
- Deepgram — keyword boost, smart format, filler removal, diarization (वक्त्यानुसार ट्रान्सक्रिप्ट वेगळे करा), profanity filter, alternatives आणि latency mode.
- Azure — profanity mode (masked / removed / raw).
- Sarvam — code mixing.
ओळख सुधारण्यासाठी तुम्ही सानुकूल शब्दसंग्रह (उत्पादन नावे, ब्रँड संज्ञा, परिभाषा) देखील जोडू शकता, आणि endpointing आणि VAD turnoff वेळा सुधारू शकता.
ट्रान्सक्रिप्ट PII redaction (कोणते संवेदनशील प्रकार मास्क करायचे) Guardrails टॅबवर कॉन्फिगर केले जाते, इथे नाही. एजंट आढावा पहा.
Text-to-speech
Text-to-speech हा तुमचा एजंट ज्या आवाजाने बोलतो तो आहे. एक प्रदाता, मॉडेल आणि आवाज निवडा. TTS प्रदात्यांमध्ये समाविष्ट आहे:
- ElevenLabs (डिफॉल्ट) — Turbo v2.5 / v2, Multilingual v2.
- Azure — Neural आणि Standard.
- Google — Gemini TTS.
- Cartesia — Sonic.
- Groq — Orpheus.
- Sarvam — Bulbul (Indic).
आवाज
तुमच्या ब्रँड आणि तुमच्या कॉलरना बसणारा आवाज निवडा. तुम्ही Voice Lab मध्ये तयार केलेला एक सानुकूल आवाजही वापरू शकता — एका लहान नमुन्यातून आवाज क्लोन करा आणि तो एजंटला नियुक्त करा. तो ऐकण्यासाठी पूर्वावलोकन बटण वापरा.
सामान्य नियंत्रणे
Speed, pitch, style, volume, emotion, emphasis, output format आणि सानुकूल pronunciations प्रदात्यांमध्ये लागू होतात. किंचित संथ भाषण एका फोन कॉलवर अनुसरण करणे सोपे असते, विशेषतः क्रमांक, तारखा आणि पुष्टीकरणांसाठी.
ElevenLabs-विशिष्ट नियंत्रणे
Stability, similarity boost, style exaggeration आणि speaker boost ही ElevenLabs आवाज नियंत्रणे आहेत:
- Stability आवाज वाक्यांशागणिक किती सुसंगत ऐकू येतो ते नियंत्रित करते — अधिक स्थिर, कमी अधिक नैसर्गिक भिन्नतेस अनुमती देते.
- Similarity boost आउटपुट स्रोत आवाजाजवळ ठेवते.
- Speaker boost मूळ वक्त्याशी साधर्म्य वाढवते.
बदल मोठ्याने तपासा, कागदावर नाही. प्रत्येक समायोजनानंतर /agent/interface वरील voice test वापरा — वेग आणि उच्चारण समस्या तुम्ही ऐकता तेव्हा काही सेकंदांत स्पष्ट होतात.