वॉयस और ऑडियो (STT/TTS)

Audio टैब नियंत्रित करता है कि आपका एजेंट कैसे सुनता और बोलता है। speech-to-text (STT) और text-to-speech (TTS) दोनों बहु-प्रदाता हैं — आप एक प्रदाता चुनते हैं, फिर एक मॉडल और प्रदाता-विशिष्ट नियंत्रण। इन्हें सही करना ही किसी एजेंट को स्वाभाविक लगाता है और कॉल करने वालों को सटीक रूप से समझाता है। इसे एजेंट बिल्डर में /agent/setup पर सेट करें।

पाइपलाइन मोड केवल STT के लिए

speech-to-text सेटिंग्स Pipeline वॉयस मोड में लागू होती हैं। realtime मोड (Azure Realtime, Gemini Realtime) में ट्रांसक्रिप्शन प्रदाता द्वारा आंतरिक रूप से संभाला जाता है, इसलिए STT अनुभाग को अनदेखा किया जाता है। वॉयस पाइपलाइन मोड LLM टैब पर सेट करें।

Speech-to-text

Voice टैब: भाषा, समर्थित लोकेल, भाषा पहचान, और speech-to-text / text-to-speech प्रदाता सेटिंग्स।

speech-to-text कॉल करने वाले के ऑडियो को ऐसे टेक्स्ट में बदलता है जिस पर एजेंट कार्य कर सके। एक प्रदाता और मॉडल चुनें जो आपके कॉल करने वालों और आपके डोमेन के अनुकूल हों। STT प्रदाताओं में शामिल हैं:

Deepgram (डिफ़ॉल्ट) — Nova-3 / Nova-2 और अधिक।
Azure — Default और Conversation मॉडल।
Groq — Whisper Large v3 / Turbo।
Sarvam — Saarika (Indic)।

सामान्य नियंत्रण

भाषा, विराम-चिह्न, शब्द टाइमस्टैम्प और अंतरिम परिणाम सभी प्रदाताओं में लागू होते हैं। सही भाषा सेट करना ट्रांसक्रिप्शन सटीकता में सबसे बड़ा एकल कारक है।

प्रदाता-विशिष्ट नियंत्रण

कुछ नियंत्रण केवल उस प्रदाता के लिए दिखाई देते हैं जो उनका समर्थन करता है:

Deepgram — कीवर्ड बूस्ट, स्मार्ट फ़ॉर्मेट, फिलर हटाना, diarization (ट्रांसक्रिप्ट को वक्ता के अनुसार अलग करना), अपशब्द फ़िल्टर, विकल्प और विलंब मोड।
Azure — अपशब्द मोड (masked / removed / raw)।
Sarvam — कोड मिक्सिंग।

आप पहचान सुधारने के लिए कस्टम शब्दावली (उत्पाद नाम, ब्रांड शब्द, शब्दजाल) भी जोड़ सकते हैं, और एंडपॉइंटिंग और VAD टर्नऑफ़ समय ट्यून कर सकते हैं।

PII रिडैक्शन Guardrails पर रहता है

ट्रांसक्रिप्ट PII रिडैक्शन (किन संवेदनशील प्रकारों को मास्क करना है) Guardrails टैब पर कॉन्फ़िगर होता है, यहाँ नहीं। देखें एजेंट अवलोकन।

Text-to-speech

text-to-speech वह वॉयस है जिससे आपका एजेंट बोलता है। एक प्रदाता, मॉडल और वॉयस चुनें। TTS प्रदाताओं में शामिल हैं:

ElevenLabs (डिफ़ॉल्ट) — Turbo v2.5 / v2, Multilingual v2।
Azure — Neural और Standard।
Google — Gemini TTS।
Cartesia — Sonic।
Groq — Orpheus।
Sarvam — Bulbul (Indic)।

वॉयस

वह वॉयस चुनें जो आपके ब्रांड और आपके कॉल करने वालों के अनुकूल हो। आप Voice Lab में बनाई गई एक कस्टम वॉयस भी उपयोग कर सकते हैं — एक छोटे नमूने से एक वॉयस क्लोन करें और इसे एजेंट को असाइन करें। इसे सुनने के लिए पूर्वावलोकन बटन का उपयोग करें।

सामान्य नियंत्रण

गति, पिच, शैली, वॉल्यूम, भावना, ज़ोर, आउटपुट प्रारूप और कस्टम उच्चारण सभी प्रदाताओं में लागू होते हैं। फ़ोन कॉल पर थोड़ी धीमी बोली का अनुसरण करना आसान होता है, विशेष रूप से संख्याओं, तिथियों और पुष्टिकरण के लिए।

ElevenLabs-विशिष्ट नियंत्रण

स्थिरता, समानता बूस्ट, शैली अतिशयोक्ति और वक्ता बूस्ट ElevenLabs वॉयस नियंत्रण हैं:

स्थिरता नियंत्रित करती है कि वॉयस वाक्यांश-दर-वाक्यांश कितनी सुसंगत सुनाई देती है — अधिक अधिक स्थिर है, कम अधिक स्वाभाविक भिन्नता की अनुमति देती है।
समानता बूस्ट आउटपुट को स्रोत वॉयस के करीब रखती है।
वक्ता बूस्ट मूल वक्ता से समानता बढ़ाता है।

tip

परिवर्तनों को कागज़ पर नहीं, बल्कि ज़ोर से बोलकर परखें। प्रत्येक समायोजन के बाद /agent/interface पर वॉयस परीक्षण का उपयोग करें — गति और उच्चारण की समस्याएँ सुनते ही सेकंडों में स्पष्ट हो जाती हैं।

Speech-to-text​

सामान्य नियंत्रण​

प्रदाता-विशिष्ट नियंत्रण​

Text-to-speech​

वॉयस​

सामान्य नियंत्रण​

ElevenLabs-विशिष्ट नियंत्रण​

अगले कदम​

Speech-to-text

सामान्य नियंत्रण

प्रदाता-विशिष्ट नियंत्रण

Text-to-speech

वॉयस

सामान्य नियंत्रण

ElevenLabs-विशिष्ट नियंत्रण

अगले कदम