અવાજ અને ઑડિયો (STT/TTS)
Audio ટેબ નિયંત્રિત કરે છે કે તમારો એજન્ટ કેવી રીતે સાંભળે અને બોલે. speech-to-text (STT) અને text-to-speech (TTS) બંને મલ્ટિ-પ્રોવાઇડર છે — તમે પ્રોવાઇડર પસંદ કરો, પછી મોડેલ અને પ્રોવાઇડર-વિશિષ્ટ નિયંત્રણો. આને બરાબર કરવાથી જ એજન્ટ કુદરતી લાગે છે અને કૉલર્સને ચોકસાઈથી સમજે છે. આને /agent/setup પરના એજન્ટ બિલ્ડરમાં સેટ કરો.
speech-to-text સેટિંગ્સ Pipeline વોઇસ મોડમાં લાગુ પડે છે. રિયલટાઇમ મોડ્સમાં (Azure Realtime, Gemini Realtime) ટ્રાન્સ્ક્રિપ્શન પ્રોવાઇડર દ્વારા આંતરિક રીતે સંભાળાય છે, એટલે STT વિભાગ અવગણાય છે. વોઇસ પાઇપલાઇન મોડ LLM ટૅબ પર સેટ કરો.
Speech-to-text
Voice ટેબ: ભાષા, સમર્થિત લોકેલ્સ, ભાષા શોધ, અને speech-to-text / text-to-speech પ્રદાતા સેટિંગ્સ.
speech-to-text કૉલરના ઑડિયોને એજન્ટ કાર્ય કરી શકે તેવા ટેક્સ્ટમાં ફેરવે છે. તમારા કૉલર્સ અને તમારા ડોમેનને બંધબેસતા પ્રોવાઇડર અને મોડેલ પસંદ કરો. STT પ્રોવાઇડર્સમાં શામેલ છે:
- Deepgram (ડિફૉલ્ટ) — Nova-3 / Nova-2 અને વધુ.
- Azure — Default અને Conversation મોડેલ્સ.
- Groq — Whisper Large v3 / Turbo.
- Sarvam — Saarika (ઇન્ડિક).
સામાન્ય નિયંત્રણો
ભાષા, વિરામચિહ્ન, શબ્દ ટાઇમસ્ટેમ્પ્સ અને વચગાળાના પરિણામો બધા પ્રોવાઇડર્સમાં લાગુ પડે છે. યોગ્ય ભાષા સેટ કરવી એ ટ્રાન્સ્ક્રિપ્શન ચોકસાઈનું સૌથી મોટું એક પરિબળ છે.
પ્રોવાઇડર-વિશિષ્ટ નિયંત્રણો
કેટલાક નિયંત્રણો ફક્ત તે પ્રોવાઇડર માટે દેખાય છે જે તેમને સમર્થન આપે છે:
- Deepgram — કીવર્ડ બૂસ્ટ, સ્માર્ટ ફોર્મેટ, ફિલર દૂર કરવું, diarization (ટ્રાન્સ્ક્રિપ્ટને વક્તા પ્રમાણે અલગ કરો), પ્રોફેનિટી ફિલ્ટર, વિકલ્પો અને લેટન્સી મોડ.
- Azure — પ્રોફેનિટી મોડ (masked / removed / raw).
- Sarvam — કોડ મિક્સિંગ.
ઓળખ સુધારવા તમે કસ્ટમ શબ્દભંડોળ (ઉત્પાદન નામો, બ્રાન્ડ શબ્દો, જાર્ગન) પણ ઉમેરી શકો છો, અને એન્ડપોઇન્ટિંગ તથા VAD ટર્નઑફ સમય ટ્યુન કરી શકો છો.
ટ્રાન્સ્ક્રિપ્ટ PII redaction (કયા સંવેદનશીલ પ્રકારોને માસ્ક કરવા) અહીં નહીં, Guardrails ટૅબ પર રૂપરેખાંકિત થાય છે. એજન્ટ્સ ઝાંખી જુઓ.
Text-to-speech
text-to-speech એ અવાજ છે જેનાથી તમારો એજન્ટ બોલે છે. પ્રોવાઇડર, મોડેલ અને અવાજ પસંદ કરો. TTS પ્રોવાઇડર્સમાં શામેલ છે:
- ElevenLabs (ડિફૉલ્ટ) — Turbo v2.5 / v2, Multilingual v2.
- Azure — Neural અને Standard.
- Google — Gemini TTS.
- Cartesia — Sonic.
- Groq — Orpheus.
- Sarvam — Bulbul (ઇન્ડિક).
અવાજ
તમારી બ્રાન્ડ અને તમારા કૉલર્સને બંધબેસતો અવાજ પસંદ કરો. તમે વોઇસ લેબ માં બનાવેલા કસ્ટમ અવાજનો પણ ઉપયોગ કરી શકો છો — ટૂંકા નમૂનામાંથી અવાજ ક્લોન કરો અને તેને એજન્ટને સોંપો. તેને સાંભળવા પ્રીવ્યૂ બટનનો ઉપયોગ કરો.
સામાન્ય નિયંત્રણો
ઝડપ, પિચ, શૈલી, વોલ્યુમ, ભાવ, ભાર, આઉટપુટ ફોર્મેટ અને કસ્ટમ ઉચ્ચારણો બધા પ્રોવાઇડર્સમાં લાગુ પડે છે. થોડી ધીમી વાણી ફોન કૉલ પર અનુસરવી સહેલી છે, ખાસ કરીને નંબરો, તારીખો અને પુષ્ટિઓ માટે.
ElevenLabs-વિશિષ્ટ નિયંત્રણો
સ્થિરતા, સમાનતા બૂસ્ટ, શૈલી અતિશયોક્તિ અને સ્પીકર બૂસ્ટ એ ElevenLabs વોઇસ નિયંત્રણો છે:
- સ્થિરતા નિયંત્રિત કરે છે કે અવાજ એક વાક્યથી બીજા સુધી કેટલો સુસંગત સંભળાય છે — ઊંચું વધુ સ્થિર છે, નીચું વધુ કુદરતી વૈવિધ્યને મંજૂરી આપે છે.
- સમાનતા બૂસ્ટ આઉટપુટને સ્રોત અવાજની નજીક રાખે છે.
- સ્પીકર બૂસ્ટ મૂળ વક્તા સાથેની સામ્યતા વધારે છે.
ફેરફારોને કાગળ પર નહીં, મોટેથી ટેસ્ટ કરો. દરેક સમાયોજન પછી /agent/interface પરના વોઇસ ટેસ્ટ નો ઉપયોગ કરો — ઝડપ અને ઉચ્ચારણની સમસ્યાઓ જ્યારે તમે તેને સાંભળો ત્યારે સેકન્ડોમાં સ્પષ્ટ થઈ જાય છે.