Skip to main content

અવાજ અને ઑડિયો (STT/TTS)

Audio ટેબ નિયંત્રિત કરે છે કે તમારો એજન્ટ કેવી રીતે સાંભળે અને બોલે. speech-to-text (STT) અને text-to-speech (TTS) બંને મલ્ટિ-પ્રોવાઇડર છે — તમે પ્રોવાઇડર પસંદ કરો, પછી મોડેલ અને પ્રોવાઇડર-વિશિષ્ટ નિયંત્રણો. આને બરાબર કરવાથી જ એજન્ટ કુદરતી લાગે છે અને કૉલર્સને ચોકસાઈથી સમજે છે. આને /agent/setup પરના એજન્ટ બિલ્ડરમાં સેટ કરો.

STT ફક્ત Pipeline મોડ માટે

speech-to-text સેટિંગ્સ Pipeline વોઇસ મોડમાં લાગુ પડે છે. રિયલટાઇમ મોડ્સમાં (Azure Realtime, Gemini Realtime) ટ્રાન્સ્ક્રિપ્શન પ્રોવાઇડર દ્વારા આંતરિક રીતે સંભાળાય છે, એટલે STT વિભાગ અવગણાય છે. વોઇસ પાઇપલાઇન મોડ LLM ટૅબ પર સેટ કરો.

Speech-to-text

Voice ટેબ Voice ટેબ: ભાષા, સમર્થિત લોકેલ્સ, ભાષા શોધ, અને speech-to-text / text-to-speech પ્રદાતા સેટિંગ્સ.

speech-to-text કૉલરના ઑડિયોને એજન્ટ કાર્ય કરી શકે તેવા ટેક્સ્ટમાં ફેરવે છે. તમારા કૉલર્સ અને તમારા ડોમેનને બંધબેસતા પ્રોવાઇડર અને મોડેલ પસંદ કરો. STT પ્રોવાઇડર્સમાં શામેલ છે:

  • Deepgram (ડિફૉલ્ટ) — Nova-3 / Nova-2 અને વધુ.
  • Azure — Default અને Conversation મોડેલ્સ.
  • Groq — Whisper Large v3 / Turbo.
  • Sarvam — Saarika (ઇન્ડિક).

સામાન્ય નિયંત્રણો

ભાષા, વિરામચિહ્ન, શબ્દ ટાઇમસ્ટેમ્પ્સ અને વચગાળાના પરિણામો બધા પ્રોવાઇડર્સમાં લાગુ પડે છે. યોગ્ય ભાષા સેટ કરવી એ ટ્રાન્સ્ક્રિપ્શન ચોકસાઈનું સૌથી મોટું એક પરિબળ છે.

પ્રોવાઇડર-વિશિષ્ટ નિયંત્રણો

કેટલાક નિયંત્રણો ફક્ત તે પ્રોવાઇડર માટે દેખાય છે જે તેમને સમર્થન આપે છે:

  • Deepgram — કીવર્ડ બૂસ્ટ, સ્માર્ટ ફોર્મેટ, ફિલર દૂર કરવું, diarization (ટ્રાન્સ્ક્રિપ્ટને વક્તા પ્રમાણે અલગ કરો), પ્રોફેનિટી ફિલ્ટર, વિકલ્પો અને લેટન્સી મોડ.
  • Azure — પ્રોફેનિટી મોડ (masked / removed / raw).
  • Sarvam — કોડ મિક્સિંગ.

ઓળખ સુધારવા તમે કસ્ટમ શબ્દભંડોળ (ઉત્પાદન નામો, બ્રાન્ડ શબ્દો, જાર્ગન) પણ ઉમેરી શકો છો, અને એન્ડપોઇન્ટિંગ તથા VAD ટર્નઑફ સમય ટ્યુન કરી શકો છો.

PII redaction Guardrails પર રહે છે

ટ્રાન્સ્ક્રિપ્ટ PII redaction (કયા સંવેદનશીલ પ્રકારોને માસ્ક કરવા) અહીં નહીં, Guardrails ટૅબ પર રૂપરેખાંકિત થાય છે. એજન્ટ્સ ઝાંખી જુઓ.

Text-to-speech

text-to-speech એ અવાજ છે જેનાથી તમારો એજન્ટ બોલે છે. પ્રોવાઇડર, મોડેલ અને અવાજ પસંદ કરો. TTS પ્રોવાઇડર્સમાં શામેલ છે:

  • ElevenLabs (ડિફૉલ્ટ) — Turbo v2.5 / v2, Multilingual v2.
  • Azure — Neural અને Standard.
  • Google — Gemini TTS.
  • Cartesia — Sonic.
  • Groq — Orpheus.
  • Sarvam — Bulbul (ઇન્ડિક).

અવાજ

તમારી બ્રાન્ડ અને તમારા કૉલર્સને બંધબેસતો અવાજ પસંદ કરો. તમે વોઇસ લેબ માં બનાવેલા કસ્ટમ અવાજનો પણ ઉપયોગ કરી શકો છો — ટૂંકા નમૂનામાંથી અવાજ ક્લોન કરો અને તેને એજન્ટને સોંપો. તેને સાંભળવા પ્રીવ્યૂ બટનનો ઉપયોગ કરો.

સામાન્ય નિયંત્રણો

ઝડપ, પિચ, શૈલી, વોલ્યુમ, ભાવ, ભાર, આઉટપુટ ફોર્મેટ અને કસ્ટમ ઉચ્ચારણો બધા પ્રોવાઇડર્સમાં લાગુ પડે છે. થોડી ધીમી વાણી ફોન કૉલ પર અનુસરવી સહેલી છે, ખાસ કરીને નંબરો, તારીખો અને પુષ્ટિઓ માટે.

ElevenLabs-વિશિષ્ટ નિયંત્રણો

સ્થિરતા, સમાનતા બૂસ્ટ, શૈલી અતિશયોક્તિ અને સ્પીકર બૂસ્ટ એ ElevenLabs વોઇસ નિયંત્રણો છે:

  • સ્થિરતા નિયંત્રિત કરે છે કે અવાજ એક વાક્યથી બીજા સુધી કેટલો સુસંગત સંભળાય છે — ઊંચું વધુ સ્થિર છે, નીચું વધુ કુદરતી વૈવિધ્યને મંજૂરી આપે છે.
  • સમાનતા બૂસ્ટ આઉટપુટને સ્રોત અવાજની નજીક રાખે છે.
  • સ્પીકર બૂસ્ટ મૂળ વક્તા સાથેની સામ્યતા વધારે છે.
tip

ફેરફારોને કાગળ પર નહીં, મોટેથી ટેસ્ટ કરો. દરેક સમાયોજન પછી /agent/interface પરના વોઇસ ટેસ્ટ નો ઉપયોગ કરો — ઝડપ અને ઉચ્ચારણની સમસ્યાઓ જ્યારે તમે તેને સાંભળો ત્યારે સેકન્ડોમાં સ્પષ્ટ થઈ જાય છે.

આગળનાં પગલાં