Skip to main content

വോയ്സും ഓഡിയോയും (STT/TTS)

Audio ടാബ് നിങ്ങളുടെ ഏജന്റ് എങ്ങനെ കേൾക്കുകയും സംസാരിക്കുകയും ചെയ്യുന്നുവെന്ന് നിയന്ത്രിക്കുന്നു. speech-to-text (STT) ഉം text-to-speech (TTS) ഉം മൾട്ടി-പ്രൊവൈഡർ ആണ് — നിങ്ങൾ ഒരു പ്രൊവൈഡർ തിരഞ്ഞെടുക്കുന്നു, പിന്നെ ഒരു മോഡലും പ്രൊവൈഡർ-നിർദ്ദിഷ്ട നിയന്ത്രണങ്ങളും. ഇവ ശരിയാക്കുന്നതാണ് ഒരു ഏജന്റ് സ്വാഭാവികമായി കേൾക്കാനും കോളർമാരെ കൃത്യമായി മനസ്സിലാക്കാനും കാരണമാകുന്നത്. /agent/setup-ലെ ഏജന്റ് ബിൽഡറിൽ ഇത് സജ്ജമാക്കുക.

STT-ന് മാത്രം Pipeline മോഡ്

speech-to-text ക്രമീകരണങ്ങൾ Pipeline വോയ്സ് മോഡിലാണ് ബാധകമാകുന്നത്. റിയൽടൈം മോഡുകളിൽ (Azure Realtime, Gemini Realtime) ട്രാൻസ്ക്രിപ്ഷൻ പ്രൊവൈഡർ ആന്തരികമായി കൈകാര്യം ചെയ്യുന്നു, അതിനാൽ STT വിഭാഗം അവഗണിക്കപ്പെടുന്നു. വോയ്സ് പൈപ്പ്‌ലൈൻ മോഡ് LLM ടാബിൽ സജ്ജമാക്കുക.

Speech-to-text

Voice ടാബ് Voice ടാബ്: ഭാഷ, പിന്തുണയ്ക്കുന്ന ലൊക്കേലുകൾ, ഭാഷാ കണ്ടെത്തൽ, STT / TTS ദാതാവിന്റെ ക്രമീകരണങ്ങൾ.

speech-to-text കോളറുടെ ഓഡിയോയെ ഏജന്റിന് പ്രവർത്തിക്കാൻ കഴിയുന്ന ടെക്സ്റ്റാക്കി മാറ്റുന്നു. നിങ്ങളുടെ കോളർമാർക്കും ഡൊമെയ്നിനും അനുയോജ്യമായ ഒരു പ്രൊവൈഡറും മോഡലും തിരഞ്ഞെടുക്കുക. STT പ്രൊവൈഡർമാർ ഇവയാണ്:

  • Deepgram (ഡിഫോൾട്ട്) — Nova-3 / Nova-2 എന്നിവയും മറ്റും.
  • Azure — Default, Conversation മോഡലുകൾ.
  • Groq — Whisper Large v3 / Turbo.
  • Sarvam — Saarika (ഇൻഡിക്).

പൊതുവായ നിയന്ത്രണങ്ങൾ

ഭാഷ, വിരാമചിഹ്നം, വാക്ക് ടൈംസ്റ്റാമ്പുകൾ, ഇടക്കാല ഫലങ്ങൾ എന്നിവ എല്ലാ പ്രൊവൈഡർമാർക്കും ബാധകമാണ്. ട്രാൻസ്ക്രിപ്ഷൻ കൃത്യതയിലെ ഏറ്റവും വലിയ ഒറ്റ ഘടകം ശരിയായ ഭാഷ സജ്ജമാക്കുന്നതാണ്.

പ്രൊവൈഡർ-നിർദ്ദിഷ്ട നിയന്ത്രണങ്ങൾ

ചില നിയന്ത്രണങ്ങൾ അവയെ പിന്തുണയ്ക്കുന്ന പ്രൊവൈഡറിന് മാത്രമേ ദൃശ്യമാകൂ:

  • Deepgram — keyword boost, smart format, filler removal, diarization (ട്രാൻസ്ക്രിപ്റ്റിനെ സംസാരിക്കുന്നയാളനുസരിച്ച് വേർതിരിക്കുക), profanity filter, alternatives, latency mode.
  • Azure — profanity mode (masked / removed / raw).
  • Sarvam — code mixing.

തിരിച്ചറിയൽ മെച്ചപ്പെടുത്താൻ നിങ്ങൾക്ക് ഇഷ്ടാനുസൃത പദസമ്പത്തും (ഉൽപ്പന്ന പേരുകൾ, ബ്രാൻഡ് പദങ്ങൾ, പദപ്രയോഗങ്ങൾ) ചേർക്കാം, കൂടാതെ endpointing-ഉം VAD turnoff സമയങ്ങളും ട്യൂൺ ചെയ്യാം.

PII redaction Guardrails-ൽ ആണ്

ട്രാൻസ്ക്രിപ്റ്റ് PII redaction (ഏതൊക്കെ സെൻസിറ്റീവ് തരങ്ങൾ മറയ്ക്കണം) ക്രമീകരിക്കുന്നത് ഇവിടെയല്ല, Guardrails ടാബിലാണ്. ഏജന്റുകൾ അവലോകനം കാണുക.

Text-to-speech

text-to-speech നിങ്ങളുടെ ഏജന്റ് സംസാരിക്കുന്ന വോയ്സാണ്. ഒരു പ്രൊവൈഡർ, മോഡൽ, വോയ്സ് എന്നിവ തിരഞ്ഞെടുക്കുക. TTS പ്രൊവൈഡർമാർ ഇവയാണ്:

  • ElevenLabs (ഡിഫോൾട്ട്) — Turbo v2.5 / v2, Multilingual v2.
  • Azure — Neural, Standard.
  • Google — Gemini TTS.
  • Cartesia — Sonic.
  • Groq — Orpheus.
  • Sarvam — Bulbul (ഇൻഡിക്).

വോയ്സ്

നിങ്ങളുടെ ബ്രാൻഡിനും കോളർമാർക്കും അനുയോജ്യമായ വോയ്സ് തിരഞ്ഞെടുക്കുക. Voice Lab-ൽ സൃഷ്ടിച്ച ഒരു ഇഷ്ടാനുസൃത വോയ്സും നിങ്ങൾക്ക് ഉപയോഗിക്കാം — ഒരു ചെറിയ സാമ്പിളിൽ നിന്ന് ഒരു വോയ്സ് ക്ലോൺ ചെയ്ത് ഏജന്റിന് നൽകുക. അത് കേൾക്കാൻ പ്രിവ്യൂ ബട്ടൺ ഉപയോഗിക്കുക.

പൊതുവായ നിയന്ത്രണങ്ങൾ

Speed, pitch, style, volume, emotion, emphasis, output format, ഇഷ്ടാനുസൃത ഉച്ചാരണങ്ങൾ എന്നിവ എല്ലാ പ്രൊവൈഡർമാർക്കും ബാധകമാണ്. അൽപ്പം പതുക്കെയുള്ള സംസാരം ഒരു ഫോൺ കോളിൽ പിന്തുടരാൻ എളുപ്പമാണ്, പ്രത്യേകിച്ച് നമ്പറുകൾ, തീയതികൾ, സ്ഥിരീകരണങ്ങൾ എന്നിവയ്ക്ക്.

ElevenLabs-നിർദ്ദിഷ്ട നിയന്ത്രണങ്ങൾ

Stability, similarity boost, style exaggeration, speaker boost എന്നിവ ElevenLabs വോയ്സ് നിയന്ത്രണങ്ങളാണ്:

  • Stability ഒരു വാക്യത്തിൽ നിന്ന് അടുത്തതിലേക്ക് വോയ്സ് എത്ര സ്ഥിരതയോടെ കേൾക്കുന്നുവെന്ന് നിയന്ത്രിക്കുന്നു — ഉയർന്നത് കൂടുതൽ സ്ഥിരം, കുറഞ്ഞത് കൂടുതൽ സ്വാഭാവിക വ്യതിയാനം അനുവദിക്കുന്നു.
  • Similarity boost ഔട്ട്പുട്ടിനെ ഉറവിട വോയ്സിനോട് അടുത്ത് നിലനിർത്തുന്നു.
  • Speaker boost യഥാർത്ഥ സംസാരിക്കുന്നയാളുമായുള്ള സാമ്യം വർദ്ധിപ്പിക്കുന്നു.
tip

മാറ്റങ്ങൾ പേപ്പറിലല്ല, ഉറക്കെ ടെസ്റ്റ് ചെയ്യുക. ഓരോ ക്രമീകരണത്തിനു ശേഷവും /agent/interface-ലെ വോയ്സ് ടെസ്റ്റ് ഉപയോഗിക്കുക — speed-ഉം ഉച്ചാരണ പ്രശ്നങ്ങളും കേൾക്കുമ്പോൾ സെക്കൻഡുകൾക്കുള്ളിൽ വ്യക്തമാകും.

അടുത്ത ഘട്ടങ്ങൾ