குரல் & ஆடியோ (STT/TTS)
Audio தாவல் உங்கள் முகவர் எவ்வாறு கேட்கிறது மற்றும் பேசுகிறது என்பதைக் கட்டுப்படுத்துகிறது. பேச்சு-முதல்-உரை (STT) மற்றும் உரை-முதல்-பேச்சு (TTS) இரண்டுமே பல-வழங்குநர் கொண்டவை — நீங்கள் ஒரு வழங்குநரைத் தேர்வு செய்கிறீர்கள், பிறகு ஒரு மாதிரி மற்றும் வழங்குநர்-குறிப்பிட்ட கட்டுப்பாடுகள். இவற்றைச் சரியாக அமைப்பதுதான் ஒரு முகவரை இயல்பாக ஒலிக்கச் செய்து அழைப்பாளர்களைத் துல்லியமாகப் புரிந்துகொள்ளச் செய்கிறது. இதை /agent/setup இல் உள்ள முகவர் உருவாக்கியில் அமைக்கவும்.
பேச்சு-முதல்-உரை அமைப்புகள் Pipeline குரல் பயன்முறையில் பொருந்துகின்றன. நிகழ்நேர பயன்முறைகளில் (Azure Realtime, Gemini Realtime) படியெடுத்தல் வழங்குநரால் உள்ளகமாகக் கையாளப்படுகிறது, எனவே STT பிரிவு புறக்கணிக்கப்படுகிறது. குரல் pipeline பயன்முறையை LLM தாவலில் அமைக்கவும்.
பேச்சு-முதல்-உரை
Voice தாவல்: மொழி, ஆதரிக்கப்படும் வட்டார மொழிகள், மொழி கண்டறிதல் மற்றும் STT / TTS வழங்குநர் அமைப்புகள்.
பேச்சு-முதல்-உரை அழைப்பாளரின் ஆடியோவை முகவர் செயல்படக்கூடிய உரையாக மாற்றுகிறது. உங்கள் அழைப்பாளர்களுக்கும் உங்கள் களத்திற்கும் பொருந்தும் ஒரு provider மற்றும் model ஐத் தேர்வு செய்யவும். STT வழங்குநர்கள்:
- Deepgram (இயல்புநிலை) — Nova-3 / Nova-2 மற்றும் பல.
- Azure — Default மற்றும் Conversation மாதிரிகள்.
- Groq — Whisper Large v3 / Turbo.
- Sarvam — Saarika (இந்திய மொழிகள்).
பொதுவான கட்டுப்பாடுகள்
Language, punctuation, word timestamps மற்றும் interim results வழங்குநர்கள் அனைத்திலும் பொருந்தும். சரியான மொழியை அமைப்பதே படியெடுப்புத் துல்லியத்தில் மிகப்பெரிய ஒற்றை காரணியாகும்.
வழங்குநர்-குறிப்பிட்ட கட்டுப்பாடுகள்
சில கட்டுப்பாடுகள் அவற்றை ஆதரிக்கும் வழங்குநருக்கு மட்டுமே தோன்றும்:
- Deepgram — keyword boost, smart format, filler removal, diarization (படியெடுப்பை பேசுபவர் வாரியாகப் பிரிப்பது), profanity filter, alternatives மற்றும் latency mode.
- Azure — profanity mode (masked / removed / raw).
- Sarvam — code mixing.
அங்கீகாரத்தை மேம்படுத்த நீங்கள் custom vocabulary (தயாரிப்புப் பெயர்கள், பிராண்ட் சொற்கள், வழக்குச் சொற்கள்) ஐயும் சேர்க்கலாம், மேலும் endpointing மற்றும் VAD turnoff நேரங்களைச் சீரமைக்கலாம்.
படியெடுப்பு PII redaction (எந்த உணர்திறன் வகைகளை மறைப்பது) இங்கே அல்ல, Guardrails தாவலில் உள்ளமைக்கப்படுகிறது. முகவர்கள் மேலோட்டம் பார்க்கவும்.
உரை-முதல்-பேச்சு
உரை-முதல்-பேச்சு என்பது உங்கள் முகவர் பேசும் குரல். ஒரு provider, model மற்றும் voice ஐத் தேர்வு செய்யவும். TTS வழங்குநர்கள்:
- ElevenLabs (இயல்புநிலை) — Turbo v2.5 / v2, Multilingual v2.
- Azure — Neural மற்றும் Standard.
- Google — Gemini TTS.
- Cartesia — Sonic.
- Groq — Orpheus.
- Sarvam — Bulbul (இந்திய மொழிகள்).
குரல்
உங்கள் பிராண்டுக்கும் உங்கள் அழைப்பாளர்களுக்கும் பொருந்தும் voice ஐத் தேர்வு செய்யவும். Voice Lab இல் உருவாக்கப்பட்ட ஒரு தனிப்பயன் குரலையும் நீங்கள் பயன்படுத்தலாம் — ஒரு குறுகிய மாதிரியிலிருந்து ஒரு குரலை குளோன் செய்து அதை முகவருக்கு ஒதுக்குங்கள். அதைக் கேட்க முன்னோட்டப் பொத்தானைப் பயன்படுத்தவும்.
பொதுவான கட்டுப்பாடுகள்
Speed, pitch, style, volume, emotion, emphasis, output format மற்றும் தனிப்பயன் pronunciations வழங்குநர்கள் அனைத்திலும் பொருந்தும். ஒரு தொலைபேசி அழைப்பில் சற்று மெதுவான பேச்சைப் பின்தொடர்வது எளிது, குறிப்பாக எண்கள், தேதிகள் மற்றும் உறுதிப்படுத்தல்களுக்கு.
ElevenLabs-குறிப்பிட்ட கட்டுப்பாடுகள்
Stability, similarity boost, style exaggeration மற்றும் speaker boost ஆகியவை ElevenLabs குரல் கட்டுப்பாடுகள்:
- Stability ஒரு சொற்றொடரிலிருந்து அடுத்ததற்கு குரல் எவ்வளவு நிலையாக ஒலிக்கிறது என்பதைக் கட்டுப்படுத்துகிறது — அதிகம் மிகவும் சீரானது, குறைவு மேலும் இயல்பான மாறுபாட்டை அனுமதிக்கிறது.
- Similarity boost வெளியீட்டை மூலக் குரலுக்கு நெருக்கமாக வைத்திருக்கிறது.
- Speaker boost மூலப் பேசுபவருடனான ஒற்றுமையை மேம்படுத்துகிறது.
காகிதத்தில் அல்ல, சத்தமாக மாற்றங்களைச் சோதியுங்கள். ஒவ்வொரு சரிசெய்தலுக்குப் பிறகும் /agent/interface இல் உள்ள voice test ஐப் பயன்படுத்தவும் — நீங்கள் கேட்கும்போது வேகம் மற்றும் உச்சரிப்புச் சிக்கல்கள் வினாடிகளில் தெளிவாகத் தெரிகின்றன.