వాయిస్ & ఆడియో (STT/TTS)
ఆడియో టాబ్ మీ ఏజెంట్ ఎలా వింటుందో మరియు మాట్లాడుతుందో నియంత్రిస్తుంది. స్పీచ్-టు-టెక్స్ట్ (STT) మరియు టెక్స్ట్-టు-స్పీచ్ (TTS) రెండూ మల్టీ-ప్రొవైడర్ — మీరు ఒక ప్రొవైడర్ను ఎంచుకుంటారు, ఆపై ఒక మోడల్ మరియు ప్రొవైడర్-నిర్దిష్ట నియంత్రణలను ఎంచుకుంటారు. వీటిని సరిగ్గా సెట్ చేయడం వల్లే ఒక ఏజెంట్ సహజంగా అనిపిస్తుంది మరియు కాలర్లను ఖచ్చితంగా అర్థం చేసుకుంటుంది. దీన్ని /agent/setupలోని ఏజెంట్ బిల్డర్లో సెట్ చేయండి.
స్పీచ్-టు-టెక్స్ట్ సెట్టింగ్లు పైప్లైన్ వాయిస్ మోడ్లో వర్తిస్తాయి. రియల్టైమ్ మోడ్లలో (Azure Realtime, Gemini Realtime) ట్రాన్స్క్రిప్షన్ ప్రొవైడర్ ద్వారా అంతర్గతంగా నిర్వహించబడుతుంది, కాబట్టి STT విభాగం విస్మరించబడుతుంది. వాయిస్ పైప్లైన్ మోడ్ను LLM టాబ్లో సెట్ చేయండి.
స్పీచ్-టు-టెక్స్ట్
Voice ట్యాబ్: భాష, మద్దతు ఉన్న లొకేల్లు, భాషా గుర్తింపు, మరియు speech-to-text / text-to-speech ప్రొవైడర్ సెట్టింగ్లు.
స్పీచ్-టు-టెక్స్ట్ కాలర్ ఆడియోను ఏజెంట్ చర్య తీసుకోగల వచనంగా మారుస్తుంది. మీ కాలర్లకు మరియు మీ డొమైన్కు సరిపోయే ఒక ప్రొవైడర్ మరియు మోడల్ను ఎంచుకోండి. STT ప్రొవైడర్లలో ఇవి ఉన్నాయి:
- Deepgram (డిఫాల్ట్) — Nova-3 / Nova-2 మరియు మరిన్ని.
- Azure — Default మరియు Conversation మోడల్లు.
- Groq — Whisper Large v3 / Turbo.
- Sarvam — Saarika (ఇండిక్).
సాధారణ నియంత్రణలు
లాంగ్వేజ్, విరామచిహ్నాలు, వర్డ్ టైమ్స్టాంప్లు మరియు ఇంటెరిమ్ ఫలితాలు ప్రొవైడర్ల అంతటా వర్తిస్తాయి. సరైన లాంగ్వేజ్ను సెట్ చేయడం ట్రాన్స్క్రిప్షన్ ఖచ్చితత్వంలో అతిపెద్ద ఒక్క కారకం.
ప్రొవైడర్-నిర్దిష్ట నియంత్రణలు
కొన్ని నియంత్రణలు వాటికి మద్దతిచ్చే ప్రొవైడర్కు మాత్రమే కనిపిస్తాయి:
- Deepgram — కీవర్డ్ బూస్ట్, స్మార్ట్ ఫార్మాట్, ఫిల్లర్ తొలగింపు, డయరైజేషన్ (ట్రాన్స్క్రిప్ట్ను స్పీకర్ ద్వారా వేరు చేయడం), అశ్లీలత ఫిల్టర్, ప్రత్యామ్నాయాలు మరియు లేటెన్సీ మోడ్.
- Azure — అశ్లీలత మోడ్ (మాస్క్డ్ / తొలగించబడింది / రా).
- Sarvam — కోడ్ మిక్సింగ్.
గుర్తింపును మెరుగుపరచడానికి మీరు కస్టమ్ వొకాబులరీను (ఉత్పత్తి పేర్లు, బ్రాండ్ పదాలు, పరిభాష) కూడా జోడించవచ్చు, మరియు ఎండ్పాయింటింగ్ మరియు VAD టర్నాఫ్ టైమింగ్లను ట్యూన్ చేయవచ్చు.
ట్రాన్స్క్రిప్ట్ PII రిడాక్షన్ (ఏ సున్నితమైన రకాలను మాస్క్ చేయాలి) ఇక్కడ కాదు, గార్డ్రెయిల్స్ టాబ్లో కాన్ఫిగర్ చేయబడుతుంది. ఏజెంట్ల అవలోకనం చూడండి.
టెక్స్ట్-టు-స్పీచ్
టెక్స్ట్-టు-స్పీచ్ అనేది మీ ఏజెంట్ మాట్లాడే వాయిస్. ఒక ప్రొవైడర్, మోడల్ మరియు వాయిస్ను ఎంచుకోండి. TTS ప్రొవైడర్లలో ఇవి ఉన్నాయి:
- ElevenLabs (డిఫాల్ట్) — Turbo v2.5 / v2, Multilingual v2.
- Azure — Neural మరియు Standard.
- Google — Gemini TTS.
- Cartesia — Sonic.
- Groq — Orpheus.
- Sarvam — Bulbul (ఇండిక్).
వాయిస్
మీ బ్రాండ్కు మరియు మీ కాలర్లకు సరిపోయే వాయిస్ను ఎంచుకోండి. మీరు వాయిస్ ల్యాబ్లో సృష్టించిన కస్టమ్ వాయిస్ను కూడా ఉపయోగించవచ్చు — ఒక చిన్న నమూనా నుండి వాయిస్ను క్లోన్ చేసి దాన్ని ఏజెంట్కు కేటాయించండి. దాన్ని వినడానికి ప్రివ్యూ బటన్ను ఉపయోగించండి.
సాధారణ నియంత్రణలు
వేగం, పిచ్, శైలి, వాల్యూమ్, ఎమోషన్, ప్రాధాన్యత, అవుట్పుట్ ఫార్మాట్ మరియు కస్టమ్ ఉచ్చారణలు ప్రొవైడర్ల అంతటా వర్తిస్తాయి. కొంచెం నెమ్మదిగా మాట్లాడటం ఫోన్ కాల్లో అనుసరించడానికి సులభం, ముఖ్యంగా నంబర్లు, తేదీలు మరియు నిర్ధారణలకు.
ElevenLabs-నిర్దిష్ట నియంత్రణలు
స్థిరత్వం, సారూప్యత బూస్ట్, శైలి అతిశయోక్తి మరియు స్పీకర్ బూస్ట్ అనేవి ElevenLabs వాయిస్ నియంత్రణలు:
- స్థిరత్వం ఒక పదబంధం నుండి తదుపరి దాని వరకు వాయిస్ ఎంత స్థిరంగా అనిపిస్తుందో నియంత్రిస్తుంది — అధికం మరింత నిలకడగా ఉంటుంది, తక్కువ మరింత సహజమైన వైవిధ్యాన్ని అనుమతిస్తుంది.
- సారూప్యత బూస్ట్ అవుట్పుట్ను సోర్స్ వాయిస్కు దగ్గరగా ఉంచుతుంది.
- స్పీకర్ బూస్ట్ అసలు స్పీకర్తో పోలికను మెరుగుపరుస్తుంది.
మార్పులను కాగితంపై కాదు, బిగ్గరగా పరీక్షించండి. ప్రతి సర్దుబాటు తర్వాత /agent/interfaceలోని వాయిస్ పరీక్షను ఉపయోగించండి — మీరు వాటిని విన్నప్పుడు వేగం మరియు ఉచ్చారణ సమస్యలు సెకన్లలో స్పష్టంగా కనిపిస్తాయి.