వాయిస్ & ఆడియో (STT/TTS)

ఆడియో టాబ్ మీ ఏజెంట్ ఎలా వింటుందో మరియు మాట్లాడుతుందో నియంత్రిస్తుంది. స్పీచ్-టు-టెక్స్ట్ (STT) మరియు టెక్స్ట్-టు-స్పీచ్ (TTS) రెండూ మల్టీ-ప్రొవైడర్ — మీరు ఒక ప్రొవైడర్‌ను ఎంచుకుంటారు, ఆపై ఒక మోడల్ మరియు ప్రొవైడర్-నిర్దిష్ట నియంత్రణలను ఎంచుకుంటారు. వీటిని సరిగ్గా సెట్ చేయడం వల్లే ఒక ఏజెంట్ సహజంగా అనిపిస్తుంది మరియు కాలర్‌లను ఖచ్చితంగా అర్థం చేసుకుంటుంది. దీన్ని /agent/setupలోని ఏజెంట్ బిల్డర్‌లో సెట్ చేయండి.

STT కోసం పైప్‌లైన్ మోడ్ మాత్రమే

స్పీచ్-టు-టెక్స్ట్ సెట్టింగ్‌లు పైప్‌లైన్ వాయిస్ మోడ్‌లో వర్తిస్తాయి. రియల్‌టైమ్ మోడ్‌లలో (Azure Realtime, Gemini Realtime) ట్రాన్స్‌క్రిప్షన్ ప్రొవైడర్ ద్వారా అంతర్గతంగా నిర్వహించబడుతుంది, కాబట్టి STT విభాగం విస్మరించబడుతుంది. వాయిస్ పైప్‌లైన్ మోడ్‌ను LLM టాబ్‌లో సెట్ చేయండి.

స్పీచ్-టు-టెక్స్ట్

Voice ట్యాబ్: భాష, మద్దతు ఉన్న లొకేల్‌లు, భాషా గుర్తింపు, మరియు speech-to-text / text-to-speech ప్రొవైడర్ సెట్టింగ్‌లు.

స్పీచ్-టు-టెక్స్ట్ కాలర్ ఆడియోను ఏజెంట్ చర్య తీసుకోగల వచనంగా మారుస్తుంది. మీ కాలర్‌లకు మరియు మీ డొమైన్‌కు సరిపోయే ఒక ప్రొవైడర్ మరియు మోడల్ను ఎంచుకోండి. STT ప్రొవైడర్‌లలో ఇవి ఉన్నాయి:

Deepgram (డిఫాల్ట్) — Nova-3 / Nova-2 మరియు మరిన్ని.
Azure — Default మరియు Conversation మోడల్‌లు.
Groq — Whisper Large v3 / Turbo.
Sarvam — Saarika (ఇండిక్).

సాధారణ నియంత్రణలు

లాంగ్వేజ్, విరామచిహ్నాలు, వర్డ్ టైమ్‌స్టాంప్‌లు మరియు ఇంటెరిమ్ ఫలితాలు ప్రొవైడర్‌ల అంతటా వర్తిస్తాయి. సరైన లాంగ్వేజ్‌ను సెట్ చేయడం ట్రాన్స్‌క్రిప్షన్ ఖచ్చితత్వంలో అతిపెద్ద ఒక్క కారకం.

ప్రొవైడర్-నిర్దిష్ట నియంత్రణలు

కొన్ని నియంత్రణలు వాటికి మద్దతిచ్చే ప్రొవైడర్‌కు మాత్రమే కనిపిస్తాయి:

Deepgram — కీవర్డ్ బూస్ట్, స్మార్ట్ ఫార్మాట్, ఫిల్లర్ తొలగింపు, డయరైజేషన్ (ట్రాన్స్‌క్రిప్ట్‌ను స్పీకర్ ద్వారా వేరు చేయడం), అశ్లీలత ఫిల్టర్, ప్రత్యామ్నాయాలు మరియు లేటెన్సీ మోడ్.
Azure — అశ్లీలత మోడ్ (మాస్క్‌డ్ / తొలగించబడింది / రా).
Sarvam — కోడ్ మిక్సింగ్.

గుర్తింపును మెరుగుపరచడానికి మీరు కస్టమ్ వొకాబులరీను (ఉత్పత్తి పేర్లు, బ్రాండ్ పదాలు, పరిభాష) కూడా జోడించవచ్చు, మరియు ఎండ్‌పాయింటింగ్ మరియు VAD టర్నాఫ్ టైమింగ్‌లను ట్యూన్ చేయవచ్చు.

PII రిడాక్షన్ గార్డ్‌రెయిల్స్‌లో ఉంటుంది

ట్రాన్స్‌క్రిప్ట్ PII రిడాక్షన్ (ఏ సున్నితమైన రకాలను మాస్క్ చేయాలి) ఇక్కడ కాదు, గార్డ్‌రెయిల్స్ టాబ్‌లో కాన్ఫిగర్ చేయబడుతుంది. ఏజెంట్‌ల అవలోకనం చూడండి.

టెక్స్ట్-టు-స్పీచ్

టెక్స్ట్-టు-స్పీచ్ అనేది మీ ఏజెంట్ మాట్లాడే వాయిస్. ఒక ప్రొవైడర్, మోడల్ మరియు వాయిస్ను ఎంచుకోండి. TTS ప్రొవైడర్‌లలో ఇవి ఉన్నాయి:

ElevenLabs (డిఫాల్ట్) — Turbo v2.5 / v2, Multilingual v2.
Azure — Neural మరియు Standard.
Google — Gemini TTS.
Cartesia — Sonic.
Groq — Orpheus.
Sarvam — Bulbul (ఇండిక్).

వాయిస్

మీ బ్రాండ్‌కు మరియు మీ కాలర్‌లకు సరిపోయే వాయిస్ను ఎంచుకోండి. మీరు వాయిస్ ల్యాబ్లో సృష్టించిన కస్టమ్ వాయిస్‌ను కూడా ఉపయోగించవచ్చు — ఒక చిన్న నమూనా నుండి వాయిస్‌ను క్లోన్ చేసి దాన్ని ఏజెంట్‌కు కేటాయించండి. దాన్ని వినడానికి ప్రివ్యూ బటన్‌ను ఉపయోగించండి.

సాధారణ నియంత్రణలు

వేగం, పిచ్, శైలి, వాల్యూమ్, ఎమోషన్, ప్రాధాన్యత, అవుట్‌పుట్ ఫార్మాట్ మరియు కస్టమ్ ఉచ్చారణలు ప్రొవైడర్‌ల అంతటా వర్తిస్తాయి. కొంచెం నెమ్మదిగా మాట్లాడటం ఫోన్ కాల్‌లో అనుసరించడానికి సులభం, ముఖ్యంగా నంబర్‌లు, తేదీలు మరియు నిర్ధారణలకు.

ElevenLabs-నిర్దిష్ట నియంత్రణలు

స్థిరత్వం, సారూప్యత బూస్ట్, శైలి అతిశయోక్తి మరియు స్పీకర్ బూస్ట్ అనేవి ElevenLabs వాయిస్ నియంత్రణలు:

స్థిరత్వం ఒక పదబంధం నుండి తదుపరి దాని వరకు వాయిస్ ఎంత స్థిరంగా అనిపిస్తుందో నియంత్రిస్తుంది — అధికం మరింత నిలకడగా ఉంటుంది, తక్కువ మరింత సహజమైన వైవిధ్యాన్ని అనుమతిస్తుంది.
సారూప్యత బూస్ట్ అవుట్‌పుట్‌ను సోర్స్ వాయిస్‌కు దగ్గరగా ఉంచుతుంది.
స్పీకర్ బూస్ట్ అసలు స్పీకర్‌తో పోలికను మెరుగుపరుస్తుంది.

tip

మార్పులను కాగితంపై కాదు, బిగ్గరగా పరీక్షించండి. ప్రతి సర్దుబాటు తర్వాత /agent/interfaceలోని వాయిస్ పరీక్షను ఉపయోగించండి — మీరు వాటిని విన్నప్పుడు వేగం మరియు ఉచ్చారణ సమస్యలు సెకన్లలో స్పష్టంగా కనిపిస్తాయి.

స్పీచ్-టు-టెక్స్ట్​

సాధారణ నియంత్రణలు​

ప్రొవైడర్-నిర్దిష్ట నియంత్రణలు​

టెక్స్ట్-టు-స్పీచ్​

వాయిస్​

సాధారణ నియంత్రణలు​

ElevenLabs-నిర్దిష్ట నియంత్రణలు​

తదుపరి దశలు​

స్పీచ్-టు-టెక్స్ట్

సాధారణ నియంత్రణలు

ప్రొవైడర్-నిర్దిష్ట నియంత్రణలు

టెక్స్ట్-టు-స్పీచ్

వాయిస్

సాధారణ నియంత్రణలు

ElevenLabs-నిర్దిష్ట నియంత్రణలు

తదుపరి దశలు