లాంగ్వేజ్ మోడల్ (LLM)

LLM టాబ్ మీ ఏజెంట్ ఎలా ఆలోచిస్తుందో మరియు దాని వాయిస్ పైప్‌లైన్ ఎలా వైర్ చేయబడిందో నిర్ణయిస్తుంది. ఇది వాయిస్ పైప్‌లైన్ మోడ్ను (స్పీచ్-టు-టెక్స్ట్, లాంగ్వేజ్ మోడల్ మరియు టెక్స్ట్-టు-స్పీచ్ ఎలా కలిసి సరిపోతాయో), ఏ LLM ప్రొవైడర్ మరియు మోడల్ సంభాషణను నడుపుతాయో, జనరేషన్ పారామితులను, ఒక ఫాల్‌బ్యాక్ మోడల్‌ను, మరియు RAG / నాలెడ్జ్-బేస్ లింకేజ్‌ను నియంత్రిస్తుంది. దీన్ని /agent/setupలోని ఏజెంట్ బిల్డర్‌లో సెట్ చేయండి.

వాయిస్ పైప్‌లైన్ మోడ్

Model ట్యాబ్: ఒక Voice Pipeline Mode‌ను ఎంచుకోండి — Azure Realtime, Cartesia Sonic, Gemini Realtime, లేదా ప్రత్యేక STT→LLM→TTS Pipeline.

ఇది ఈ టాబ్‌లో అత్యంత ముఖ్యమైన సెట్టింగ్ — కాల్ సమయంలో STT, LLM మరియు TTS ఎలా కలిసి వైర్ చేయబడతాయో ఇది నియంత్రిస్తుంది. నాలుగు మోడ్‌లలో ఒకదాన్ని ఎంచుకోండి:

Azure Realtime (డిఫాల్ట్) — Azure ఒక gpt-4o-realtime-preview డిప్లాయ్‌మెంట్‌ను ఉపయోగించి ఒకే WebSocket ద్వారా వాయిస్-యాక్టివిటీ డిటెక్షన్, స్పీచ్-టు-టెక్స్ట్ మరియు LLMను నిర్వహిస్తుంది. ఆడియో టాబ్‌లోని STT సెట్టింగ్‌లు విస్మరించబడతాయి; ఒక ప్రత్యేక TTS ప్రొవైడర్ ఆడియోను ఉత్పత్తి చేస్తుంది.
Cartesia Sonic — Cartesia యొక్క అల్ట్రా-లో-లేటెన్సీ Sonic TTSను, ఏదైనా LLM మరియు ఒక Azure/Groq STTతో ఉపయోగించే ఒక పైప్‌లైన్.
Gemini Realtime — Google Gemini Live VAD, STT మరియు LLMను స్థానికంగా నిర్వహిస్తుంది, భారతీయ భాషలకు బలమైన మద్దతుతో. ఇది తన స్వంత వాయిస్‌తో మాట్లాడగలదు (Native Audio) లేదా మీరు కాన్ఫిగర్ చేసిన TTS కోసం టెక్స్ట్‌ను అవుట్‌పుట్ చేయగలదు (Hybrid).
Pipeline (STT → LLM → TTS) — ప్రతి దశకు ప్రత్యేక ప్రొవైడర్‌లు, స్వతంత్రంగా కాన్ఫిగర్ చేయబడతాయి. మీరు ట్రాన్స్‌క్రైబర్, మోడల్ మరియు వాయిస్‌పై పూర్తి నియంత్రణ కోరుకున్నప్పుడు దీన్ని ఉపయోగించండి.

మోడ్ మరియు మోడల్ జతచేయబడ్డాయి

ప్రతి రియల్‌టైమ్ మోడ్‌కు ఒక నిర్దిష్ట మోడల్‌ల కుటుంబం అవసరం, మరియు మోడల్ నేరుగా రియల్‌టైమ్ ప్రొవైడర్‌కు పంపబడుతుంది — ఒక అననుకూల విలువ కాల్ సమయంలో విఫలమవుతుంది. మీరు మోడ్‌లను మార్చినప్పుడు బిల్డర్ ఒక అనుకూల మోడల్‌ను స్వయంచాలకంగా సెట్ చేస్తుంది, మరియు సేవ్ చేసినప్పుడు అది మోడల్‌ను మోడ్‌కు సరిచేస్తుంది. ప్రత్యేకంగా, gpt-4 వంటి ఒక సాధారణ చాట్ మోడల్ డిఫాల్ట్ Azure Realtime మోడ్‌కు చెల్లుబాటు కాదు మరియు సేవ్ చేసినప్పుడు తిరిగి రాయబడుతుంది; రియల్‌టైమ్ మోడ్‌ల కోసం ఒక రియల్‌టైమ్ డిప్లాయ్‌మెంట్‌ను, మరియు Pipeline / Cartesia Sonic కోసం ఒక చాట్-కంప్లీషన్ మోడల్‌ను ఎంచుకోండి.

ప్రొవైడర్ మరియు మోడల్‌ను ఎంచుకోండి

పూర్తిగా-నిర్వహించబడిన రియల్‌టైమ్ మోడ్‌ల వెలుపల, మీరు LLM ప్రొవైడర్ను ఆపై ఆ ప్రొవైడర్ కోసం ఒక మోడల్ను ఎంచుకుంటారు. ప్రొవైడర్ జాబితా మీ సంస్థ ఆధారాలను ప్రారంభించిన ప్రొవైడర్‌లను మాత్రమే చూపుతుంది (సెట్టింగ్‌లలో కాన్ఫిగర్ చేయబడింది). ఏమి ప్రారంభించబడిందో దానిపై ఆధారపడి, అందులో ఇతరవాటితో పాటు Azure OpenAI, Google Gemini, Groq, OpenRouter మరియు Sarvam ఉండవచ్చు.

Azure కోసం, మోడల్ ఎంపికలు మీరు కాన్ఫిగర్ చేసిన డిప్లాయ్‌మెంట్‌ల నుండి వస్తాయి (ప్రతి ఆధారం ఒక డిప్లాయ్‌మెంట్).
సింగిల్-కీ ప్రొవైడర్‌ల కోసం, మోడల్ జాబితా ప్లాట్‌ఫారమ్ యొక్క మోడల్ కేటలాగ్ నుండి వస్తుంది.

పనికి సరిపోయే మోడల్‌ను ఎంచుకోండి: అధిక-సామర్థ్యం గల మోడల్‌లు సంక్లిష్ట కాల్‌లపై మెరుగ్గా ఆలోచిస్తాయి, తేలికపాటి మోడల్‌లు వేగంగా ప్రతిస్పందిస్తాయి మరియు ప్రతి కాల్‌కు తక్కువ ఖర్చు అవుతుంది. చాలా కాలింగ్ ఏజెంట్లకు, ముడి నాణ్యత ఎంత ముఖ్యమో లేటెన్సీ కూడా అంతే ముఖ్యం.

మోడల్ పారామితులు

Model Parameters విభాగం జనరేషన్‌ను నియంత్రిస్తుంది:

టోకెన్‌లు — మోడల్ ప్రతి టర్న్‌కు ఎంత ఉత్పత్తి చేస్తుందో పరిమితం చేస్తుంది. ఏజెంట్ ఫోన్ కాల్‌లో వాగుడుగా మాట్లాడకుండా దీన్ని మితంగా ఉంచండి.
ఉష్ణోగ్రత — ప్రత్యుత్తరాలు ఎంత వైవిధ్యంగా ఉంటాయో. స్క్రిప్టెడ్, కంప్లయన్స్-సున్నితమైన కాల్‌లకు తక్కువ; సంభాషణాత్మక ఔట్‌రీచ్‌కు ఎక్కువ.
Top P — న్యూక్లియస్-శాంప్లింగ్ కటాఫ్, వైవిధ్యాన్ని నియంత్రించడానికి ఒక ప్రత్యామ్నాయ మార్గం.
ఫ్రీక్వెన్సీ పెనాల్టీ మరియు ప్రెజెన్స్ పెనాల్టీ — పునరావృతిని నిరుత్సాహపరుస్తాయి మరియు కొత్త అంశాలను పరిచయం చేయడానికి మోడల్‌ను ప్రోత్సహిస్తాయి.

అధునాతన సెట్టింగ్‌లు

Advanced Settings విభాగం కార్యాచరణ నియంత్రణలను జోడిస్తుంది:

టైమ్‌అవుట్ (ms) — ఒక టర్న్‌ను వదిలివేయడానికి ముందు మోడల్ కోసం ఎంతసేపు వేచి ఉండాలి.
రీట్రై కౌంట్ మరియు రీట్రై డిలే (ms) — ఒక విఫలమైన అభ్యర్థనను ఏజెంట్ ఎలా మళ్లీ ప్రయత్నిస్తుంది.
రెస్పాన్స్ ఫార్మాట్ — టెక్స్ట్ లేదా JSON.
స్ట్రీమ్ ఎనేబుల్డ్ — తక్కువ గ్రహించిన లేటెన్సీ కోసం టోకెన్‌లు ఉత్పత్తి అవుతున్నప్పుడు వాటిని స్ట్రీమ్ చేయండి (డిఫాల్ట్‌గా ఆన్).
JSON మోడ్ — నిర్మాణాత్మక JSON అవుట్‌పుట్‌ను బలవంతం చేయండి.
కాస్ట్ ట్రాకింగ్ — ఈ ఏజెంట్ కోసం టోకెన్ ఖర్చును రికార్డ్ చేయండి.

మీరు Custom Parameters కింద ముడి JSONగా అదనపు ప్రొవైడర్ పారామితులను కూడా అందించవచ్చు.

ఫాల్‌బ్యాక్ మోడల్

ప్రాథమికం అందుబాటులో లేకపోతే కాల్‌లు పనిచేస్తూ ఉండేలా ఒక ఫాల్‌బ్యాక్ ప్రొవైడర్ మరియు మోడల్ను సెట్ చేయండి. ప్రాథమికం ప్రతిస్పందించలేకపోతే, ఏజెంట్ సంభాషణను వదిలివేయడానికి బదులుగా ఫాల్‌బ్యాక్‌ను ఉపయోగిస్తుంది — ఒక ఏజెంట్‌ను స్థితిస్థాపకంగా చేయడానికి సరళమైన మార్గం.

నాలెడ్జ్ బేస్ & RAG

రిట్రీవల్-ఆగ్మెంటెడ్ జనరేషన్ ఇక్కడ, LLM టాబ్‌లో, Add Knowledge Base విభాగంలో కాన్ఫిగర్ చేయబడుతుంది. RAG Enabledను ఆన్ చేయండి, ఒకటి లేదా అంతకంటే ఎక్కువ నాలెడ్జ్ బేస్‌లను ఎంచుకోండి, మరియు RAG Top K (ఎన్ని పేరాలను తిరిగి పొందాలి) మరియు సారూప్యత థ్రెషోల్డ్ (ఒక పేరా ఎంత దగ్గరగా సరిపోలాలి)ను ట్యూన్ చేయండి. వీటిని ఎలా ట్యూన్ చేయాలో మరియు ముందుగా ఒక నాలెడ్జ్ బేస్‌ను ఎలా రూపొందించాలో నాలెడ్జ్ & RAG చూడండి.

వినియోగం మరియు ఖర్చును ట్రాక్ చేయడం

మోడల్ వినియోగం మీ సంస్థ ప్రీపెయిడ్ బ్యాలెన్స్ నుండి క్రెడిట్‌లను వినియోగిస్తుంది. మీ ఏజెంట్ల అంతటా వినియోగం మరియు ఖర్చును చూడటానికి, బిల్లింగ్ను ఉపయోగించండి — అవలోకనం ప్లాన్ మరియు వినియోగాన్ని చూపుతుంది, మరియు వాలెట్ మీ ప్రీపెయిడ్ క్రెడిట్, టాప్-అప్‌లు మరియు చరిత్రను చూపుతుంది. సమర్థవంతమైన మోడల్‌లను మరియు సహేతుకమైన టోకెన్ పరిమితులను ఎంచుకోవడం ఖర్చును నియంత్రించడానికి అత్యంత ప్రత్యక్ష మార్గం.

వాయిస్ పైప్‌లైన్ మోడ్​

ప్రొవైడర్ మరియు మోడల్‌ను ఎంచుకోండి​

మోడల్ పారామితులు​

అధునాతన సెట్టింగ్‌లు​

ఫాల్‌బ్యాక్ మోడల్​

నాలెడ్జ్ బేస్ & RAG​

వినియోగం మరియు ఖర్చును ట్రాక్ చేయడం​

తదుపరి దశలు​