آواز اور آڈیو (STT/TTS)

Audio ٹیب کنٹرول کرتا ہے کہ آپ کا ایجنٹ کیسے سنتا اور بولتا ہے۔ speech-to-text (STT) اور text-to-speech (TTS) دونوں متعدد فراہم کنندگان والے ہیں — آپ ایک فراہم کنندہ منتخب کرتے ہیں، پھر ایک ماڈل اور فراہم کنندہ کے مخصوص کنٹرولز۔ ان کو درست کرنا ہی وہ چیز ہے جو ایک ایجنٹ کو فطری بناتی ہے اور کال کرنے والوں کو درست طور پر سمجھواتی ہے۔ اسے /agent/setup پر موجود ایجنٹ بلڈر میں سیٹ کریں۔

Pipeline mode only for STT

speech-to-text کی سیٹنگز Pipeline وائس موڈ میں لاگو ہوتی ہیں۔ ریئل ٹائم موڈز (Azure Realtime، Gemini Realtime) میں ٹرانسکرپشن فراہم کنندہ کے ذریعے اندرونی طور پر سنبھالی جاتی ہے، چنانچہ STT سیکشن کو نظر انداز کر دیا جاتا ہے۔ وائس پائپ لائن موڈ کو LLM ٹیب پر سیٹ کریں۔

Speech-to-text

Voice ٹیب: زبان، معاون لوکیلز، زبان کی شناخت، اور STT / TTS فراہم کنندہ کی ترتیبات۔

Speech-to-text کال کرنے والے کی آڈیو کو ایسے متن میں بدل دیتا ہے جس پر ایجنٹ عمل کر سکے۔ ایک ایسا فراہم کنندہ اور ماڈل منتخب کریں جو آپ کے کال کرنے والوں اور آپ کے شعبے سے میل کھاتا ہو۔ STT فراہم کنندگان میں شامل ہیں:

Deepgram (پہلے سے طے شدہ) — Nova-3 / Nova-2 اور مزید۔
Azure — Default اور Conversation ماڈلز۔
Groq — Whisper Large v3 / Turbo۔
Sarvam — Saarika (Indic)۔

عام کنٹرولز

زبان، رموزِ اوقاف، لفظی ٹائم اسٹیمپس اور عبوری نتائج تمام فراہم کنندگان پر لاگو ہوتے ہیں۔ درست زبان کا تعین ٹرانسکرپشن کی درستی میں سب سے بڑا واحد عنصر ہے۔

فراہم کنندہ کے مخصوص کنٹرولز

کچھ کنٹرولز صرف اسی فراہم کنندہ کے لیے ظاہر ہوتے ہیں جو انہیں سپورٹ کرتا ہے:

Deepgram — keyword boost، smart format، فلر ہٹانا، diarization (ٹرانسکرپٹ کو بولنے والے کے حساب سے الگ کرنا)، گالی فلٹر، متبادلات اور latency موڈ۔
Azure — گالی موڈ (masked / removed / raw)۔
Sarvam — code mixing۔

آپ پہچان بہتر کرنے کے لیے حسبِ ضرورت لغت (پروڈکٹ کے نام، برانڈ کی اصطلاحات، اصطلاحی الفاظ) بھی شامل کر سکتے ہیں، اور endpointing اور VAD turnoff کے اوقات ٹیون کر سکتے ہیں۔

PII redaction lives on Guardrails

ٹرانسکرپٹ PII redaction (کن حساس اقسام کو ماسک کرنا ہے) Guardrails ٹیب پر کنفیگر کیا جاتا ہے، یہاں نہیں۔ دیکھیں ایجنٹس کا جائزہ۔

Text-to-speech

Text-to-speech وہ آواز ہے جس کے ساتھ آپ کا ایجنٹ بولتا ہے۔ ایک فراہم کنندہ، ماڈل اور آواز منتخب کریں۔ TTS فراہم کنندگان میں شامل ہیں:

ElevenLabs (پہلے سے طے شدہ) — Turbo v2.5 / v2، Multilingual v2۔
Azure — Neural اور Standard۔
Google — Gemini TTS۔
Cartesia — Sonic۔
Groq — Orpheus۔
Sarvam — Bulbul (Indic)۔

آواز

ایسی آواز منتخب کریں جو آپ کے برانڈ اور آپ کے کال کرنے والوں سے میل کھاتی ہو۔ آپ Voice Lab میں بنائی گئی حسبِ ضرورت آواز بھی استعمال کر سکتے ہیں — ایک مختصر نمونے سے آواز کلون کریں اور اسے ایجنٹ کو تفویض کریں۔ اسے سننے کے لیے پیش نظارہ بٹن استعمال کریں۔

عام کنٹرولز

رفتار، پچ، انداز، حجم (volume)، جذبات، زور ، آؤٹ پٹ فارمیٹ اور حسبِ ضرورت تلفظ تمام فراہم کنندگان پر لاگو ہوتے ہیں۔ تھوڑی سی سست تقریر فون کال پر سمجھنے میں آسان ہوتی ہے، خاص طور پر اعداد، تاریخوں اور تصدیقوں کے لیے۔

ElevenLabs کے مخصوص کنٹرولز

Stability، similarity boost، style exaggeration اور speaker boost ElevenLabs کی آواز کے کنٹرولز ہیں:

Stability کنٹرول کرتا ہے کہ آواز فقرے سے فقرے تک کتنی مستقل سنائی دیتی ہے — زیادہ زیادہ مستحکم، کم زیادہ فطری تنوع کی اجازت دیتا ہے۔
Similarity boost آؤٹ پٹ کو ماخذ آواز کے قریب رکھتا ہے۔
Speaker boost اصل بولنے والے سے مشابہت کو بہتر بناتا ہے۔

ٹپ

تبدیلیوں کو کاغذ پر نہیں، بلند آواز میں ٹیسٹ کریں۔ ہر ایڈجسٹمنٹ کے بعد /agent/interface پر وائس ٹیسٹ استعمال کریں — رفتار اور تلفظ کے مسائل اس وقت سیکنڈوں میں واضح ہو جاتے ہیں جب آپ انہیں سنتے ہیں۔

Speech-to-text​

عام کنٹرولز​

فراہم کنندہ کے مخصوص کنٹرولز​

Text-to-speech​

آواز​

عام کنٹرولز​

ElevenLabs کے مخصوص کنٹرولز​

اگلے اقدامات​

Speech-to-text

عام کنٹرولز

فراہم کنندہ کے مخصوص کنٹرولز

Text-to-speech

آواز

عام کنٹرولز

ElevenLabs کے مخصوص کنٹرولز

اگلے اقدامات