ভয়েস ও অডিও (STT/TTS)

Audio ট্যাব নিয়ন্ত্রণ করে আপনার এজেন্ট কীভাবে শোনে এবং কথা বলে। speech-to-text (STT) এবং text-to-speech (TTS) উভয়ই মাল্টি-প্রদানকারী — আপনি একটি প্রদানকারী বেছে নেন, তারপর একটি মডেল এবং প্রদানকারী-নির্দিষ্ট নিয়ন্ত্রণ। এগুলি ঠিক করাই একটি এজেন্টকে স্বাভাবিক শোনায় এবং কলারদের সঠিকভাবে বুঝতে সক্ষম করে। এটি /agent/setup-এ এজেন্ট বিল্ডারে সেট করুন।

Pipeline মোড শুধুমাত্র STT-এর জন্য

speech-to-text সেটিংস Pipeline ভয়েস মোডে প্রযোজ্য। realtime মোডগুলিতে (Azure Realtime, Gemini Realtime) ট্রান্সক্রিপশন অভ্যন্তরীণভাবে প্রদানকারী দ্বারা পরিচালিত হয়, তাই STT বিভাগ উপেক্ষা করা হয়। LLM ট্যাবে voice pipeline mode সেট করুন।

Speech-to-text

Voice ট্যাব: ভাষা, সমর্থিত লোকেল, ভাষা শনাক্তকরণ এবং STT / TTS প্রোভাইডার সেটিংস।

speech-to-text কলারের অডিওকে টেক্সটে পরিণত করে যা এজেন্ট কাজে লাগাতে পারে। আপনার কলার এবং আপনার ডোমেইনের সাথে মানানসই একটি provider এবং model বেছে নিন। STT প্রদানকারীদের মধ্যে রয়েছে:

Deepgram (ডিফল্ট) — Nova-3 / Nova-2 এবং আরও।
Azure — Default এবং Conversation মডেল।
Groq — Whisper Large v3 / Turbo।
Sarvam — Saarika (Indic)।

সাধারণ নিয়ন্ত্রণ

Language, punctuation, word timestamps এবং interim results প্রদানকারীদের জুড়ে প্রযোজ্য। সঠিক ভাষা সেট করা ট্রান্সক্রিপশন সঠিকতার একক বৃহত্তম কারণ।

প্রদানকারী-নির্দিষ্ট নিয়ন্ত্রণ

কিছু নিয়ন্ত্রণ শুধুমাত্র সেই প্রদানকারীর জন্য দেখা যায় যা সেগুলি সমর্থন করে:

Deepgram — keyword boost, smart format, filler removal, diarization (বক্তা অনুযায়ী ট্রান্সক্রিপ্ট আলাদা করুন), profanity filter, alternatives এবং latency mode।
Azure — profanity mode (masked / removed / raw)।
Sarvam — code mixing।

আপনি স্বীকৃতি উন্নত করতে custom vocabulary (পণ্যের নাম, ব্র্যান্ড শব্দ, পরিভাষা) যোগ করতে পারেন, এবং endpointing এবং VAD turnoff টাইমিং টিউন করতে পারেন।

PII redaction Guardrails-এ থাকে

ট্রান্সক্রিপ্ট PII redaction (কোন সংবেদনশীল ধরন mask করতে হবে) এখানে নয়, Guardrails ট্যাবে কনফিগার করা হয়। দেখুন এজেন্ট ওভারভিউ।

Text-to-speech

text-to-speech হলো আপনার এজেন্ট যে ভয়েসে কথা বলে। একটি provider, model এবং voice বেছে নিন। TTS প্রদানকারীদের মধ্যে রয়েছে:

ElevenLabs (ডিফল্ট) — Turbo v2.5 / v2, Multilingual v2।
Azure — Neural এবং Standard।
Google — Gemini TTS।
Cartesia — Sonic।
Groq — Orpheus।
Sarvam — Bulbul (Indic)।

ভয়েস

আপনার ব্র্যান্ড এবং আপনার কলারদের সাথে মানানসই voice বেছে নিন। আপনি Voice Lab-এ তৈরি একটি কাস্টম ভয়েসও ব্যবহার করতে পারেন — একটি ছোট নমুনা থেকে একটি ভয়েস ক্লোন করুন এবং এটি এজেন্টে বরাদ্দ করুন। এটি শুনতে প্রিভিউ বোতাম ব্যবহার করুন।

সাধারণ নিয়ন্ত্রণ

Speed, pitch, style, volume, emotion, emphasis, output format এবং কাস্টম pronunciations প্রদানকারীদের জুড়ে প্রযোজ্য। সামান্য ধীর কথা একটি ফোন কলে অনুসরণ করা সহজ, বিশেষ করে সংখ্যা, তারিখ এবং নিশ্চিতকরণের জন্য।

ElevenLabs-নির্দিষ্ট নিয়ন্ত্রণ

Stability, similarity boost, style exaggeration এবং speaker boost হলো ElevenLabs ভয়েস নিয়ন্ত্রণ:

Stability নিয়ন্ত্রণ করে ভয়েসটি বাক্যাংশ থেকে বাক্যাংশে কতটা সামঞ্জস্যপূর্ণ শোনায় — উচ্চ আরও স্থিতিশীল, নিম্ন আরও স্বাভাবিক বৈচিত্র্যের অনুমতি দেয়।
Similarity boost আউটপুটকে উৎস ভয়েসের কাছাকাছি রাখে।
Speaker boost মূল বক্তার সাথে সাদৃশ্য বাড়ায়।

tip

পরিবর্তনগুলি কাগজে নয়, উচ্চস্বরে পরীক্ষা করুন। প্রতিটি সমন্বয়ের পরে /agent/interface-এ ভয়েস পরীক্ষা ব্যবহার করুন — গতি এবং উচ্চারণ সমস্যা যখন আপনি শোনেন তখন সেকেন্ডে স্পষ্ট হয়।

Speech-to-text​

সাধারণ নিয়ন্ত্রণ​

প্রদানকারী-নির্দিষ্ট নিয়ন্ত্রণ​

Text-to-speech​

ভয়েস​

সাধারণ নিয়ন্ত্রণ​

ElevenLabs-নির্দিষ্ট নিয়ন্ত্রণ​

পরবর্তী ধাপ​

Speech-to-text

সাধারণ নিয়ন্ত্রণ

প্রদানকারী-নির্দিষ্ট নিয়ন্ত্রণ

Text-to-speech

ভয়েস

সাধারণ নিয়ন্ত্রণ

ElevenLabs-নির্দিষ্ট নিয়ন্ত্রণ

পরবর্তী ধাপ