الصوت والسمع (STT/TTS)
تتحكم علامة تبويب الصوت في كيف يسمع وكيلك ويتحدّث. كلٌّ من تحويل الكلام إلى نص (STT) وتحويل النص إلى كلام (TTS) متعدد المزوّدين — تختار مزوّدًا، ثم نموذجًا وعناصر التحكم الخاصة بالمزوّد. ضبط هذه بشكل صحيح هو ما يجعل الوكيل يبدو طبيعيًا ويفهم المتصلين بدقة. اضبط هذا في منشئ الوكلاء على /agent/setup.
تنطبق إعدادات تحويل الكلام إلى نص في وضع صوت Pipeline. في أوضاع realtime (Azure Realtime وGemini Realtime) يُعالَج النسخ داخليًا من المزوّد، فيُتجاهَل قسم STT. اضبط وضع خط أنابيب الصوت على علامة تبويب LLM.
تحويل الكلام إلى نص
علامة التبويب Voice: اللغة، اللغات المحلية المدعومة، اكتشاف اللغة، وإعدادات مزوّد STT / TTS.
يحوّل تحويل الكلام إلى نص صوت المتصل إلى نص يمكن للوكيل التصرّف بناءً عليه. اختر مزوّدًا ونموذجًا يناسبان متصليك ومجالك. يشمل مزوّدو STT:
- Deepgram (افتراضي) — Nova-3 / Nova-2 والمزيد.
- Azure — نموذجا Default وConversation.
- Groq — Whisper Large v3 / Turbo.
- Sarvam — Saarika (هندية).
عناصر التحكم الشائعة
تنطبق اللغة، وعلامات الترقيم، والطوابع الزمنية للكلمات، والنتائج المؤقتة عبر المزوّدين. ضبط اللغة الصحيحة هو العامل الأكبر منفردًا في دقة النسخ.
عناصر التحكم الخاصة بالمزوّد
تظهر بعض عناصر التحكم فقط للمزوّد الذي يدعمها:
- Deepgram — تعزيز الكلمات المفتاحية، والتنسيق الذكي، وإزالة الحشو، والتمييز بين المتحدثين (فصل النص حسب المتحدث)، ومرشّح الألفاظ النابية، والبدائل، ووضع الكمون.
- Azure — وضع الألفاظ النابية (مُخفًى / مُزال / خام).
- Sarvam — خلط الأكواد.
يمكنك أيضًا إضافة مفردات مخصصة (أسماء المنتجات، ومصطلحات العلامة التجارية، والمصطلحات الفنية) لتحسين التعرّف، وضبط توقيتات نقطة النهاية وإيقاف VAD.
يُهيّأ تنقيح معلومات التعريف الشخصية في النص (أي الأنواع الحساسة تُخفى) على علامة تبويب Guardrails، لا هنا. انظر نظرة عامة على الوكلاء.
تحويل النص إلى كلام
تحويل النص إلى كلام هو الصوت الذي يتحدّث به وكيلك. اختر مزوّدًا ونموذجًا وصوتًا. يشمل مزوّدو TTS:
- ElevenLabs (افتراضي) — Turbo v2.5 / v2، وMultilingual v2.
- Azure — Neural وStandard.
- Google — Gemini TTS.
- Cartesia — Sonic.
- Groq — Orpheus.
- Sarvam — Bulbul (هندية).
الصوت
اختر الصوت الذي يناسب علامتك التجارية ومتصليك. يمكنك أيضًا استخدام صوت مخصص أُنشئ في Voice Lab — استنسخ صوتًا من عيّنة قصيرة وعيّنه للوكيل. استخدم زر المعاينة لسماعه.
عناصر التحكم الشائعة
تنطبق السرعة، والنبرة، والنمط، ومستوى الصوت، والعاطفة، والتشديد، وتنسيق المخرَج، والنطق المخصص عبر المزوّدين. الكلام الأبطأ قليلًا أسهل في المتابعة على مكالمة هاتفية، خاصة للأرقام والتواريخ والتأكيدات.
عناصر التحكم الخاصة بـ ElevenLabs
الثبات، وتعزيز التشابه، ومبالغة النمط، وتعزيز المتحدث هي عناصر تحكم صوت ElevenLabs:
- الثبات يتحكم في مدى اتساق الصوت من عبارة إلى عبارة — الأعلى أكثر ثباتًا، والأدنى يسمح بتنوّع طبيعي أكثر.
- تعزيز التشابه يُبقي المخرَج قريبًا من الصوت المصدر.
- تعزيز المتحدث يعزّز الشبه بالمتحدث الأصلي.
اختبر التغييرات بصوت عالٍ، لا على الورق. استخدم اختبار الصوت على /agent/interface بعد كل تعديل — تكون مشكلات السرعة والنطق واضحة في ثوانٍ عندما تسمعها.