Skip to main content

ਆਵਾਜ਼ ਅਤੇ ਆਡੀਓ (STT/TTS)

Audio ਟੈਬ ਕੰਟਰੋਲ ਕਰਦਾ ਹੈ ਕਿ ਤੁਹਾਡਾ ਏਜੰਟ ਕਿਵੇਂ ਸੁਣਦਾ ਅਤੇ ਬੋਲਦਾ ਹੈ। ਸਪੀਚ-ਟੂ-ਟੈਕਸਟ (STT) ਅਤੇ ਟੈਕਸਟ-ਟੂ-ਸਪੀਚ (TTS) ਦੋਵੇਂ ਬਹੁ-ਪ੍ਰਦਾਤਾ ਹਨ — ਤੁਸੀਂ ਇੱਕ ਪ੍ਰਦਾਤਾ ਚੁਣਦੇ ਹੋ, ਫਿਰ ਇੱਕ ਮਾਡਲ ਅਤੇ ਪ੍ਰਦਾਤਾ-ਵਿਸ਼ੇਸ਼ ਕੰਟਰੋਲ। ਇਹਨਾਂ ਨੂੰ ਸਹੀ ਕਰਨਾ ਹੀ ਏਜੰਟ ਨੂੰ ਕੁਦਰਤੀ ਸੁਣਾਈ ਦੇਣ ਵਾਲਾ ਅਤੇ ਕਾਲਰਾਂ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਸਮਝਣ ਵਾਲਾ ਬਣਾਉਂਦਾ ਹੈ। ਇਸਨੂੰ ਏਜੰਟ ਬਿਲਡਰ ਵਿੱਚ /agent/setup 'ਤੇ ਸੈੱਟ ਕਰੋ।

ਪਾਈਪਲਾਈਨ ਮੋਡ ਸਿਰਫ਼ STT ਲਈ

ਸਪੀਚ-ਟੂ-ਟੈਕਸਟ ਸੈਟਿੰਗਾਂ Pipeline ਵੌਇਸ ਮੋਡ ਵਿੱਚ ਲਾਗੂ ਹੁੰਦੀਆਂ ਹਨ। ਰੀਅਲਟਾਈਮ ਮੋਡਾਂ (Azure Realtime, Gemini Realtime) ਵਿੱਚ ਟ੍ਰਾਂਸਕ੍ਰਿਪਸ਼ਨ ਪ੍ਰਦਾਤਾ ਦੁਆਰਾ ਅੰਦਰੂਨੀ ਤੌਰ 'ਤੇ ਸੰਭਾਲਿਆ ਜਾਂਦਾ ਹੈ, ਇਸ ਲਈ STT ਸੈਕਸ਼ਨ ਨੂੰ ਨਜ਼ਰਅੰਦਾਜ਼ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। ਵੌਇਸ ਪਾਈਪਲਾਈਨ ਮੋਡ LLM ਟੈਬ 'ਤੇ ਸੈੱਟ ਕਰੋ।

ਸਪੀਚ-ਟੂ-ਟੈਕਸਟ

Voice ਟੈਬ Voice ਟੈਬ: ਭਾਸ਼ਾ, ਸਮਰਥਿਤ ਲੋਕੇਲਾਂ, ਭਾਸ਼ਾ ਪਛਾਣ, ਅਤੇ STT / TTS ਪ੍ਰਦਾਤਾ ਸੈਟਿੰਗਾਂ।

ਸਪੀਚ-ਟੂ-ਟੈਕਸਟ ਕਾਲਰ ਦੇ ਆਡੀਓ ਨੂੰ ਉਸ ਟੈਕਸਟ ਵਿੱਚ ਬਦਲਦਾ ਹੈ ਜਿਸ 'ਤੇ ਏਜੰਟ ਕਾਰਵਾਈ ਕਰ ਸਕਦਾ ਹੈ। ਇੱਕ ਪ੍ਰਦਾਤਾ ਅਤੇ ਮਾਡਲ ਚੁਣੋ ਜੋ ਤੁਹਾਡੇ ਕਾਲਰਾਂ ਅਤੇ ਤੁਹਾਡੇ ਖੇਤਰ ਨਾਲ ਫਿੱਟ ਹੋਣ। STT ਪ੍ਰਦਾਤਾਵਾਂ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:

  • Deepgram (ਡਿਫਾਲਟ) — Nova-3 / Nova-2 ਅਤੇ ਹੋਰ।
  • Azure — Default ਅਤੇ Conversation ਮਾਡਲ।
  • Groq — Whisper Large v3 / Turbo।
  • Sarvam — Saarika (ਭਾਰਤੀ)।

ਆਮ ਕੰਟਰੋਲ

ਭਾਸ਼ਾ, ਵਿਰਾਮ ਚਿੰਨ੍ਹ, ਸ਼ਬਦ ਟਾਈਮਸਟੈਂਪ ਅਤੇ ਅੰਤਰਿਮ ਨਤੀਜੇ ਸਾਰੇ ਪ੍ਰਦਾਤਾਵਾਂ ਵਿੱਚ ਲਾਗੂ ਹੁੰਦੇ ਹਨ। ਸਹੀ ਭਾਸ਼ਾ ਸੈੱਟ ਕਰਨਾ ਟ੍ਰਾਂਸਕ੍ਰਿਪਸ਼ਨ ਸ਼ੁੱਧਤਾ ਵਿੱਚ ਸਭ ਤੋਂ ਵੱਡਾ ਇੱਕਲਾ ਕਾਰਕ ਹੈ।

ਪ੍ਰਦਾਤਾ-ਵਿਸ਼ੇਸ਼ ਕੰਟਰੋਲ

ਕੁਝ ਕੰਟਰੋਲ ਸਿਰਫ਼ ਉਸ ਪ੍ਰਦਾਤਾ ਲਈ ਪ੍ਰਗਟ ਹੁੰਦੇ ਹਨ ਜੋ ਉਹਨਾਂ ਦਾ ਸਮਰਥਨ ਕਰਦਾ ਹੈ:

  • Deepgram — ਕੀਵਰਡ ਬੂਸਟ, ਸਮਾਰਟ ਫਾਰਮੈਟ, ਫਿਲਰ ਹਟਾਉਣਾ, diarization (ਟ੍ਰਾਂਸਕ੍ਰਿਪਟ ਨੂੰ ਸਪੀਕਰ ਅਨੁਸਾਰ ਵੱਖ ਕਰੋ), ਅਪਸ਼ਬਦ ਫਿਲਟਰ, ਵਿਕਲਪ ਅਤੇ ਲੇਟੈਂਸੀ ਮੋਡ।
  • Azure — ਅਪਸ਼ਬਦ ਮੋਡ (masked / removed / raw)।
  • Sarvam — ਕੋਡ ਮਿਕਸਿੰਗ।

ਤੁਸੀਂ ਪਛਾਣ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ ਕਸਟਮ ਸ਼ਬਦਾਵਲੀ (ਉਤਪਾਦ ਨਾਮ, ਬ੍ਰਾਂਡ ਸ਼ਬਦ, ਜਾਰਗਨ) ਵੀ ਜੋੜ ਸਕਦੇ ਹੋ, ਅਤੇ ਐਂਡਪੁਆਇੰਟਿੰਗ ਅਤੇ VAD ਟਰਨਆਫ ਸਮੇਂ ਟਿਊਨ ਕਰ ਸਕਦੇ ਹੋ।

PII redaction Guardrails 'ਤੇ ਰਹਿੰਦਾ ਹੈ

ਟ੍ਰਾਂਸਕ੍ਰਿਪਟ PII redaction (ਕਿਹੜੀਆਂ ਸੰਵੇਦਨਸ਼ੀਲ ਕਿਸਮਾਂ ਨੂੰ ਮਾਸਕ ਕਰਨਾ ਹੈ) Guardrails ਟੈਬ 'ਤੇ ਕੌਂਫ਼ਿਗਰ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਇੱਥੇ ਨਹੀਂ। ਦੇਖੋ ਏਜੰਟ ਸੰਖੇਪ

ਟੈਕਸਟ-ਟੂ-ਸਪੀਚ

ਟੈਕਸਟ-ਟੂ-ਸਪੀਚ ਉਹ ਆਵਾਜ਼ ਹੈ ਜਿਸ ਨਾਲ ਤੁਹਾਡਾ ਏਜੰਟ ਬੋਲਦਾ ਹੈ। ਇੱਕ ਪ੍ਰਦਾਤਾ, ਮਾਡਲ ਅਤੇ ਆਵਾਜ਼ ਚੁਣੋ। TTS ਪ੍ਰਦਾਤਾਵਾਂ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:

  • ElevenLabs (ਡਿਫਾਲਟ) — Turbo v2.5 / v2, Multilingual v2।
  • Azure — Neural ਅਤੇ Standard।
  • Google — Gemini TTS।
  • Cartesia — Sonic।
  • Groq — Orpheus।
  • Sarvam — Bulbul (ਭਾਰਤੀ)।

ਆਵਾਜ਼

ਉਹ ਆਵਾਜ਼ ਚੁਣੋ ਜੋ ਤੁਹਾਡੇ ਬ੍ਰਾਂਡ ਅਤੇ ਤੁਹਾਡੇ ਕਾਲਰਾਂ ਨਾਲ ਫਿੱਟ ਹੋਵੇ। ਤੁਸੀਂ ਵੌਇਸ ਲੈਬ ਵਿੱਚ ਬਣਾਈ ਇੱਕ ਕਸਟਮ ਆਵਾਜ਼ ਵੀ ਵਰਤ ਸਕਦੇ ਹੋ — ਇੱਕ ਛੋਟੇ ਨਮੂਨੇ ਤੋਂ ਆਵਾਜ਼ ਕਲੋਨ ਕਰੋ ਅਤੇ ਇਸਨੂੰ ਏਜੰਟ ਨੂੰ ਸੌਂਪੋ। ਇਸਨੂੰ ਸੁਣਨ ਲਈ ਪ੍ਰੀਵਿਊ ਬਟਨ ਵਰਤੋ।

ਆਮ ਕੰਟਰੋਲ

ਗਤੀ, ਪਿੱਚ, ਸ਼ੈਲੀ, ਆਵਾਜ਼ ਦੀ ਉੱਚਾਈ, ਭਾਵਨਾ, ਜ਼ੋਰ, ਆਊਟਪੁੱਟ ਫਾਰਮੈਟ ਅਤੇ ਕਸਟਮ ਉਚਾਰਨ ਸਾਰੇ ਪ੍ਰਦਾਤਾਵਾਂ ਵਿੱਚ ਲਾਗੂ ਹੁੰਦੇ ਹਨ। ਥੋੜ੍ਹਾ ਹੌਲਾ ਬੋਲ ਫ਼ੋਨ ਕਾਲ 'ਤੇ ਪਾਲਣ ਕਰਨਾ ਸੌਖਾ ਹੁੰਦਾ ਹੈ, ਖਾਸ ਕਰਕੇ ਨੰਬਰਾਂ, ਤਾਰੀਖ਼ਾਂ ਅਤੇ ਪੁਸ਼ਟੀਆਂ ਲਈ।

ElevenLabs-ਵਿਸ਼ੇਸ਼ ਕੰਟਰੋਲ

Stability, similarity boost, style exaggeration ਅਤੇ speaker boost ElevenLabs ਆਵਾਜ਼ ਕੰਟਰੋਲ ਹਨ:

  • Stability ਕੰਟਰੋਲ ਕਰਦੀ ਹੈ ਕਿ ਆਵਾਜ਼ ਵਾਕਾਂਸ਼ ਤੋਂ ਵਾਕਾਂਸ਼ ਤੱਕ ਕਿੰਨੀ ਇਕਸਾਰ ਸੁਣਾਈ ਦਿੰਦੀ ਹੈ — ਜ਼ਿਆਦਾ ਜ਼ਿਆਦਾ ਸਥਿਰ ਹੈ, ਘੱਟ ਵਧੇਰੇ ਕੁਦਰਤੀ ਭਿੰਨਤਾ ਦੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ।
  • Similarity boost ਆਊਟਪੁੱਟ ਨੂੰ ਸਰੋਤ ਆਵਾਜ਼ ਦੇ ਨੇੜੇ ਰੱਖਦਾ ਹੈ।
  • Speaker boost ਮੂਲ ਸਪੀਕਰ ਨਾਲ ਮੇਲ ਨੂੰ ਵਧਾਉਂਦਾ ਹੈ।
tip

ਤਬਦੀਲੀਆਂ ਨੂੰ ਉੱਚੀ ਆਵਾਜ਼ ਵਿੱਚ ਟੈਸਟ ਕਰੋ, ਕਾਗਜ਼ 'ਤੇ ਨਹੀਂ। ਹਰ ਸਮਾਯੋਜਨ ਤੋਂ ਬਾਅਦ /agent/interface 'ਤੇ ਵੌਇਸ ਟੈਸਟ ਵਰਤੋ — ਜਦੋਂ ਤੁਸੀਂ ਉਹਨਾਂ ਨੂੰ ਸੁਣਦੇ ਹੋ ਤਾਂ ਗਤੀ ਅਤੇ ਉਚਾਰਨ ਦੀਆਂ ਸਮੱਸਿਆਵਾਂ ਸਕਿੰਟਾਂ ਵਿੱਚ ਸਪਸ਼ਟ ਹੋ ਜਾਂਦੀਆਂ ਹਨ।

ਅਗਲੇ ਕਦਮ