ਆਵਾਜ਼ ਅਤੇ ਆਡੀਓ (STT/TTS)
Audio ਟੈਬ ਕੰਟਰੋਲ ਕਰਦਾ ਹੈ ਕਿ ਤੁਹਾਡਾ ਏਜੰਟ ਕਿਵੇਂ ਸੁਣਦਾ ਅਤੇ ਬੋਲਦਾ ਹੈ। ਸਪੀਚ-ਟੂ-ਟੈਕਸਟ (STT) ਅਤੇ ਟੈਕਸਟ-ਟੂ-ਸਪੀਚ (TTS) ਦੋਵੇਂ ਬਹੁ-ਪ੍ਰਦਾਤਾ ਹਨ — ਤੁਸੀਂ ਇੱਕ ਪ੍ਰਦਾਤਾ ਚੁਣਦੇ ਹੋ, ਫਿਰ ਇੱਕ ਮਾਡਲ ਅਤੇ ਪ੍ਰਦਾਤਾ-ਵਿਸ਼ੇਸ਼ ਕੰਟਰੋਲ। ਇਹਨਾਂ ਨੂੰ ਸਹੀ ਕਰਨਾ ਹੀ ਏਜੰਟ ਨੂੰ ਕੁਦਰਤੀ ਸੁਣਾਈ ਦੇਣ ਵਾਲਾ ਅਤੇ ਕਾਲਰਾਂ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਸਮਝਣ ਵਾਲਾ ਬਣਾਉਂਦਾ ਹੈ। ਇਸਨੂੰ ਏਜੰਟ ਬਿਲਡਰ ਵਿੱਚ /agent/setup 'ਤੇ ਸੈੱਟ ਕਰੋ।
ਸਪੀਚ-ਟੂ-ਟੈਕਸਟ ਸੈਟਿੰਗਾਂ Pipeline ਵੌਇਸ ਮੋਡ ਵਿੱਚ ਲਾਗੂ ਹੁੰਦੀਆਂ ਹਨ। ਰੀਅਲਟਾਈਮ ਮੋਡਾਂ (Azure Realtime, Gemini Realtime) ਵਿੱਚ ਟ੍ਰਾਂਸਕ੍ਰਿਪਸ਼ਨ ਪ੍ਰਦਾਤਾ ਦੁਆਰਾ ਅੰਦਰੂਨੀ ਤੌਰ 'ਤੇ ਸੰਭਾਲਿਆ ਜਾਂਦਾ ਹੈ, ਇਸ ਲਈ STT ਸੈਕਸ਼ਨ ਨੂੰ ਨਜ਼ਰਅੰਦਾਜ਼ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। ਵੌਇਸ ਪਾਈਪਲਾਈਨ ਮੋਡ LLM ਟੈਬ 'ਤੇ ਸੈੱਟ ਕਰੋ।
ਸਪੀਚ-ਟੂ-ਟੈਕਸਟ
Voice ਟੈਬ: ਭਾਸ਼ਾ, ਸਮਰਥਿਤ ਲੋਕੇਲਾਂ, ਭਾਸ਼ਾ ਪਛਾਣ, ਅਤੇ STT / TTS ਪ੍ਰਦਾਤਾ ਸੈਟਿੰਗਾਂ।
ਸਪੀਚ-ਟੂ-ਟੈਕਸਟ ਕਾਲਰ ਦੇ ਆਡੀਓ ਨੂੰ ਉਸ ਟੈਕਸਟ ਵਿੱਚ ਬਦਲਦਾ ਹੈ ਜਿਸ 'ਤੇ ਏਜੰਟ ਕਾਰਵਾਈ ਕਰ ਸਕਦਾ ਹੈ। ਇੱਕ ਪ੍ਰਦਾਤਾ ਅਤੇ ਮਾਡਲ ਚੁਣੋ ਜੋ ਤੁਹਾਡੇ ਕਾਲਰਾਂ ਅਤੇ ਤੁਹਾਡੇ ਖੇਤਰ ਨਾਲ ਫਿੱਟ ਹੋਣ। STT ਪ੍ਰਦਾਤਾਵਾਂ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:
- Deepgram (ਡਿਫਾਲਟ) — Nova-3 / Nova-2 ਅਤੇ ਹੋਰ।
- Azure — Default ਅਤੇ Conversation ਮਾਡਲ।
- Groq — Whisper Large v3 / Turbo।
- Sarvam — Saarika (ਭਾਰਤੀ)।
ਆਮ ਕੰਟਰੋਲ
ਭਾਸ਼ਾ, ਵਿਰਾਮ ਚਿੰਨ੍ਹ, ਸ਼ਬਦ ਟਾਈਮਸਟੈਂਪ ਅਤੇ ਅੰਤਰਿਮ ਨਤੀਜੇ ਸਾਰੇ ਪ੍ਰਦਾਤਾਵਾਂ ਵਿੱਚ ਲਾਗੂ ਹੁੰਦੇ ਹਨ। ਸਹੀ ਭਾਸ਼ਾ ਸੈੱਟ ਕਰਨਾ ਟ੍ਰਾਂਸਕ੍ਰਿਪਸ਼ਨ ਸ਼ੁੱਧਤਾ ਵਿੱਚ ਸਭ ਤੋਂ ਵੱਡਾ ਇੱਕਲਾ ਕਾਰਕ ਹੈ।
ਪ੍ਰਦਾਤਾ-ਵਿਸ਼ੇਸ਼ ਕੰਟਰੋਲ
ਕੁਝ ਕੰਟਰੋਲ ਸਿਰਫ਼ ਉਸ ਪ੍ਰਦਾਤਾ ਲਈ ਪ੍ਰਗਟ ਹੁੰਦੇ ਹਨ ਜੋ ਉਹਨਾਂ ਦਾ ਸਮਰਥਨ ਕਰਦਾ ਹੈ:
- Deepgram — ਕੀਵਰਡ ਬੂਸਟ, ਸਮਾਰਟ ਫਾਰਮੈਟ, ਫਿਲਰ ਹਟਾਉਣਾ, diarization (ਟ੍ਰਾਂਸਕ੍ਰਿਪਟ ਨੂੰ ਸਪੀਕਰ ਅਨੁਸਾਰ ਵੱਖ ਕਰੋ), ਅਪਸ਼ਬਦ ਫਿਲਟਰ, ਵਿਕਲਪ ਅਤੇ ਲੇਟੈਂਸੀ ਮੋਡ।
- Azure — ਅਪਸ਼ਬਦ ਮੋਡ (masked / removed / raw)।
- Sarvam — ਕੋਡ ਮਿਕਸਿੰਗ।
ਤੁਸੀਂ ਪਛਾਣ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ ਕਸਟਮ ਸ਼ਬਦਾਵਲੀ (ਉਤਪਾਦ ਨਾਮ, ਬ੍ਰਾਂਡ ਸ਼ਬਦ, ਜਾਰਗਨ) ਵੀ ਜੋੜ ਸਕਦੇ ਹੋ, ਅਤੇ ਐਂਡਪੁਆਇੰਟਿੰਗ ਅਤੇ VAD ਟਰਨਆਫ ਸਮੇਂ ਟਿਊਨ ਕਰ ਸਕਦੇ ਹੋ।
ਟ੍ਰਾਂਸਕ੍ਰਿਪਟ PII redaction (ਕਿਹੜੀਆਂ ਸੰਵੇਦਨਸ਼ੀਲ ਕਿਸਮਾਂ ਨੂੰ ਮਾਸਕ ਕਰਨਾ ਹੈ) Guardrails ਟੈਬ 'ਤੇ ਕੌਂਫ਼ਿਗਰ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਇੱਥੇ ਨਹੀਂ। ਦੇਖੋ ਏਜੰਟ ਸੰਖੇਪ।
ਟੈਕਸਟ-ਟੂ-ਸਪੀਚ
ਟੈਕਸਟ-ਟੂ-ਸਪੀਚ ਉਹ ਆਵਾਜ਼ ਹੈ ਜਿਸ ਨਾਲ ਤੁਹਾਡਾ ਏਜੰਟ ਬੋਲਦਾ ਹੈ। ਇੱਕ ਪ੍ਰਦਾਤਾ, ਮਾਡਲ ਅਤੇ ਆਵਾਜ਼ ਚੁਣੋ। TTS ਪ੍ਰਦਾਤਾਵਾਂ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:
- ElevenLabs (ਡਿਫਾਲਟ) — Turbo v2.5 / v2, Multilingual v2।
- Azure — Neural ਅਤੇ Standard।
- Google — Gemini TTS।
- Cartesia — Sonic।
- Groq — Orpheus।
- Sarvam — Bulbul (ਭਾਰਤੀ)।
ਆਵਾਜ਼
ਉਹ ਆਵਾਜ਼ ਚੁਣੋ ਜੋ ਤੁਹਾਡੇ ਬ੍ਰਾਂਡ ਅਤੇ ਤੁਹਾਡੇ ਕਾਲਰਾਂ ਨਾਲ ਫਿੱਟ ਹੋਵੇ। ਤੁਸੀਂ ਵੌਇਸ ਲੈਬ ਵਿੱਚ ਬਣਾਈ ਇੱਕ ਕਸਟਮ ਆਵਾਜ਼ ਵੀ ਵਰਤ ਸਕਦੇ ਹੋ — ਇੱਕ ਛੋਟੇ ਨਮੂਨੇ ਤੋਂ ਆਵਾਜ਼ ਕਲੋਨ ਕਰੋ ਅਤੇ ਇਸਨੂੰ ਏਜੰਟ ਨੂੰ ਸੌਂਪੋ। ਇਸਨੂੰ ਸੁਣਨ ਲਈ ਪ੍ਰੀਵਿਊ ਬਟਨ ਵਰਤੋ।
ਆਮ ਕੰਟਰੋਲ
ਗਤੀ, ਪਿੱਚ, ਸ਼ੈਲੀ, ਆਵਾਜ਼ ਦੀ ਉੱਚਾਈ, ਭਾਵਨਾ, ਜ਼ੋਰ, ਆਊਟਪੁੱਟ ਫਾਰਮੈਟ ਅਤੇ ਕਸਟਮ ਉਚਾਰਨ ਸਾਰੇ ਪ੍ਰਦਾਤਾਵਾਂ ਵਿੱਚ ਲਾਗੂ ਹੁੰਦੇ ਹਨ। ਥੋੜ੍ਹਾ ਹੌਲਾ ਬੋਲ ਫ਼ੋਨ ਕਾਲ 'ਤੇ ਪਾਲਣ ਕਰਨਾ ਸੌਖਾ ਹੁੰਦਾ ਹੈ, ਖਾਸ ਕਰਕੇ ਨੰਬਰਾਂ, ਤਾਰੀਖ਼ਾਂ ਅਤੇ ਪੁਸ਼ਟੀਆਂ ਲਈ।
ElevenLabs-ਵਿਸ਼ੇਸ਼ ਕੰਟਰੋਲ
Stability, similarity boost, style exaggeration ਅਤੇ speaker boost ElevenLabs ਆਵਾਜ਼ ਕੰਟਰੋਲ ਹਨ:
- Stability ਕੰਟਰੋਲ ਕਰਦੀ ਹੈ ਕਿ ਆਵਾਜ਼ ਵਾਕਾਂਸ਼ ਤੋਂ ਵਾਕਾਂਸ਼ ਤੱਕ ਕਿੰਨੀ ਇਕਸਾਰ ਸੁਣਾਈ ਦਿੰਦੀ ਹੈ — ਜ਼ਿਆਦਾ ਜ਼ਿਆਦਾ ਸਥਿਰ ਹੈ, ਘੱਟ ਵਧੇਰੇ ਕੁਦਰਤੀ ਭਿੰਨਤਾ ਦੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ।
- Similarity boost ਆਊਟਪੁੱਟ ਨੂੰ ਸਰੋਤ ਆਵਾਜ਼ ਦੇ ਨੇੜੇ ਰੱਖਦਾ ਹੈ।
- Speaker boost ਮੂਲ ਸਪੀਕਰ ਨਾਲ ਮੇਲ ਨੂੰ ਵਧਾਉਂਦਾ ਹੈ।
ਤਬਦੀਲੀਆਂ ਨੂੰ ਉੱਚੀ ਆਵਾਜ਼ ਵਿੱਚ ਟੈਸਟ ਕਰੋ, ਕਾਗਜ਼ 'ਤੇ ਨਹੀਂ। ਹਰ ਸਮਾਯੋਜਨ ਤੋਂ ਬਾਅਦ /agent/interface 'ਤੇ ਵੌਇਸ ਟੈਸਟ ਵਰਤੋ — ਜਦੋਂ ਤੁਸੀਂ ਉਹਨਾਂ ਨੂੰ ਸੁਣਦੇ ਹੋ ਤਾਂ ਗਤੀ ਅਤੇ ਉਚਾਰਨ ਦੀਆਂ ਸਮੱਸਿਆਵਾਂ ਸਕਿੰਟਾਂ ਵਿੱਚ ਸਪਸ਼ਟ ਹੋ ਜਾਂਦੀਆਂ ਹਨ।