Voice ಮತ್ತು audio (STT/TTS)
Audio ಟ್ಯಾಬ್ ನಿಮ್ಮ ಏಜೆಂಟ್ ಹೇಗೆ ಕೇಳುತ್ತದೆ ಮತ್ತು ಮಾತನಾಡುತ್ತದೆ ಎಂಬುದನ್ನು ನಿಯಂತ್ರಿಸುತ್ತದೆ. speech-to-text (STT) ಮತ್ತು text-to-speech (TTS) ಎರಡೂ ಬಹು-ಪೂರೈಕೆದಾರ — ನೀವು ಒಂದು ಪೂರೈಕೆದಾರನನ್ನು ಆಯ್ಕೆಮಾಡಿ, ನಂತರ ಒಂದು ಮಾದರಿ ಮತ್ತು ಪೂರೈಕೆದಾರ-ನಿರ್ದಿಷ್ಟ ನಿಯಂತ್ರಣಗಳನ್ನು ಆಯ್ಕೆಮಾಡುತ್ತೀರಿ. ಇವುಗಳನ್ನು ಸರಿಯಾಗಿ ಪಡೆಯುವುದೇ ಏಜೆಂಟ್ ಅನ್ನು ಸಹಜವಾಗಿ ಧ್ವನಿಸುವಂತೆ ಮತ್ತು ಕರೆದಾರರನ್ನು ನಿಖರವಾಗಿ ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಂತೆ ಮಾಡುತ್ತದೆ. ಇದನ್ನು /agent/setup ನಲ್ಲಿರುವ ಏಜೆಂಟ್ ಬಿಲ್ಡರ್ನಲ್ಲಿ ಹೊಂದಿಸಿ.
speech-to-text ಸೆಟ್ಟಿಂಗ್ಗಳು Pipeline voice ಮೋಡ್ನಲ್ಲಿ ಅನ್ವಯಿಸುತ್ತವೆ. realtime ಮೋಡ್ಗಳಲ್ಲಿ (Azure Realtime, Gemini Realtime) transcription ಅನ್ನು ಪೂರೈಕೆದಾರನು ಆಂತರಿಕವಾಗಿ ನಿಭಾಯಿಸುತ್ತಾನೆ, ಆದ್ದರಿಂದ STT ವಿಭಾಗವನ್ನು ನಿರ್ಲಕ್ಷಿಸಲಾಗುತ್ತದೆ. voice pipeline ಮೋಡ್ ಅನ್ನು LLM ಟ್ಯಾಬ್ನಲ್ಲಿ ಹೊಂದಿಸಿ.
Speech-to-text
Voice ಟ್ಯಾಬ್: ಭಾಷೆ, ಬೆಂಬಲಿತ ಲೊಕೇಲ್ಗಳು, ಭಾಷಾ ಪತ್ತೆ, ಮತ್ತು STT / TTS ಪೂರೈಕೆದಾರ ಸೆಟ್ಟಿಂಗ್ಗಳು.
Speech-to-text ಕರೆದಾರನ audio ಅನ್ನು ಏಜೆಂಟ್ ಕ್ರಮ ತೆಗೆದುಕೊಳ್ಳಬಲ್ಲ ಪಠ್ಯವಾಗಿ ಪರಿವರ್ತಿಸುತ್ತದೆ. ನಿಮ್ಮ ಕರೆದಾರರಿಗೆ ಮತ್ತು ನಿಮ್ಮ ಡೊಮೇನ್ಗೆ ಹೊಂದುವ ಪೂರೈಕೆದಾರ ಮತ್ತು ಮಾದರಿ ಯನ್ನು ಆಯ್ಕೆಮಾಡಿ. STT ಪೂರೈಕೆದಾರರು ಇವುಗಳನ್ನು ಒಳಗೊಂಡಿದ್ದಾರೆ:
- Deepgram (ಪೂರ್ವನಿಯೋಜಿತ) — Nova-3 / Nova-2 ಮತ್ತು ಇನ್ನಷ್ಟು.
- Azure — Default ಮತ್ತು Conversation ಮಾದರಿಗಳು.
- Groq — Whisper Large v3 / Turbo.
- Sarvam — Saarika (Indic).
ಸಾಮಾನ್ಯ ನಿಯಂತ್ರಣಗಳು
ಭಾಷೆ, ವಿರಾಮಚಿಹ್ನೆ, ಪದ timestamps ಮತ್ತು interim results ಎಲ್ಲಾ ಪೂರೈಕೆದಾರರಲ್ಲಿ ಅನ್ವಯಿಸುತ್ತವೆ. ಸರಿಯಾದ ಭಾಷೆಯನ್ನು ಹೊಂದಿಸುವುದು transcription ನಿಖರತೆಯಲ್ಲಿ ಅತಿದೊಡ್ಡ ಏಕೈಕ ಅಂಶ.
ಪೂರೈಕೆದಾರ-ನಿರ್ದಿಷ್ಟ ನಿಯಂತ್ರಣಗಳು
ಕೆಲವು ನಿಯಂತ್ರಣಗಳು ಅವುಗಳನ್ನು ಬೆಂಬಲಿಸುವ ಪೂರೈಕೆದಾರನಿಗೆ ಮಾತ್ರ ಕಾಣಿಸಿಕೊಳ್ಳುತ್ತವೆ:
- Deepgram — keyword boost, smart format, filler removal, diarization (transcript ಅನ್ನು ಮಾತುಗಾರರ ಪ್ರಕಾರ ಪ್ರತ್ಯೇಕಿಸಿ), profanity filter, alternatives ಮತ್ತು latency ಮೋಡ್.
- Azure — profanity ಮೋಡ್ (masked / removed / raw).
- Sarvam — code mixing.
ಗುರುತಿಸುವಿಕೆಯನ್ನು ಸುಧಾರಿಸಲು ನೀವು ಕಸ್ಟಮ್ ಶಬ್ದಕೋಶ (ಉತ್ಪನ್ನ ಹೆಸರುಗಳು, ಬ್ರ್ಯಾಂಡ್ ಪದಗಳು, ಪರಿಭಾಷೆ) ವನ್ನೂ ಸೇರಿಸಬಹುದು, ಮತ್ತು endpointing ಹಾಗೂ VAD turnoff timings ಗಳನ್ನು ಟ್ಯೂನ್ ಮಾಡಬಹುದು.
transcript PII redaction (ಯಾವ ಸಂವೇದನಶೀಲ ಪ್ರಕಾರಗಳನ್ನು ಮರೆಮಾಚಬೇಕು) ಅನ್ನು ಇಲ್ಲಿ ಅಲ್ಲ, Guardrails ಟ್ಯಾಬ್ನಲ್ಲಿ ಸಂರಚಿಸಲಾಗುತ್ತದೆ. ಏಜೆಂಟ್ಗಳ ಅವಲೋಕನ ಅನ್ನು ನೋಡಿ.
Text-to-speech
Text-to-speech ನಿಮ್ಮ ಏಜೆಂಟ್ ಮಾತನಾಡುವ ಧ್ವನಿ. ಒಂದು ಪೂರೈಕೆದಾರ, ಮಾದರಿ ಮತ್ತು ಧ್ವನಿ ಯನ್ನು ಆಯ್ಕೆಮಾಡಿ. TTS ಪೂರೈಕೆದಾರರು ಇವುಗಳನ್ನು ಒಳಗೊಂಡಿದ್ದಾರೆ:
- ElevenLabs (ಪೂರ್ವನಿಯೋಜಿತ) — Turbo v2.5 / v2, Multilingual v2.
- Azure — Neural ಮತ್ತು Standard.
- Google — Gemini TTS.
- Cartesia — Sonic.
- Groq — Orpheus.
- Sarvam — Bulbul (Indic).
ಧ್ವನಿ
ನಿಮ್ಮ ಬ್ರ್ಯಾಂಡ್ ಮತ್ತು ನಿಮ್ಮ ಕರೆದಾರರಿಗೆ ಹೊಂದುವ ಧ್ವನಿ ಯನ್ನು ಆಯ್ಕೆಮಾಡಿ. ನೀವು Voice Lab ನಲ್ಲಿ ರಚಿಸಿದ ಕಸ್ಟಮ್ ಧ್ವನಿಯನ್ನೂ ಬಳಸಬಹುದು — ಒಂದು ಸಣ್ಣ ಮಾದರಿಯಿಂದ ಒಂದು ಧ್ವನಿಯನ್ನು ಕ್ಲೋನ್ ಮಾಡಿ ಮತ್ತು ಅದನ್ನು ಏಜೆಂಟ್ಗೆ ನಿಯೋಜಿಸಿ. ಅದನ್ನು ಕೇಳಲು preview ಬಟನ್ ಬಳಸಿ.
ಸಾಮಾನ್ಯ ನಿಯಂತ್ರಣಗಳು
ವೇಗ, pitch, ಶೈಲಿ, ಧ್ವನಿ ಪ್ರಮಾಣ, ಭಾವನೆ, ಒತ್ತು, output format ಮತ್ತು ಕಸ್ಟಮ್ ಉಚ್ಚಾರಣೆಗಳು ಎಲ್ಲಾ ಪೂರೈಕೆದಾರರಲ್ಲಿ ಅನ್ವಯಿಸುತ್ತವೆ. ಸ್ವಲ್ಪ ನಿಧಾನವಾದ ಮಾತು ದೂರವಾಣಿ ಕರೆಯಲ್ಲಿ ಅನುಸರಿಸಲು ಸುಲಭ, ವಿಶೇಷವಾಗಿ ಸಂಖ್ಯೆಗಳು, ದಿನಾಂಕಗಳು ಮತ್ತು ದೃಢೀಕರಣಗಳಿಗೆ.
ElevenLabs-ನಿರ್ದಿಷ್ಟ ನಿಯಂತ್ರಣಗಳು
Stability, similarity boost, style exaggeration ಮತ್ತು speaker boost ಇವು ElevenLabs ಧ್ವನಿ ನಿಯಂತ್ರಣಗಳು:
- Stability ಒಂದು ವಾಕ್ಯದಿಂದ ಮುಂದಿನದಕ್ಕೆ ಧ್ವನಿ ಎಷ್ಟು ಸ್ಥಿರವಾಗಿ ಧ್ವನಿಸುತ್ತದೆ ಎಂಬುದನ್ನು ನಿಯಂತ್ರಿಸುತ್ತದೆ — ಹೆಚ್ಚಿನದು ಹೆಚ್ಚು ಸ್ಥಿರ, ಕಡಿಮೆಯದು ಹೆಚ್ಚು ಸಹಜ ವ್ಯತ್ಯಾಸಕ್ಕೆ ಅವಕಾಶ ನೀಡುತ್ತದೆ.
- Similarity boost output ಅನ್ನು ಮೂಲ ಧ್ವನಿಗೆ ಹತ್ತಿರವಾಗಿರಿಸುತ್ತದೆ.
- Speaker boost ಮೂಲ ಮಾತುಗಾರನ ಸಾದೃಶ್ಯವನ್ನು ಹೆಚ್ಚಿಸುತ್ತದೆ.
ಬದಲಾವಣೆಗಳನ್ನು ಕಾಗದದ ಮೇಲೆ ಅಲ್ಲ, ಗಟ್ಟಿಯಾಗಿ ಪರೀಕ್ಷಿಸಿ. ಪ್ರತಿ ಹೊಂದಾಣಿಕೆಯ ನಂತರ /agent/interface ನಲ್ಲಿರುವ voice test ಅನ್ನು ಬಳಸಿ — ನೀವು ಅವುಗಳನ್ನು ಕೇಳಿದಾಗ ವೇಗ ಮತ್ತು ಉಚ್ಚಾರಣೆ ಸಮಸ್ಯೆಗಳು ಸೆಕೆಂಡುಗಳಲ್ಲಿ ಸ್ಪಷ್ಟವಾಗುತ್ತವೆ.