Skip to main content

Voice ಮತ್ತು audio (STT/TTS)

Audio ಟ್ಯಾಬ್ ನಿಮ್ಮ ಏಜೆಂಟ್ ಹೇಗೆ ಕೇಳುತ್ತದೆ ಮತ್ತು ಮಾತನಾಡುತ್ತದೆ ಎಂಬುದನ್ನು ನಿಯಂತ್ರಿಸುತ್ತದೆ. speech-to-text (STT) ಮತ್ತು text-to-speech (TTS) ಎರಡೂ ಬಹು-ಪೂರೈಕೆದಾರ — ನೀವು ಒಂದು ಪೂರೈಕೆದಾರನನ್ನು ಆಯ್ಕೆಮಾಡಿ, ನಂತರ ಒಂದು ಮಾದರಿ ಮತ್ತು ಪೂರೈಕೆದಾರ-ನಿರ್ದಿಷ್ಟ ನಿಯಂತ್ರಣಗಳನ್ನು ಆಯ್ಕೆಮಾಡುತ್ತೀರಿ. ಇವುಗಳನ್ನು ಸರಿಯಾಗಿ ಪಡೆಯುವುದೇ ಏಜೆಂಟ್ ಅನ್ನು ಸಹಜವಾಗಿ ಧ್ವನಿಸುವಂತೆ ಮತ್ತು ಕರೆದಾರರನ್ನು ನಿಖರವಾಗಿ ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಂತೆ ಮಾಡುತ್ತದೆ. ಇದನ್ನು /agent/setup ನಲ್ಲಿರುವ ಏಜೆಂಟ್ ಬಿಲ್ಡರ್‌ನಲ್ಲಿ ಹೊಂದಿಸಿ.

STT ಗೆ ಮಾತ್ರ Pipeline ಮೋಡ್

speech-to-text ಸೆಟ್ಟಿಂಗ್‌ಗಳು Pipeline voice ಮೋಡ್‌ನಲ್ಲಿ ಅನ್ವಯಿಸುತ್ತವೆ. realtime ಮೋಡ್‌ಗಳಲ್ಲಿ (Azure Realtime, Gemini Realtime) transcription ಅನ್ನು ಪೂರೈಕೆದಾರನು ಆಂತರಿಕವಾಗಿ ನಿಭಾಯಿಸುತ್ತಾನೆ, ಆದ್ದರಿಂದ STT ವಿಭಾಗವನ್ನು ನಿರ್ಲಕ್ಷಿಸಲಾಗುತ್ತದೆ. voice pipeline ಮೋಡ್ ಅನ್ನು LLM ಟ್ಯಾಬ್‌ನಲ್ಲಿ ಹೊಂದಿಸಿ.

Speech-to-text

Voice ಟ್ಯಾಬ್ Voice ಟ್ಯಾಬ್: ಭಾಷೆ, ಬೆಂಬಲಿತ ಲೊಕೇಲ್‌ಗಳು, ಭಾಷಾ ಪತ್ತೆ, ಮತ್ತು STT / TTS ಪೂರೈಕೆದಾರ ಸೆಟ್ಟಿಂಗ್‌ಗಳು.

Speech-to-text ಕರೆದಾರನ audio ಅನ್ನು ಏಜೆಂಟ್ ಕ್ರಮ ತೆಗೆದುಕೊಳ್ಳಬಲ್ಲ ಪಠ್ಯವಾಗಿ ಪರಿವರ್ತಿಸುತ್ತದೆ. ನಿಮ್ಮ ಕರೆದಾರರಿಗೆ ಮತ್ತು ನಿಮ್ಮ ಡೊಮೇನ್‌ಗೆ ಹೊಂದುವ ಪೂರೈಕೆದಾರ ಮತ್ತು ಮಾದರಿ ಯನ್ನು ಆಯ್ಕೆಮಾಡಿ. STT ಪೂರೈಕೆದಾರರು ಇವುಗಳನ್ನು ಒಳಗೊಂಡಿದ್ದಾರೆ:

  • Deepgram (ಪೂರ್ವನಿಯೋಜಿತ) — Nova-3 / Nova-2 ಮತ್ತು ಇನ್ನಷ್ಟು.
  • Azure — Default ಮತ್ತು Conversation ಮಾದರಿಗಳು.
  • Groq — Whisper Large v3 / Turbo.
  • Sarvam — Saarika (Indic).

ಸಾಮಾನ್ಯ ನಿಯಂತ್ರಣಗಳು

ಭಾಷೆ, ವಿರಾಮಚಿಹ್ನೆ, ಪದ timestamps ಮತ್ತು interim results ಎಲ್ಲಾ ಪೂರೈಕೆದಾರರಲ್ಲಿ ಅನ್ವಯಿಸುತ್ತವೆ. ಸರಿಯಾದ ಭಾಷೆಯನ್ನು ಹೊಂದಿಸುವುದು transcription ನಿಖರತೆಯಲ್ಲಿ ಅತಿದೊಡ್ಡ ಏಕೈಕ ಅಂಶ.

ಪೂರೈಕೆದಾರ-ನಿರ್ದಿಷ್ಟ ನಿಯಂತ್ರಣಗಳು

ಕೆಲವು ನಿಯಂತ್ರಣಗಳು ಅವುಗಳನ್ನು ಬೆಂಬಲಿಸುವ ಪೂರೈಕೆದಾರನಿಗೆ ಮಾತ್ರ ಕಾಣಿಸಿಕೊಳ್ಳುತ್ತವೆ:

  • Deepgram — keyword boost, smart format, filler removal, diarization (transcript ಅನ್ನು ಮಾತುಗಾರರ ಪ್ರಕಾರ ಪ್ರತ್ಯೇಕಿಸಿ), profanity filter, alternatives ಮತ್ತು latency ಮೋಡ್.
  • Azure — profanity ಮೋಡ್ (masked / removed / raw).
  • Sarvam — code mixing.

ಗುರುತಿಸುವಿಕೆಯನ್ನು ಸುಧಾರಿಸಲು ನೀವು ಕಸ್ಟಮ್ ಶಬ್ದಕೋಶ (ಉತ್ಪನ್ನ ಹೆಸರುಗಳು, ಬ್ರ್ಯಾಂಡ್ ಪದಗಳು, ಪರಿಭಾಷೆ) ವನ್ನೂ ಸೇರಿಸಬಹುದು, ಮತ್ತು endpointing ಹಾಗೂ VAD turnoff timings ಗಳನ್ನು ಟ್ಯೂನ್ ಮಾಡಬಹುದು.

PII redaction ಇರುವುದು Guardrails ನಲ್ಲಿ

transcript PII redaction (ಯಾವ ಸಂವೇದನಶೀಲ ಪ್ರಕಾರಗಳನ್ನು ಮರೆಮಾಚಬೇಕು) ಅನ್ನು ಇಲ್ಲಿ ಅಲ್ಲ, Guardrails ಟ್ಯಾಬ್‌ನಲ್ಲಿ ಸಂರಚಿಸಲಾಗುತ್ತದೆ. ಏಜೆಂಟ್‌ಗಳ ಅವಲೋಕನ ಅನ್ನು ನೋಡಿ.

Text-to-speech

Text-to-speech ನಿಮ್ಮ ಏಜೆಂಟ್ ಮಾತನಾಡುವ ಧ್ವನಿ. ಒಂದು ಪೂರೈಕೆದಾರ, ಮಾದರಿ ಮತ್ತು ಧ್ವನಿ ಯನ್ನು ಆಯ್ಕೆಮಾಡಿ. TTS ಪೂರೈಕೆದಾರರು ಇವುಗಳನ್ನು ಒಳಗೊಂಡಿದ್ದಾರೆ:

  • ElevenLabs (ಪೂರ್ವನಿಯೋಜಿತ) — Turbo v2.5 / v2, Multilingual v2.
  • Azure — Neural ಮತ್ತು Standard.
  • Google — Gemini TTS.
  • Cartesia — Sonic.
  • Groq — Orpheus.
  • Sarvam — Bulbul (Indic).

ಧ್ವನಿ

ನಿಮ್ಮ ಬ್ರ್ಯಾಂಡ್ ಮತ್ತು ನಿಮ್ಮ ಕರೆದಾರರಿಗೆ ಹೊಂದುವ ಧ್ವನಿ ಯನ್ನು ಆಯ್ಕೆಮಾಡಿ. ನೀವು Voice Lab ನಲ್ಲಿ ರಚಿಸಿದ ಕಸ್ಟಮ್ ಧ್ವನಿಯನ್ನೂ ಬಳಸಬಹುದು — ಒಂದು ಸಣ್ಣ ಮಾದರಿಯಿಂದ ಒಂದು ಧ್ವನಿಯನ್ನು ಕ್ಲೋನ್ ಮಾಡಿ ಮತ್ತು ಅದನ್ನು ಏಜೆಂಟ್‌ಗೆ ನಿಯೋಜಿಸಿ. ಅದನ್ನು ಕೇಳಲು preview ಬಟನ್ ಬಳಸಿ.

ಸಾಮಾನ್ಯ ನಿಯಂತ್ರಣಗಳು

ವೇಗ, pitch, ಶೈಲಿ, ಧ್ವನಿ ಪ್ರಮಾಣ, ಭಾವನೆ, ಒತ್ತು, output format ಮತ್ತು ಕಸ್ಟಮ್ ಉಚ್ಚಾರಣೆಗಳು ಎಲ್ಲಾ ಪೂರೈಕೆದಾರರಲ್ಲಿ ಅನ್ವಯಿಸುತ್ತವೆ. ಸ್ವಲ್ಪ ನಿಧಾನವಾದ ಮಾತು ದೂರವಾಣಿ ಕರೆಯಲ್ಲಿ ಅನುಸರಿಸಲು ಸುಲಭ, ವಿಶೇಷವಾಗಿ ಸಂಖ್ಯೆಗಳು, ದಿನಾಂಕಗಳು ಮತ್ತು ದೃಢೀಕರಣಗಳಿಗೆ.

ElevenLabs-ನಿರ್ದಿಷ್ಟ ನಿಯಂತ್ರಣಗಳು

Stability, similarity boost, style exaggeration ಮತ್ತು speaker boost ಇವು ElevenLabs ಧ್ವನಿ ನಿಯಂತ್ರಣಗಳು:

  • Stability ಒಂದು ವಾಕ್ಯದಿಂದ ಮುಂದಿನದಕ್ಕೆ ಧ್ವನಿ ಎಷ್ಟು ಸ್ಥಿರವಾಗಿ ಧ್ವನಿಸುತ್ತದೆ ಎಂಬುದನ್ನು ನಿಯಂತ್ರಿಸುತ್ತದೆ — ಹೆಚ್ಚಿನದು ಹೆಚ್ಚು ಸ್ಥಿರ, ಕಡಿಮೆಯದು ಹೆಚ್ಚು ಸಹಜ ವ್ಯತ್ಯಾಸಕ್ಕೆ ಅವಕಾಶ ನೀಡುತ್ತದೆ.
  • Similarity boost output ಅನ್ನು ಮೂಲ ಧ್ವನಿಗೆ ಹತ್ತಿರವಾಗಿರಿಸುತ್ತದೆ.
  • Speaker boost ಮೂಲ ಮಾತುಗಾರನ ಸಾದೃಶ್ಯವನ್ನು ಹೆಚ್ಚಿಸುತ್ತದೆ.
tip

ಬದಲಾವಣೆಗಳನ್ನು ಕಾಗದದ ಮೇಲೆ ಅಲ್ಲ, ಗಟ್ಟಿಯಾಗಿ ಪರೀಕ್ಷಿಸಿ. ಪ್ರತಿ ಹೊಂದಾಣಿಕೆಯ ನಂತರ /agent/interface ನಲ್ಲಿರುವ voice test ಅನ್ನು ಬಳಸಿ — ನೀವು ಅವುಗಳನ್ನು ಕೇಳಿದಾಗ ವೇಗ ಮತ್ತು ಉಚ್ಚಾರಣೆ ಸಮಸ್ಯೆಗಳು ಸೆಕೆಂಡುಗಳಲ್ಲಿ ಸ್ಪಷ್ಟವಾಗುತ್ತವೆ.

ಮುಂದಿನ ಹೆಜ್ಜೆಗಳು