Wenn du Datenschutz, keine laufenden Kosten und komplett offline priorisierst → super Wahl.
Wenn du einfache, hochwertige Lip-Sync und möglichst wenig Aufwand willst → dann doch eher Azure TTS oder ElevenLabs (die kosten dann aber pro Nutzung).
Möchtest du ein kleines Code-Beispiel, wie du qwen3-tts-rs in Rust aufrufst und Audio generierst?
Oder soll ich dir zeigen, wie man danach einfache Lip-Sync-Daten aus dem Audio extrahiert? Sag einfach Bescheid.