FB18 - Das Forum für Informatik

fb18.de / Off-Topic / Hard- und Softwarefragen

TTS Software

TTS Software 2008-03-17 18:26
Anonymer User
Kann mir jemand eine vernünftige TTS (Text to Speech) Software empfehlen? Habe mir schon ESpeak und freetts angsehen, bin mit den Resultaten aber sehr unzufrieden. Ich habe neulich auf einer Messe mal ein Demo gehört, das extrem gut klang, kann mich an den Namen des Produktes aber nicht mehr erinnern und habe auch keine Möglichkeit, den Namen rauszufinden.

RE: TTS Software 2008-03-18 09:42
Muelli
Ich kenn' nur festival und Microsoft Sam…

RE: TTS Software 2008-03-18 10:25
Anonymer User
Logox hab ich vor Jahren mal ausprobiert. Aktuell kein Urteil…

RE: TTS Software 2008-03-18 11:44
BoTaS
benutze txt2pho (1) zusammen mit mbrolla (2) und de6 (3) (Sprachdatei) sowie einer Hand voll Skripts. Bin damit zufrieden.
Beispiel

1: http://www.ifk.uni-bonn.de/forschung/abteilung-sprache-und-kommunikation/phonetik/sprachsynthese/txt2pho
2: http://tcts.fpms.ac.be/synthesis/mbrola.html
3: http://tcts.fpms.ac.be/synthesis/mbrola/dba/de6/de6.zip

RE: TTS Software 2008-03-30 19:14
1baumann
Vorneweg: Die Qualität einer Messe-Demo wirst Du mit *keinem* TTS-System, kommerziell oder nicht, erreichen. Große Firmen haben Praktikanten, die für eine Demo tagelang die Phonemisierung und Prosodie tunen, Phonemboundaries verschieben und schließlich (so es die Engine zulässt) schlecht ausgewählte Einheiten austauschen. Wenn Du nicht selbst den Text, den das Produkt liest vorgibst, dann schummeln sie. Garantiert.

Nun: Was genau "klang" denn sogut bei der Demo?

Die Audioqualität ist typischerweise bei kommerziellen Produkten deutlich besser, weil die mehr Zeit und Geld in die Aufnahme stecken können, während Forschungssysteme nur so viel aufnehmen wie unbedingt nötig. Ansonsten nimmt sich die Audioverarbeitung in unterschiedlichen Systemen nicht viel.

Tokenisierung und Graphem-Phonem-Umsetzung sind in freien Systemen wahrscheinlich im Grunde nicht schlechter. Nur haben kommerzielle Produkte weitaus bessere und größere Ausnahmelisten.

Was ich Dir nun empfehlen soll, hängt von dem Einsatzzweck ab:
- Brauchst Du einen Screenreader (zum Beispiel weil Du blind bist oder Dein Bildschirm kaputt ist)? -> Die meisten Blinden wählen Espeak, weil die Formantsynthese sehr flexibel in der Geschwindigkeit erhöht werden kann. Du kannst dann nach einiger Eingewöhnung in mehrfacher Echtzeit zuhören und so schneller durch den Text browsen.
- Brauchst Du nur ein paar Prompts? -> selbst aufnehmen, fertig.
- Brauchst Du ein allgemeines TTS, das im Rahmen einer Demo die Ausgabe macht, selbst aber nicht so wichtig ist (nur gut klingen soll)? -> Kann die Demo vielleicht auf Englisch sein? Da gibt es bessere freie Systeme (FreeTTS/Festival) und ebenfalls bessere ASR.
- Brauchst Du etwas für eine Diplomarbeit? -> Frag einfach eine der Firmen, ob Du günstig (lau) an ne Lizenz kommen kannst. Sowas ist oft leichter als man denkt.

Gruß!
1baumann