Billiger als ElevenLabs Neue Voice-KI bietet customisierbare und emontionale Stimmen

// 14:03 Fr, 28. Feb 2025von

Das Startup Hume hat gerade eine neue Voice-KI mit interessanten Features veröffentlicht. So kann man mit Hilfe von „Octave“ nicht nur per Prompt eigene neue Stimmen mit ganz spezifischen Charakteristiken erschaffen, sondern diesen auch noch ein Gefühl ausdrücken lassen und sie so zum Beispiel wütend oder traurig klingen lassen. Zudem besitzt Octave ein emotionales Textverständnis, d. h., das System soll in der Lage sein, den Inhalt eines Textes so zu interpretieren, dass er gesprochen mit dem jeweils zur Textpassage passenden Gefühl unterlegt wird.

Neue Voice-KI bietet customisierbare und emontionale Stimmen


Octave basiert als erstes Text-to-Speech-System auf einem eigenen Large-Language-Model (LLM), das Wörter im Kontext versteht und so eine Vertonung mit den jeweils passenden Emotionen, Rhythmus, Kadenz, Betonungen, Sprechpausen und auch Dialekten erzeugen kann. Stimmen sollen so inhaltliche Nuancen implizit transportieren können – etwa flüsternde Intimität, beißender Sarkasmus, ironische Schärfe oder untergründige Aggressivität. Diese Fähigkeiten sind für Filmemacher interessant, die schnell unterschiedliche Voiceover-Stile testen, natürlich klingende Sprecherstimmen oder Charakterstimmen erschaffen möchten – sei es für Trailer, Dokus oder Charakterdialoge und die auf aufwendige Sprachaufnahmen verzichten wollen.






User können Stimmen aber auch explizit ändern und sie per Textprompt spezifisch verändern und ihren Ausdruck so zum Beispiel fröhlicher, trauriger, frustrierter, wütender oder sarkastischer machen. Es kann auch der Ausdruck nur eines Satzes oder Teils eines Satzes gezielt geändert werden.




Voice Design und Acting Instructions

Zwei wesentliche Funktionen stehen Usern zur Verfügung, um die Sprachausgabe nach eigenen Wünschen zu definieren:



- Voice Design: Nutzer können über eine einfache Textbeschreibung („Mädchen vom Land“, „seriöser Dokumentarsprecher“ oder „mürrischer Mittelalter-Bauer“) ihre Wunschstimme erstellen lassen. Das System richtet sich dann nach diesen Vorgaben und generiert entsprechende Stimmlagen und Charakterzüge.



- Acting Instructions: Emotionen oder Sprechstile können auf Satz- oder sogar Wortebene feinjustiert werden. Ein kurzer Regiehinweis wie „sprich das nächste Wort geflüstert und leicht verärgert“ genügt, um unterschiedliche Varianten desselben Satzes in nur wenigen Sekunden zu erzeugen.



Octave TTS ist vor allem auf den Offline-Einsatz zugeschnitten, beispielsweise für Voiceovers in Dokumentarfilmen, Werbeclips, Audiobooks, Pre-Visualizations oder Charakterdialoge in Games. In Echtzeit-Interaktionen – etwa Live-Streaming-Formaten – ist das Modell aktuell nicht vorrangig vorgesehen, wenngleich es ähnliche Streaming-Optionen in Humes älteren EVI-TTS-Modellen gibt.



Erfreulicherweise kann man die Qualität von Octave selbst kostenlos ausprobieren und pro Monat 10 Minuten Sprache selbst generieren – mit einer eigens definierten Stimme. Hume demonstriert auch anhand vieler Beispiele die Fähigkeiten seines Modells; man kann anhand eines Blind-Tests mit frei definierter Stimme und Text Octave auch gegen andere Modelle antreten lassen und selbst entscheiden, welches besser ist.




Geplante: Voice Cloning

Für die Zukunft plant Hume, auch eine Voice-Cloning-Funktion einzuführen, bei der eine reale Stimme anhand kurzer Referenzaufnahmen repliziert wird. Damit könnten Produktionsfirmen beispielsweise Stammsprecher virtuell erweitern – etwa für kleinere Nachvertonungen oder zusätzliche Sprachvarianten.



Hume Octave vs ElevenLabs
Hume Octave vs ElevenLabs





Vergleich mit Konkurrenzprodukten

Derzeit gibt es viele etablierte Anbieter wie zum Beispiel ElevenLabs (und auch Open-Source-Lösungen) im Text-to-Voice-Markt, gegen die Octave als Neuankömmling antreten muss. Hume will neben der einzigartigen neuen Funktion der frei definierbaren eigenen Stimme auch mit seinem Preismodell punkten, welches nur rund die Hälfte der Kosten von ElevenLabs ausmachen soll, sowie mit der Sprachqualität. In internen Tests mit 180 Probanden erzielte Octave laut Hume bessere Werte für Audioqualität (71,6 % Zustimmung), Natürlichkeit (51,7 %) und Passgenauigkeit zum angeforderten Stimmdesign (57,7 %).




Preise

- Free (0 Dollar/Monat): 10.000 Zeichen Text-to-Speech (~10 Minuten)


- Starter (3 Dollar/Monat): 30.000 Zeichen (~30 Minuten)


- Creator (10 Dollar/Monat): 100.000 Zeichen (~100 Minuten), zusätzliche Zeichen ab 0,20 Dollar/1.000


- Pro (50 Dollar/Monat): 500.000 Zeichen (~500 Minuten), zusätzliche Zeichen ab 0,15 Dollar/1.000


- Scale (150 Dollar/Monat): 2 Mio. Zeichen (~2.000 Minuten), zusätzliche Zeichen ab 0,13 Dollar/1.000


- Business (900 Dollar/Monat): 10 Mio. Zeichen (~10.000 Minuten), zusätzliche Zeichen ab 0,10 Dollar/1.000


- Enterprise: Auf Anfrage, unbegrenzte Nutzungsoptionen mit angepassten Vertragskonditionen



Mit steigender Preisklasse sinken die Kosten pro 1.000 Zeichen, sodass sich Octave für größere Produktionen lohnen kann. Alle Varianten erlauben den Einsatz der Voice-Design-Funktion, während sich die generierte Audiodatei in gängigen Formaten wie MP3, WAV oder PCM exportieren lässt.


Ähnliche News //
Umfrage
    Welche Streaming-Dienste nutzt Du?













    Ergebnis ansehen

slashCAM nutzt Cookies zur Optimierung des Angebots, auch Cookies Dritter. Die Speicherung von Cookies kann in den Browsereinstellungen unterbunden werden. Mehr Informationen erhalten Sie in unserer Datenschutzerklärung. Mehr Infos Verstanden!
RSS Suche YouTube Facebook Twitter slashCAM-Slash