Noch was unklar? Dann in unserem Forum nachfragen
Zum Original-Thread / Zum Artikel-Fragen-Forum

Infoseite // Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?

Newsmeldung von slashCAM:

Nach Bild- und Text-generierenden KIs gibt es noch weiteres Feld, in welchem gerade per künstlicher Intelligenz enorme Fortschritte gemacht werden und zwar bei der Synthese von menschlichen Stimmen per DeepLearning. Die Qualität von per KI generierten Stimmen wird immer besser - sie sind kaum mehr zu unterscheiden von echten Stimmen. Sogar existierende Stimmen können anhand von nur wenig Trainingsmaterial inzwischen nahezu realistisch nachgeahmt werden.

Hier geht es zum slashCAM Artikel:
Essays: Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?

Antwort von Frank Glencairn:

Leider sind die deutschen STS Stimmen bisher katastrophal schlecht - kein Vergleich zu den englischen.
Auch beim Cloning - was ja eigentlich viel interessanter ist - auf Deutsch leider nix.

Antwort von tom:

"Frank Glencairn" hat geschrieben:
Leider sind die deutschen STS Stimmen bisher katastrophal schlecht - kein Vergleich zu den englischen.
Auch beim Cloning - was ja eigentlich viel interessanter ist - auf Deutsch leider nix. Welche Dienste hast Du ausprobiert?

Antwort von Jalue:

"Ersetzen synthetische Stimmen bald professionelle Sprecher?"

Ich denke, davon ist auszugehen, zumindest in der Online-Massenproduktion von News und (billigen) Corporate Videos. Eingesetzt werden die Tools ja schon jetzt, z.b. um erste Schnittfassungen für die Abnahme quick and dirty zu vertonen.

Im nächsten Schritt wird es, auch da bin ich mir ziemlich sicher, automatisierten Schnitt auf Basis von Text- oder Spracheingaben geben. So folgen z.B. kurze Newsbeiträge Schema F und das dürfte relativ leicht in Codezeilen zu gießen sein.

Ist das "traurig"? Wenn wir ehrlich sind, reden wir hier ein stückweit auch von Bullshit-Jobs und Betroffene haben noch (!) genug Zeit, sich umzuorientieren. Dorthin, wo individuelle Gestaltung und Qualität gefragt sind.

Antwort von Frank Glencairn:

tom hat geschrieben:
"Frank Glencairn" hat geschrieben:
Leider sind die deutschen STS Stimmen bisher katastrophal schlecht - kein Vergleich zu den englischen.
Auch beim Cloning - was ja eigentlich viel interessanter ist - auf Deutsch leider nix. Welche Dienste hast Du ausprobiert? play.ht, murph, Speechelo und Google.

Speechelo geht so halbwegs, aber komischerweise nur die weibliche Stimme, Google scheint mir aktuell das beste zu sein, was deutsche TTS betrifft.
Für deutsches Cloning gibt's - soweit ich weiß - aktuell nur open source - selbst bastel Lösungen.

Antwort von r.p.television:

"Frank Glencairn" hat geschrieben:
Leider sind die deutschen STS Stimmen bisher katastrophal schlecht - kein Vergleich zu den englischen.
Auch beim Cloning - was ja eigentlich viel interessanter ist - auf Deutsch leider nix. Ich finde auch die englischen Stimmen nur bedingt zu gebrauchen. Selbst in der Speechelo-Werbung hört sich das sehr plätschernd und einschläfernd an. Sobald man auch nur ansatzweise Emotionen rüberbringen muss, ist das ganze aktuell eigentlich nicht zu gebrauchen.

Antwort von Brave:

Ich kann die deutschen Stimmen von Amazon Polly (Neuralversionen) und - mit noch größerer Auswahl und deutlich mehr Funktionen - von MS Azure direkt empfehlen. Es ist teilweise erstaunlich, wie gut Texte gesprochen werden. Wir haben es mit medizinischen Texten getestet und auch die Fachbegriffe werden meist gut erkannt.
Bei Azure kann man noch mit einem "Phonembaukasten" einzelne falsche Wörter fixen. Klar reicht die Qualität noch nicht für gescheite Kundenprojekte, aber in Einzelfällen für schnelle Sachen ist das schon ganz gut.
Was noch feht ist, dass die Systeme den Text verstehen und Zusammenhänge zwischen den Sätzen erkennen um die Betonung dementsprechend anzupassen. Das Beispiel aus dem Artikel in dem Video geht schon etwas in die Richtung.

Noch was unklar? Dann in unserem Forum nachfragen
Zum Original-Thread / Zum Artikel-Fragen-Forum

Antworten zu ähnlichen Fragen //

Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz
Professionelle KI-Sprecher für Jedermann? MARVEL.ai
Video-Editing per Textkommando: Nach Text-zu-Bild kommt Text-zu-Video
Vegas Pro Update: Unterstützung von ProRes Codecs, Sprache-zu-Text (beta)
"Suchen und Ersetzen" per Script in Blackmagic DaVinci Fusion/Resolve
Kostenloses Nvidia KI-Tool: Gesichter einfach per Sprache in Echtzeit animieren
biete mich als Sprecher an.
VFX leicht gemacht: mit KI Gesichter animieren und Stimmen synthetisieren
Singen mit berühmten Stimmen - YouTube soll an Voice-Cloning-KI arbeiten
Aus Text wird nun auch Audio: Stable Audio generiert Musik und Soundeffekte per KI
Premiere Pro: Subsequenz durch Clips ersetzen
Davinci Resolve .mov Clips ersetzen mit .braw Clips
KI wird Filmemacher nicht ersetzen (sagt Ben Affleck)
Neuer superschneller PoX Flash-Speicher könnte DRAM und SSDs ersetzen
Effekt-Kette: Compressor =>Sprache oder Musik => Limiter

Viele Verbesserungen Blackmagic DaVinci Resolve 20 Beta 2 bringt neue Funktionen und Bugfixes

Kaum drei Wochen nach der Veröffentlichung der Version 20 von Resolve hat Blackmagic schon die zweite Beta seines kostenlosen Grading-, Schnitt-, Compositing- und Audio-Mastering-....

// 12:19 Mi, 23. Apr 2025von Thomas Richter

News

Universeller Speicher Neuer superschneller PoX Flash-Speicher könnte DRAM und SSDs ersetzen

Forscher der Fudan-Universität in Shanghai haben einen neuen Geschwindigkeits-Weltrekord für Flash-Speicher aufgestellt. Der von ihnen in 10-jähriger Arbeit entwickelte "PoX" ...

// 10:05 Di, 22. Apr 2025von Thomas Richter

News

Fliegendes Flutlicht Freefly Flying Sun 1000 - 300.000 Lumen helle Lichtdrohne macht die Nacht zum Tag

Freefly Systems, bekannt als Gimbal-Pioniere und Hersteller von professionellen Drohnen, hat eine spezielle Lichtdrohne vorgestellt, die es in sich hat. Der "Flying Sun 1000" ...

// 16:18 Do, 17. Apr 2025von Thomas Richter

Ratgeber

Echte Cloud-Alternativen? Die beste Hardware für KI-Video - oder was man wirklich (nicht) braucht...

Wer die Entwicklung aktueller Video-KI-Modelle verfolgt, sieht fast jeden Tag neue Sensationen. Da liegt es nahe, auch einmal selbst Hand anzulegen, um eigene Erfahrungen mit der ...

// 11:35 Di, 15. Apr 2025von Rudi Schmidts

Aktuelle News //

News

Generative KI Adobe Firefly: neues KI-Bildmodell, neue App - und Support für Veo 2 u.a.

Auf seiner Kreativkonferenz MAX London hat Adobe mehrere Neuerungen für seine Firefly-KI vorgestellt. Eine neue Firefly All-in-One-Web-App für KI-gestützte Ideenfindung, ...

// 15:38 Do, 24. Apr 2025von blip

News

Dante Setups + Live Streaming AJA DANTE 12GAM und BRIDGE LIVE 3G-8 erklärt

Wer einen Einblick in Audio-Networking erhalten möchte, sollte sich auf jeden Fall mal mit DANTE beschäftigen. In diesem Clip klärt uns Andy Bellamy von AJA zunächst grundsätzlich ...

// 08:21 Do, 24. Apr 2025von Rob

zur Newsübersicht >

Neueste Artikel //

Ratgeber

Echte Cloud-Alternativen? Die beste Hardware für KI-Video - oder was man wirklich (nicht) braucht...

Wer die Entwicklung aktueller Video-KI-Modelle verfolgt, sieht fast jeden Tag neue Sensationen. Da liegt es nahe, auch einmal selbst Hand anzulegen, um eigene Erfahrungen mit der ...

// 11:35 Di, 15. Apr 2025von Rudi Schmidts

Meilensteine & Referenz DJI: Vom Pionier der Videostabilisierung über den Technik-Oscar bis zum aktuellen RS 4 Mini

Der Name DJI ist mittlerweile synonym geworden für exzellente und vielfach preisgekrönte Stabilisierungstechnik – sei es in Kamera-Gimbals, Drohnen oder Cine-Kamerasystemen wie ...

// 12:03 Mi, 9. Apr 2025von slashCAM

zur Artikelübersicht >

Infoseite // Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?

Antworten zu ähnlichen Fragen //

Viele Verbesserungen Blackmagic DaVinci Resolve 20 Beta 2 bringt neue Funktionen und Bugfixes

Universeller Speicher Neuer superschneller PoX Flash-Speicher könnte DRAM und SSDs ersetzen

Fliegendes Flutlicht Freefly Flying Sun 1000 - 300.000 Lumen helle Lichtdrohne macht die Nacht zum Tag

Echte Cloud-Alternativen? Die beste Hardware für KI-Video - oder was man wirklich (nicht) braucht...

Generative KI Adobe Firefly: neues KI-Bildmodell, neue App - und Support für Veo 2 u.a.

Dante Setups + Live Streaming AJA DANTE 12GAM und BRIDGE LIVE 3G-8 erklärt

Echte Cloud-Alternativen? Die beste Hardware für KI-Video - oder was man wirklich (nicht) braucht...

Meilensteine & Referenz DJI: Vom Pionier der Videostabilisierung über den Technik-Oscar bis zum aktuellen RS 4 Mini

ARTIKEL

THEMEN