Die wenigsten KI-Videogeneratoren erstellen Clips inklusive Ton - unseres Wissens bildet Pika mit sowohl Dialogen als auch Sound Effects hier die einzige Ausnahme, während OpenAI sogar explizit gesagt hat, Audiogenerierung hätte derzeit keine Priorität in der Entwicklung. Zwar stecken KI-generierte Videos noch in den Kinderschuhen und haben mit verschiedenen Problemen zu kämpfen, wie beispielsweise mangelnde zeitliche Konsistenz und fehlerhafte Raumphysik, jedoch wird es über kurz oder lang nötig sein, die künstlich errechneten Bilder auch mit einer passenden Tonspur zu versehen, wenn die Technologie durchschlagenden Erfolg haben möchte.
Und so arbeitet wenig überraschend auch das Google Deepmind Team daran, zu einem Video die entsprechenden Audiodaten erstellen zu können (Video-to-Audio / V2A). Ausgehend von einem Videoclip als Input sowie wahlweise dazu auch ein präzisierendes Prompt, soll das V2A-System ein Soundscape generieren, welches automatisch auf die im Bild zu sehenden Inhalte getaktet sein soll. Musik, Soundeffekte und auch Dialoge sollen so erklingen.

Dafür wird zunächst aus dem Video eine Art komprimierte Repräsentation enkodiert, zu der das diffusionsbasierte Modell dann iterativ aus Rauschen Audio generiert. Der visuelle Input ggf. zusammen mit einem Prompt, das entweder postiv formuliert sein kann (was allgemein zu hören sein soll) oder negativ (was nicht enthalten sein soll), soll dafür sorgen, dass synchrone und realistische Audiosignale entstehen. Abschließend wird die Audioausgabe dekodiert, in eine Audiowellenform umgewandelt und mit den Videodaten kombiniert.
Für das Training des Modells wurden unter anderem auch KI-generierte Tonbeschreibungen und transkribierte Dialoge als zusätzliche Informationen hinzugegeben, um assoziative Verknüpfungen zwischen Audio- und Bildinhalten herzustellen. Unter anderem deswegen ist das V2A-Modell in der Lage, nur mit einem Bildinput auszukommen, also Pixel versteht - ein Textprompt ist optional. Auch die zeitliche Abstimmung mit dem Bildgeschehen soll so erleichtert werden.
Googles Video-to-Audio-Technologie ist jedoch noch in Entwicklung - auffällig ist in den Videobeispielen die (noch?) eher schlechte Audioqualität, während die Sounds inhaltlich und vom Timing (sofern spezifische Cues vorhanden sind) recht überzeugend sein können - hier zum Beispiel ein Drummer:
// Top-News auf einen Blick:
- Blackmagic DaVinci Resolve 20 Beta 2 bringt neue Funktionen und Bugfixes
- Blackmagic Camera for Android 2.1 bringt neue Features
- Neuer superschneller PoX Flash-Speicher könnte DRAM und SSDs ersetzen
- Achtung: Verpixelte Videos können wieder kenntlich gemacht werden
- KI-generierte Fake-Trailer: Wie Hollywood an der Irreführung der Zuschauer ...
- Beleuchtung für Foto und Video lernen mit kostenlosem Tool von Google
Sprachbeispiele geben die Deepmindler nur eines, mit dem Hinweis, dass die Qualität noch verbessert werden soll.
Problematisch sei etwa, wenn ein KI-Videogenerator Lippenbewegungen erstellt hat, die nicht exakt zur per Prompt eingegebenen Textvorgabe passen - bei einem solchen Mismatch kann kein gutes Lipsync entstehen, da das Audiomodell nicht beide Inputs unter einen Hut bekommt Auch soll die Audioqualität von dem Eingabevideo abhängen. Sind dort Bildfehler enthalten, die nicht mit dem Trainingskorpus des V2A-Modells harmonisieren, schlägt sich dies laut Google in einer verringerten Tonqualität nieder.
Wenn der Video-to-Audio-Generator ausgereift ist, wird er voraussichtlich zunächst Videos vertonen, die mit DeepMind Veo, Googles eigenem, kürzlich vorgestellten KI-Videogenerator, erstellt wurden. Von diesem stammen auch die hier gezeigten Bildbeispiele. Wie schon bei den Veo-Videos sollen auch die generierten Sounds mit SynthID-Wasserzeichen versehen werden.