Während das einstige Spitzenmodell OpenAIs Sora noch immer nicht öffentlich ist, geht der Kampf um die beste Video-KI unvermindert geht weiter - jetzt hat Google sein erstmals Mai vorgestelltes Highend-Videomodell Veo zusammen mit einer neuen Generation seiner Bild-KI Imagen in Form einer Preview-Version veröffentlicht, welches allerdings vorerst nur einem ausgewählten Userkreis per VideoFX Portal (leider noch nicht in Deutschland) sowie Unternehmenskunden per Googles Vertex AI Plattform zugänglich ist.

Was kann Veo?
Veo beherrscht verschiedene cinematische und visuelle Stile wie zum Beispiel Luft- oder Zeitraffer-Aufnahmen und generiert per Text- oder Bild-Prompt Videos in einer Auflösung von 1080p. Genaue Angaben zu maximalen Länge macht Google nicht, jedoch lassen sich Clips wie es scheint nachträglich auf bis zu ca. eine Minute verlängern (s.u.). Google verspricht eine hohe Konsistenz, also eine Darstellung ohne störendes Morphing von Bildinhalten oder Flimmern bei Bewegung der virtuellen Kamera oder von Objekten in der Szene.
Veo bietet auch spezielle Kontrollmöglichkeiten fürs Filmemachen per KI - etwas, wonach alle Anbieter von Video-KIs streben, um Kreativen zu ermöglichen, ihre Ideen exakt umzusetzen. So kann ein bereits generiertes Video objektorientiert editiert werden, zum Beispiel um nachträglich Gegenstände zu ergänzen, wie im folgenden Beispiel:
Generierte Videos kann Veo auf eine Länge von 1 Minute oder länger erweitern - entweder mithilfe eines einzigen Prompts oder auch mit mehreren, welche dann eine ganze aufeinander folgende Handlungssequenz beschreiben können, wie im folgenden Beispiel, einem unbearbeiteten direkten Output von Veo anhand der folgenden Promptreihe:
- Eine Aufnahme im Zeitraffer durch einen belebten dystopischen Stadtteil mit hellen Neonschildern, fliegenden Autos und Nebel, Nacht, Lens Flare, volumetrische Beleuchtung
- Eine Kamerafahrt durch einen futuristischen, dystopischen Stadtteil mit hellen Neonschildern, Raumschiffen am Himmel, Nacht, volumetrische Beleuchtung
- Ein Neonhologramm eines mit Höchstgeschwindigkeit fahrenden Autos, Lichtgeschwindigkeit, filmisch, unglaubliche Details, volumetrische Beleuchtung
- Die Autos verlassen den Tunnel, zurück in die reale Weltstadt Hongkong
Das erinner an das vor rund 2 Jahren erschienene Video-Modell Phenaki von Google, das damals schon anhand von längeren Textbeschreibungen mehrere Minuten lange Clips erzeugen konnte - allerdings nur in ziemlich niedriger Auflösung:

Veo soll auch ein hochentwickeltes Verständnis von natürlicher Sprache und visueller Semantik besitzen und so Videos generieren, die genau dem per Prompt gewünschten entsprechen, sowohl bezüglich Bildstimmung als auch der exakten visuellen Darstellung von Details.
// Top-News auf einen Blick:
- Blackmagic DaVinci Resolve 20 Beta 2 bringt neue Funktionen und Bugfixes
- Blackmagic Camera for Android 2.1 bringt neue Features
- Neuer superschneller PoX Flash-Speicher könnte DRAM und SSDs ersetzen
- Achtung: Verpixelte Videos können wieder kenntlich gemacht werden
- KI-generierte Fake-Trailer: Wie Hollywood an der Irreführung der Zuschauer ...
- Beleuchtung für Foto und Video lernen mit kostenlosem Tool von Google
Google bzw. DeepMind bringt bei Veo seine ganze bei anderen Projekten wie Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet und Lumiere sowie seiner Transformer Architektur und Gemini gesammelte Erfahrung ein. Interessanterweise erwähnt Google, dass Veo aufgrund hochqualitativer, aber hochkomprimierter Video-Repräsentationen sehr schnell generieren soll. Wie schnell es wirklich ist, wird sich mit den ersten User-Tests zeigen.

Qualität
Den gezeigten Democlips nach zu urteilen, ist die Qualität hinsichtlich der Darstellung und Konsistenz der Objekte bei Bewegung ist sehr gut - man muss bei manchen der Beispiel-Videos schon sehr genau hinschauen, um zu erkennen, dass sie von einer KI generiert wurden. Darstellungen von Menschen in Bewegung sind allerdings auffällig selten - so fehlen unter den Democlips die sonst gerne zum Vergleich herangezogenen inzwischen "klassischen" Motive von Sora, wie der Astronaut mit Wollmütze oder die Frau, die die neonbeleuchtete Straße in Tokio entlanggeht - gerade letztere eignet sich gut, um abzuschätzen, wie gut eine Video-KI menschliche Bewegungen (sowie komplexe Beleuchtungssituationen) darstellen kann. Lustigerweise gibt es einen Tokio-Neon-Clip - aber ganz ohne Menschen:
Für ein endgültiges Urteil muss natürlich abgewartet werden, dass Veo öffentlich zugänglich ist, damit die Qualität der Bilder und auch der Umsetzung von Prompts mit den anderen Top-Video-KIs direkt verglichen werden können. Veo muss sich mit mehreren chinesischen Video-KIs - vor allem Kling 1.5 - messen, die inzwischen neue Massstäbe gesetzt haben und Sora übertreffen. Gerüchten zufolge soll Sora jedoch noch im Dezember öffentlich starten - der Druck jedenfalls ist da.
China ist einen Schritt voraus
Auffällig ist, wie die amerikanischen großen Player wie Google, Meta (mit Movie Gen) und OpenAI (Sora) ihre Video-KIs einem breiten Publikum vorenthalten, während die chinesischen Konzerne deutlich forscher sind und ihre Top-Modelle nicht nur öffentlich zugänglich machen, sondern dies sogar zum Teil kostenlos (etwa Kuaishous Kling, Vidu oder Minimax/Hailuo) oder gar als Open Source Modell für den eigenen PC anbieten wie Genmos Mochi 1, Pyramid Flow oder Tencents Hunyuan.
Noch ohne automatische Soundeffekte und Musik
Nicht erwähnt wird die von Google DeepMind im Juni angekündigte Video-to-Audio Funktionalität, also die Möglichkeit, Videos je nach Bildinhalt automatisch oder per Prompt mit passender Musik, Soundeffekten und sogar Dialogen zu unterlegen. Diese wird aber vermutlich bald ihren Weg zu Veo finden.
Imagen 3
Die neueste Version von Googles Bild-Generator, Imagen 3, soll für alle Google Cloud-Kunden ab nächster Woche zur Verfügung stehen. Manche der Kunden können auch auf besondere Features zugreifen, wie das Fotoediting per Prompt, In- und Outpainting, sowie die Möglichkeit, gezielt einen eigenen Stil, Logos oder Produkte in die erzeugten Bilder einfliessen zu lassen, wie im folgenden Bild ein Kleid, das dann per Prompt einem virtuellen Model angezogen wird.

Sicherheit und Copyright
Wichtig ist Google die Betonung, dass sowohl Veo als auch Imagen 3 eingebaute Sicherungen haben, die vermeiden sollen, dass die generierten Bilder oder Videos das Urheberrecht verletzen oder verbotene Inhalte darstellen. Ähnlich wie Adobes Content Credentials System markiert Google alle per KI erzeugten Inhalte - auch zukünftig Audio - mithilfe eines unsichtbaren Wasserzeichens per SynthID, sodass sie als KI-generiert erkannt werden können.