Gerade wächst das Angebot von KIs, welche hochwertiges Video erzeugen können, rasend schnell - das neue Pyramid Flow Modell chinesischer Forscher aber sticht dabei heraus, denn es wurde unter der Open Source MIT-Lizenz veröffentlicht und kann deshalb - auch kommerziell - kostenlos genutzt werden. Kommerzielle Video-KIs dagegen können bei der Erzeugung vieler Clips schnell recht teuer in der Nutzung werden.

Pyramid Flow steht in Konkurrenz zu anderen Open Source Modellen wie OpenSora und CogVideoX, denen gegenüber es gleich mehrere Vorteile hat. So ist sowohl die Videoauflösung von Pyramid Flow mit bis zu 1.280 x 768 Pixeln als auch die Länge der Clips mit 10 Sekunden und vor allem die Bildwiederholungsrate mit 24fps deutlich besser. Zudem gibt es das beste CogVideoX-Modell-5B nur unter einer eingeschränkten, speziellen Lizenz.
Am wichtigsten ist aber natürlich die Bildqualität der generierten Videos, die man anhand der Demo-Clips, welche unter anderem die inzwischen klassischen Motive von OpenAIs Sora wie den Astronauten mit Wollmütze oder die Brandung an der Steilküste mit Leuchtturm nutzen, grob einordnen kann.
Subjektiv sehen die gezeigten Besipiele sehr gut aus, aber sie sind natürlich wie stets von den Forschern aus jeweils mehreren Versuchen ausgewählt. Die Entwickler haben auch einen eigenen (und daher nur eingeschränkt vertrauenswürdigen) Vergleich der Bildqualität von Pyramid Flow mit anderen aktuellen Modellen veröffentlicht, einmal in Form von Testscores und einmal als 1-on-1 Shootout, in welchem Pyramid Flow jeweils gegen eine andere Vidoe-KI im direkten Vergleich antritt. In letzterem schlägt es in Bezug auf Ästhetik, Bewegung und Prompt-Interpretation OpenSora deutlich und CogVideoX-5B sowie Kling (allerdings vermutlich die inzwischen veralteter Version 1.0) in immerhin zwei Bereichen.
// Top-News auf einen Blick:
- Blackmagic DaVinci Resolve 20 Beta 2 bringt neue Funktionen und Bugfixes
- Blackmagic Camera for Android 2.1 bringt neue Features
- Neuer superschneller PoX Flash-Speicher könnte DRAM und SSDs ersetzen
- Achtung: Verpixelte Videos können wieder kenntlich gemacht werden
- KI-generierte Fake-Trailer: Wie Hollywood an der Irreführung der Zuschauer ...
- Beleuchtung für Foto und Video lernen mit kostenlosem Tool von Google
Wir sind jetzt natürlich gespannt auf gründlichere, unabhängige Tests, die Pyramid Flow mit CogVideoX sowie den besten aktuellen kommerziellen Video-KIs vergleichen wie Metas Movie Gen, Kling, MiniMax, Runway Gen3 und Sora.

Interessanterweise wurde Pyramid Flow von Forschern der Peking-Universität als auch von Kuaishou Technology, den Schöpfern von Kling, entwickelt. Der neue Pyramidal Flow Matching Algorithmus könnte wichtig für die weitere Entwicklung von (Open Source) Video-KIs werden, da er sehr effizient ist in Bezug auf die benötigte Rechenleistung sowohl beim Training als auch bei der Generierung. Das Modell arbeitet in mehreren Schritten und erst beim letzten in voller Videoauflösung. Der neue Ansatz reduziert so im Vergleich zu bisherigen Modellen die benötigten Tokens auf ein Viertel. Trainiert wurde Pyramid Flow mittels Open Source Datasets von annotierten Videos 20.700 A100 GPU Stunden.
Man kann Pyramid Flow hier mit eigenen Prompts ausprobieren.