Ein deutsches Team von erfahrenen Entwicklern im Bereich generativer KI hat heute seine erste Bild-KI veröffentlicht - sie erscheint unter dem Dach des neu geründeten, auf Bild- und Video-KIs spezialisierten Unternehmens Black Forest Labs und wird in ihrer einfachsten Form sogar als frei zugängliches und kostenlos nutzbares Open Source Modell zur Verfügung stehen. Denn das neue FLUX.1-Modell beinhaltet drei hochwertige unterschiedliche Varianten mit verschiedenen Eigenschaften und unterschiedlichem Zielpublikum.

Im Team von Black Forest Labs finden sich namhafte Experten auf dem Gebiet der Bild-KIs wie u.a. Andreas Blattmann, Andrew Holmes, Axel Sauer, Dominik Lorenz, Frederic Boesel, Patrick Esser und Robin Rombach, die an der Entwicklung grundlegender generativer KI-Modelle gearbeitet haben und unter anderem Entwicklungen wie VQGAN und Latent Diffusion, die Stable Diffusion-Modelle für die Bild- und Videogenerierung (Stable Diffusion XL, Stable Video Diffusion, Rectified Flow Transformers) sowie Adversarial Diffusion Distillation für die ultraschnelle Bildsynthese in Echtzeit umfassen.

Drei Modelle von FLUX.1
FLUX.1 gibt es in drei unterschiedlichen Modellen für verschiedene Anforderungen, die sich laut Black Forest Labs alle durch hohe Bilddetails, eine präzise Umsetzung von Textanweisungen, stilistische Vielfalt und die Fähigkeit zur Darstellung komplexer Szenen auszeichnen (und sie können tatsächlich endlich Hände korrekt darstellen! Und auch die Darstellung von Text scheint besser, wenn auch noch nicht perfekt zu funktionieren.). Sie unterstützen auch ganz unterschiedliche Bildformate und Auflösungen.
- FLUX.1 pro ist das leistungsfähigste FLUX.1 Modell auf dem neuesten Stand der Technik. Es ist testweise per Replicate und fal.ai verfügbar, kommerzielle Nutzung kann über die API erfolgen.
- FLUX.1 dev ist ein offenes Modell für nicht-kommerzielle Anwendungen. Es wurde direkt aus FLUX.1 pro destilliert, ist aber effizienter als ein Standardmodell derselben Größe.
- FLUX.1 schnell: ist das schnellstes Modell ist für den lokale Einsatz und persönlichen Gebrauch.
Die beiden öffentlichen FLUX.1-Modelle (dev und schnell) basieren auf einer hybriden Architektur, die multimodale und parallele Diffusions-Transformer-Blöcke kombiniert und weisen eine massive Größe von 12 Milliarden Parametern auf.
Die drei FLUX.1 Versionen können unter anderem bei Replicate selbst kostenlos ausprobiert werden, die Gewichte für FLUX.1 dev und sowie die Gewichte plus Code für FLUX.1 schnell können bei Hugginface bzw Github heruntergeladen werden - Voraussetzung für die lokale Nutzung ist allerdings eine GPU mit sehr viel VRAM. Für FLUX.1 schnell werden vermutlich aufgrund seiner Quelloffenheit viele weitere Seiten kostenlosen Nutzung anbieten.
UPDATE 3. August FLUX.1 läuft ersten Berichten nach mit optimierten Einstellungen schon auf GPUs mit 12 GB VRAM wie der Nvidia 4070/4080/4090 - auf einer Nvidia 4070 Ti wird dann ein Bild in rund 7 Sekunden erzeugt. Und hier FLUX.1 schnell mit nur 10 GB Speicheranforderung und läuft damit schon auf einer RTX 3080.
// Top-News auf einen Blick:
- Blackmagic DaVinci Resolve 20 Beta 2 bringt neue Funktionen und Bugfixes
- Blackmagic Camera for Android 2.1 bringt neue Features
- Neuer superschneller PoX Flash-Speicher könnte DRAM und SSDs ersetzen
- Achtung: Verpixelte Videos können wieder kenntlich gemacht werden
- KI-generierte Fake-Trailer: Wie Hollywood an der Irreführung der Zuschauer ...
- Beleuchtung für Foto und Video lernen mit kostenlosem Tool von Google
A new open-source image generation model popped out of nowhere and it&s actually insanely good??
— Pietro Schirano (@skirano) August 1, 2024
FLUX.1 by @bfl_ml pic.twitter.com/K89GHoh3PQ
A new open-source image generation model popped out of nowhere and it&s actually insanely good??
— Pietro Schirano (@skirano) August 1, 2024
FLUX.1 by @bfl_ml pic.twitter.com/K89GHoh3PQ
"Horse riding on top of an astronaut", finally made possible with FLUX. https://t.co/b1ScO9sHvw pic.twitter.com/7r7WSPf32w
— cocktail peanut (@cocktailpeanut) August 3, 2024
FLUX.1 - besser als andere Bild-KIs?
Black Forest Labs will mit FLUX.1 die State-of-the-Art-Bildsynthese neu definiert haben und rühmt sich, mit FLUX.1 pro und dev aktuell führende Modelle wie Midjourney v6.0, DALL·E 3 (HD) und SD3-Ultra in Bereichen wie visueller Qualität, Umsetzung von Textanweisungen, Variabilität von Größe und Aspektverhältnis, Typografie und Vielfalt der Ausgabe zu übertreffen. Sollte das auch nur halbwegs stimmen, wird FLUX.1 schnell wohl bald Stable Diffusion als Spitzenreiter der quelloffenen Bild-KIs ablösen.

Hier ein Vergleich von Midjourney vs FLUX.1:
1. art deco-inspired fashion photo portrait of a renaissance poet | lively tavern scenes | pensive stillness, candid shots of famous figures, light blush[color 1] and[color 2]
— TechHalla (@techhalla) August 4, 2024
👈Left: Midjourney - Right: Flux👉 pic.twitter.com/eK2ELsn4CA
Als nächstes: Texst-to-Video
Vielversprechend ist die Ankündigung der "Schwarzwald"-Labs als nächstes hochmoderne Text-zu-Video-Modelle zu entwickeln, die die Generierung und Bearbeitung von hochauflösenden Videos mit großer Geschwindigkeit ermöglichen.

Hier finden einige beeindruckende FLUX1 Beispielbilder.