Der Weg zum Erfolg bietet dabei unzählbare Möglichkeiten - dessen Ergebnis jedoch in vielen Fällen auf "Trial and Error" basiert. Zugleich sind bei der Generierung von KI-Videoclips "Experimente" nicht gratis. Bei Diensten wie Adobes Firefly Video zahlt man aktuell mindestens 40 Cent pro erzeugten Clip - auch für jeden Clip, der nicht so ausfällt wie erwartet.
Darum wollen wir an dieser Stelle ein paar Grundlagen zu Firefly für Video zusammenfassen, die für weitere eigene Experimente als fundierte Ausgangsbasis dienen könnten. Und vielleicht können wir dem einen oder anderen Anwender hiermit auch einige kostenpflichtige Fehlversuche beim Einstieg in das neue Tool ersparen.
Der (richtige) Prompt - Schlüssel zum Erfolg
Egal ob man mit Text zu Video oder Bild zu Video arbeitet: In jedem Fall ist es notwendig Firefly über eine Text Anweisung (der sog. Prompt) mitzuteilen, was in dem erzeugten Clip zu sehen sein soll. Weil Firefly auf einem multimodalen KI-Modell beruht, muss die Eingabe dabei keinerlei formale Anforderungen erfüllen. Man kann neben Sätzen auch Stichworte, Abkürzungen oder sogar irgendeinen Kaudawelsch als Input verwenden. Satzzeichen oder Formatierungsoptionen sind ebenso nicht obligatorisch und eine Fehlermeldung wegen falscher Syntax (wie beim klassischen Programmieren) wird man niemals zu Gesicht bekommen. Das einzige, was Firefly bemängelt, sind Begriffe, die potenziell Probleme mit dem Urheberrecht schaffen könnten. In diesem Fall warnt Adobe den Anwender und filtert die bemängelten Worte aus dem Prompt heraus, bevor er als finale Anweisung im KI-Videogenerator in der Adobe Cloud landet. Marken werden dabei ebenso herausgestrichen wie berühmte Persönlichkeiten. Auch Angaben wie "Eine Animation im Stil von Pixar", gehen nicht durch.
Interessanterweise ist es dagegen komplett egal, ob man den Prompt in Englisch oder Deutsch verfasst. Soweit wir die Verarbeitung bei Adobe nachvollziehen können, wird der Prompt in einem ersten Schritt in der Cloud immer ins Englische übersetzt und danach auf eventuelle Urheberrechts-Probleme abgeklopft. Wird ein problematischer Begriff gefunden, so wird dieser ersatzlos aus dem Text gestrichen. Dieser bereinigte Prompt wird anschließend an den Video Generator übergeben und Adobe schickt mit dem generierten Clip auch einen Hinweis an den Anwender zurück, dass Worte aus dem Prompt gestrichen wurden. Allerdings werden die beanstandeten Worte nicht explizit erwähnt, weshalb man manchmal nur ahnen kann, was im konkreten Fall die Warnung ausgelöst hat. Leider gibt es nach unserer Kenntnis auch keine Möglichkeit den korrigierten Input-Prompt mit den tatsächlichen Löschungen zu sehen. Zudem erscheint der Warnhinweis auch nur kurz nach der Rückgabe des fertigen Clips im Browser. Wer zu diesem Zeitpunkt gerade Kaffee geholt hat, bekommt daher vielleicht gar nicht mit, dass einzelne Begriffe des Promtps nicht verarbeitet wurden.
In (der) Form bleiben...
Obwohl es offiziell keine Formerfordernisse an den Text des Prompts gibt, gelten es dennoch ein paar Regeln, die sich als effektiv herausgestellt haben. Zuallererst sollte die Ausdrucksform (auch grammatikalisch) möglichst einfach gehalten werden, damit Firefly die Intention möglichst unmissverständlich verstehen kann. Adobe schlägt in seiner Online-Hilfe eine grundsätzliche Basis-Struktur als Gerüst vor, die dem folgenden Schema folgen sollte:
Aufnahmetyp + Figur(en) + Aktion + Ort + Ästhetik
Natürlich muss diese Reihenfolge nicht starr eingehalten werden, jedoch haben wir persönlich mit dieser Struktur gute Erfahrungen gemacht. In vielen Fällen lässt sich im Prompt auch die Reihenfolge vertauschen, ohne ein signifikant anderes Ergebnis zu erzielen. Dies kann eventuell helfen, um wichtige Dinge, die nicht umgesetzt wurden, stärker zu betonen, indem man sie nach vorne zieht. Oder auch, um nur eine geringe Variation zu erzwingen, ohne den Inhalt des Prompts grundsätzlich geändert zu haben.
Sehen wir uns als nächstes einmal die "Objekte" der oben genannten Formel etwas näher an:
Aufnahmetyp
Hier sollte man unter anderem die Kameraperspektive sowie die Bewegung konkretisieren. Firefly "kennt" ein paar Begriffe offensichtlich besonders gut:
Um bestimmte Objekte oder Gesichtsausdrücke besonders hervorzuheben und groß im Bild darzutellen, kann der Begriff Nahaufnahme verwendet werden. Als Gegenteil hierzu funktioniert Weitwinkelaufnahme ebenfalls fast immer. Für Kamerabewegungen lassen sich die Verben Schwenken, Zoomen oder Verfolgen gut nutzen. Und für außergewöhnliche Einstellungen haben sich die Begriffe Frosch- bzw Vogelperspektive bewährt.
Beispiele:
"Eine Totale, die sich von oben dem Objekt nähert"
"Eine Nahaufnahme mit langsamem Herauszoomen."
Figur(en)
Hier sollte man spezifizieren, wie Objekte und Figuren, die im visuellen Mittelpunkt der Szene stehen, konkret aussehen: Also beispielsweise welche Kleidung sie tragen und welche Emotionen sie ausstrahlen:
Beispiele:
"Ein weißhaariger, alter Mann im gelben Hemd mit grauer Weste, der freundlich lächelt."
"Ein großer Eisbär mit weißem Fell, der ein ernstes Gesicht macht."
"Ein Osterhase mit Sonnenbrille und detaillierter Felltextur hält ein Smartphone in der Pfote."
Aktion
Hier sollte man sehr konkret beschreiben, was in der Szene passiert. Wenn eine Handlung mit mindestens einer Figur zum Ausdruck kommen soll, sollte man dynamische Verben wie „laufen“, „fliegen“, „schwimmen“ oder „tanzen“ verwenden, ebenso helfen manchmal Tempobezeichnungen wie „langsam“, „schnell“ oder „schrittweise“.
Beispiele:
"Der Eisbär läuft vorsichtig, aber bestimmt zu einem Loch, das er zuvor ins Eis geschlagen hat"
"Der Osterhase bewegt das Smartphone in die Kamera und grinst breit. Mit der anderen Pfote zeigt der Osterhase in die Kamera auf den Zuschauer, als würde er ihn kennen."
Ort
Hier kann und sollte man die sichtbare Umgebung detailliert beschreiben. Also wo sich die Szene mit den Figuren befindet. Auch Beschreibungen des Geländes oder des Wetters, aber auch die Tageszeit können hier eingebracht werden.
Beispiele:
"Der Ort ist karg und verschneit. Graue Wolken ziehen in der Ferne langsam über den Himmel."
"Die Szene spielt auf einem riesigen Feld im Frühling voller bunter Ostereier zur goldenen Stunde."
Ästhetik
Hier sollte man seine Vorstellungen zum Look des Video-Clips hinzufügen. So lassen sich hier Schlagworte wie "35 mm-Film", "geringe Tiefenschärfe", "Bokeh" oder "Kino-Optik" einbringen.
Beispiele:
"Stilisierte 3D-Computeranimation, moderner 3D Style für Kinderfilme mit farbenfrohen, lebendigen Farben und detaillierten, fast plastikartigen Texturen"
"Die Beleuchtung ist filmisch, weich und diffus, mit im Gegenlicht der Sonne und entsprechenden Blendenflecken."
Viel hilft viel, aber bitte klar und deskriptiv!
Grundsätzlich empfiehlt Adobe tendenziell eher mehr Worte zu verwenden, um die Beleuchtung, die Figuren, die Kameraführung, die Farbqualität, die Stimmung oder auch den ästhetischen Stil detailliert zu beschreiben. Dies entspricht auch unseren Erfahrungen. Ob es jedoch hilfreich ist, im Zweifelsfall wichtige Dinge zweimal auf unterschiedliche Weise zu formulieren, ist nicht so klar.
Ein schönes Beispiel ist dargestellter Text: Sollte dieser immer wieder fehlerhaft wiedergegeben werden, kann es helfen, diesen zweimal im Prompt auftauchen zu lassen. Allerdings hat uns dies auch nicht immer weitergeholfen.
Hilfreicher erschien uns bei diesem Problem, mit schon erzeugten Prompts als Ausgangsmaterial weiterzuarbeiten, bei denen die Textausgabe bereits einmal fehlerfrei funktioniert hat. In einem Fall hat es uns auch geholfen, den Seed eines Promptes mit fehlerfreiem Text zu kopieren, jedoch kann diese "Lösung" natürlich ebenso Zufall gewesen sein.
Apropos Text: Eine Ausgabe von deutschem Text ist nahezu unmöglich. Und zwar, weil der Prompt vor der Generierung für Firefly immer ins Englische übersetzt wird. Es ist in unserem Beispiel daher völlig egal, ob wir "Frohe Ostern" oder "Happy Easter" als Text angeben - einzig die englische Variante landet im Generator.
Macht Übung den Meister?
Auf jeden Fall ist es hilfreich, unauflösbare Mehrdeutigkeiten so gut wie möglich zu vermeiden. Gerade wenn man viele Sätze aus gelungenen Prompts zusammenkopiert, formuliert man dabei vielleicht unbemerkt widersprüchliche Informationen.
Ein weiteres Problem ist die Konsistenz der Ergebnisse. Denn es passiert oft, dass man mit einem Ergebnis schon ziemlich zufrieden ist, jedoch ein oder zwei Kleinigkeiten nicht passen. Versucht man diese durch zusätzliche Anforderungen im Text auszuschließen (z.B.:"keine blauen Zähne"), bekommt man in der Regel einen gänzlich neuen Clip, der auch an anderen Stellen mit dem schon fast perfekten Clip nichts mehr zu tun hat. Hier kann es manchmal besser sein, etwas am Seed zu schrauben, als eine verbale Korrektur einzufügen.
Ein grundsätzliches Problem ist, dass es wenig grundsätzliche Wahrheiten für das Prompting gibt. Was einmal gut funktioniert, kann nach einer kleinen Modifikation schon nicht mehr funktionieren. Oder man stößt umgekehrt per Zufall auf unerwartet gute Ergebnisse, nachdem man eigentlich eine ganz anderes Problem lösen wollte.

Hilfreich ist es daher, zu Beginn strategisch vorzugehen, welche Begriffe gut zu dem eigenen Ziel passen. Es macht darum Sinn, am Anfang des Ausprobierens nicht nur einen Begriff zu ändern, sondern bestimmte Worte auch immer systematisch wegzulassen oder durch Synonyme zu ersetzen, um so mehr Variationen zu Gesicht zu bekommen. Letztlich kommt man bei den unzähligen Möglichkeiten dennoch kaum herum, durch viel Ausprobieren ein gewisses Gespür dafür zu entwickeln, "wohin der Hase läuft"....
History - versteckt, aber da
Hierfür hilft natürlich immer der Blick auf vergangene Versuche zusammen mit dem zugehörigen Prompt. Allerdings findet sich bei einem frischen Aufruf der Firefly Seite kein entsprechender Button. Denn dieser erscheint immer erst nachdem man in einer frischen Session seinen ersten Clip generiert hat. Will man jedoch nur seine bisherigen Ergebnisse analysieren, ohne einen frischen Clip zu erzeugen, findet man seine vergangenen Werke nicht nur auf der Firefly-Hauptwebsite unter "Dateien" sondern auch immer unter dem folgenden Direktlink (sofern man bei bereits bei Adobe Firefly eingeloggt ist):
https://firefly.adobe.com/files?tab=generationHistory
Alles zusammen
In unserem praktischen Fall wollten wir einen einfachen Ostergruß als 3D Animation erstellen. Hierfür haben wir unsere hier dargelegten Regeln einen großen Prompt gepackt und mit zahlreichen Versuchen optimiert, (von denen sich auch ein paar weitere Versuche in diesem Artikel finden): Der Prompt der für uns letzten Endes am besten funktionierte war der folgende:
Eine Totale, die sich von oben dem Objekt nähert.
Ein Osterhase mit Sonnenbrille und detaillierter Felltextur hält ein Smartphone in der Pfote.
Der Osterhase zeigt das Smartphone in die Kamera und grinst breit. Auf dem Smartphone-Display ist deutlich zu lesen: "Happy Easter!". Zum Abschluss zeigt der Osterhase mit der anderen Pfote auf das Smartphone -Display, um auf den Text "Happy Easter!" hinzuweisen.
Die Szene spielt auf einem riesigen Feld im Frühling voller bunter Ostereier zur goldenen Stunde.
Stilisierte 3D-Computeranimation, moderner 3D Style für Kinderfilme mit farbenfrohen, lebendigen Farben und detaillierten, fast plastikartigen Texturen.
Die Beleuchtung ist filmisch, weich und diffus, mit im Gegenlicht der Sonne und entsprechenden Blendenflecken.
Dieser Prompt erzielte das folgende Ergebnis:
Und was natürlich ein besonderer KI-Vorteil gegenüber einer 3D Animation ist: Eine Ausgabe in einem Hochkant-Format ist bestenfalls mit einem Klick erledigt:

///////
Unsere Sponsored Workshops erscheinen mit freundlicher Unterstützung von ausgewählten Herstellern und Distributoren (hier: Adobe), werden jedoch komplett in Eigenregie produziert. Der Fokus liegt auf der Funktion der Tools oder Produkte - es geht um die praktische Anwendung. Eine Wertung mit Fazit wie bei unseren Tests gibt es nicht.