Heise hatte bereits am Donnerstag als erster darüber berichtet, dass bei der Microsoft-Veranstaltung "KI im Fokus – Digitaler Kickoff" fast beiläufig erwähnt wurde, dass GPT-4 bereits nächste Woche erscheinen soll.
Dessen noch aktueller Vorläufer GPT3(.5) befeuert unter anderem das gerade omnipräsente ChatGPT von OpenAI. An OpenAI hält Microsoft mittlerweile signifikante Geschäftsanteile und dürfte deswegen in die internen Abläufe entsprechend eingeweiht sein.
Noch konkreter wurde Andreas Braun, CTO Microsoft Germany und Lead Data & AI STU, so wörtlich: "Wir werden nächste Woche GPT-4 vorstellen, da haben wir multimodale Modelle, die noch ganz andere Möglichkeiten bieten werden – zum Beispiel Videos".
Im Gegensatz zu "großen Sprachmodellen" (Large Language Modells, LLMs) sind multimodale Modelle nicht auf Sprache zur Eingabe und Ausgabe limitiert. Man kann, aber muss keinen Text als Input nutzen, sondern kann neben Text auch ein Bild, einen Ton oder -nach Microsofts Andeutung- sogar ein Video "eingeben".
Erst vor ein paar Tagen hatte Microsoft sein eigenes erstes, großes Multimodales Modell Kosmos-1 vorgestellt. Dieses MLLM (Multimodal Large Language Model) kann nach der Betrachtung von Bildern konkrete Aussagen zum Bildinhalt beantworten oder auch Bilderrätsel lösen.

// Top-News auf einen Blick:
- Blackmagic DaVinci Resolve 20 Beta 2 bringt neue Funktionen und Bugfixes
- Blackmagic Camera for Android 2.1 bringt neue Features
- Neuer superschneller PoX Flash-Speicher könnte DRAM und SSDs ersetzen
- Achtung: Verpixelte Videos können wieder kenntlich gemacht werden
- KI-generierte Fake-Trailer: Wie Hollywood an der Irreführung der Zuschauer ...
- Beleuchtung für Foto und Video lernen mit kostenlosem Tool von Google
Kosmos-1 ist nun NICHT GPT-4 und hat damit auch nur gemein, dass GPT-4 ebenfalls multimodal arbeiten kann.

Ähnliches könnte also auch bei der Eingabe von Videos bald möglich sein. Es ist zudem zu erwarten, dass in Zukunft auch multimodaler Output nutzbar sein wird. Ob es bei GPT-4 schon soweit ist, wird sich nächste Woche klären. Auf jeden Fall dürften wir in Kürze das Zusammenwachsen von GPT- und Diffusion-Modellen erleben.
Die Geschäftsführerin von Microsoft Germany, Marianne Janik, betonte auf der gleichen Veranstaltung übrigens, dass es bei KI nicht darum gehe, Jobs zu ersetzen, sondern repetitive Aufgaben auf andere Weise als bisher zu erledigen. Man werde auch weiterhin viele Menschen als Experten benötigen, um die Nutzung von KI wertschöpfend zu machen.
Also lieber schon mal das Prompten üben, liebe Leute...