Anzeige
Anzeige
KI-Fotos, Deepfakes und am Ende der Spielfilm? (2)

Wann kommt der KI-Spielfilm?

Ist die Angst vieler Kreativer aus der Filmbranche berechtigt? Steht die Dominanz von KI-generierten Inhalten kurz bevor? Im zweiten Teil des Artikels gehen wir genauer auf die Herausforderungen des Bewegtbilds für eine generative KI ein. Wir stellen als Beispiel Open AI Sora vor und schauen uns an, was mit Faibles Plattform Showrunner jetzt bereits auf dem Feld der generierten, kreativen Inhalte möglich ist. Zudem widmen wir uns kurz dem Thema der Rechtefragen und werfen einen Blick auf den Energiekonsum der künstlichen Intelligenz.

Symbolfoto Spielfilm
Foto: Jonas Leupe / Unsplash

Die Zukunftsvision klingt verlockend. Man kommt erschöpft vom Tagwerk ins traute Heim, wirft eine Kohlroulade in die Mikrowelle, startet den Smart-TV und spricht seinen Prompt in die KI-Fernbedienung: „Ich möchte gerne einen Actionfilm sehen, Hauptdarsteller der junge Arnold Schwarzenegger und die aktuelle Margot Robbie, mit viel Humor, mindestens einer Sequenz im Weltraum wie in Armageddon und viel Action!“ Dann erscheint ein Ladebalken. Nach fünf Minuten weist das „Ping“ der Mikrowelle uns darauf hin, dass die Kohlroulade eine verzehrgeeignete Temperatur erreicht hat. Gleichzeitig erscheint auf dem TV-Bildschirm eine Nachricht: „Ihr persönlicher KI-Movie wurde für Sie erstellt. Wir wünschen gute Unterhaltung!“

Unabhängig davon, ob das eine breite Masse tatsächlich verlockend fände: Wie weit sind wir technologisch von diesem „Netflix für in Echtzeit generierte KI-Inhalte“ entfernt? Im ersten Artikel zum aktuellen Stand der KI-generierten Inhalte in unserer Ausgabe 3.2025 haben wir uns angesehen, wie die KI-Lösungen Inhalte generieren. Große Sprachmodelle (LLMs) bilden die semantische Grundlage, damit das System verstehen kann, was wir eigentlich wollen. Diffusionsmodelle filtern dann über unzählige Korrekturschleifen hinweg aus einem Bildrauschen heraus die erwünschten Bilder. Das ist schon bei statischen Bildern selten auf Anhieb überzeugend und meist nicht konsistent – oder nur nach etlichen Iterationen, die viel menschliches Prompting benötigen.

Bei Bewegtbild ist die Sache ungleich komplizierter. Wer sich das beeindruckend und verstörend vor Augen führen lassen möchte, schaue sich an, wie künstliche Intelligenz an komplexen menschlichen Bewegungsabläufen scheitert. Das YouTube-Video „When AI tries diving“ zeigt die Versuche einer Video-KI, Turmspringen darzustellen.

Wer vom Fotoapparat auf die Videokamera umgestiegen ist, weiß es längst: Bewegung bringt viele zusätzliche Faktoren in das Handeln. Wir aber wissen um die physikalischen Begebenheiten der Welt, kennen Wahrnehmungskonventionen und können diese reproduzieren, selbst wenn wir nicht in der Lage sind, sie bewusst zu formulieren. Die aktuellen Diffusionsmodelle greifen auf keinerlei Weltwissen wie etwa grundlegende physikalische Kenntnisse zurück. Sie richten sich ausschließlich nach statistischen Wahrscheinlichkeiten, die sie dem Material entnehmen, das zu ihrem Training bereitgestellt wurde.

Alles neu? Open AI Sora

Auch der Videogenerator Sora, die aktuellste Entwicklung der ChatGPT-Macher Open AI, greift auf LLMs und Diffusionsmodelle zurück. Aber seine Entwickler haben etwas Neues hinzugefügt: Sie übertragen das sprachliche Funktionsprinzip der LLMs erstmals erfolgreich auf Visuelles.

Die sprachbasierten LLMs arbeiten mit sogenannten Tokens. Ein Token kann in der Linguistik nahezu alles sein, von der semantischen Einheit „gehen“, die als Infinitiv auch alle möglichen Konjugationen in sich trägt, aber auch ein Komma oder ein Bindestrich, die eine semantische Bedeutung und verändernde Kraft in einem gegebenen Kontext haben können.

Symbolfoto Dreharbeiten
Ersetzt der Sora-Prompt bald echte Dreharbeiten? (Foto: Jakob Owens / Unsplash)

Sora arbeitet mit sogenannten „Visual Patches“, die analog zu den Tokens als semantische Einheiten fungieren und über einen Kompressionsprozess aus dem Ur-Video entnommen werden. Die so entstehenden „latenten Repräsentationen“ verschiedener Eigenschaften des Videos trainieren nun das Modell. Neu ist, dass diese Eigenschaften sich auf die Raum-Zeit der Videos beziehen. Das heißt, dieses Modell „schaut“ auf die Dinge, die über den Verlauf des Videos bestehen.

Dieses Modell generiert nicht direkt Pixel wie die herkömmlichen Diffusionsmodelle. Sora generiert aus den Patches zunächst abstrakte Daten, die sie dann wiederum über den Diffusionsprozess in den Pixelraum zurückführt. Daraus speist sich Soras höhere Präzision und vor allem bessere Konsistenz der Inhalte über das Video hinweg. Zudem können nicht nur längere Videos analysiert und auch ausgegeben werden, sie können auch in höheren Auflösungen vorliegen. Zora ist also näher dran an einem Verständnis der physischen Welt.

Der Zugang zu diesen Optionen jedoch kommt zu einem Preis. Das bisherige LLM ChatGPT Plus ist für 20 Dollar im Monat erhältlich. Hier sind schon ein paar Videos mit geringer Auflösung und fünf Sekunden Dauer enthalten. ChatGPT Pro enthält eine umfassende, aber auch nicht unbegrenzte Nutzung von Sora und schlägt monatlich mit 200 Dollar ins Kontor. In Deutschland ist Sora bei Redaktionsschluss noch nicht offiziell veröffentlicht.

KI und Storytelling

Wir sind mit Open AI Sora also schon viel näher an glaubwürdigen, innerhalb einer Einstellung konsistenten Bewegtbildern angekommen. Hier führt kein Zwei-Zeilen-Prompt zu einer perfekten Szene. Wie auch bei der Nutzung von ChatGPT werden sehr gute Ergebnisse nur durch mehrere Iterationen und immer präzisere Prompts sowie durch das Zur-Verfügung-Stellen von zusätzlichen Informationen erreicht.
Auch bei den wenigen Anbietern, die sich auf das Generieren von KI-Geschichten einlassen, ist der Mensch noch unverzichtbar. Sie nennen das „Agent-powered KI“. Vor einiger Zeit machte das Unternehmen Fable Schlagzeilen durch seine mithilfe von KI erstellte Episode von South Park. [15536]


Möchten Sie mehr über KI und Spielfilm lesen? Hier geht es zum kompletten Artikel aus unserer Ausgabe 4.2025!


Anzeige

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.