Anzeige
Anzeige
KI-Fotos, Deepfakes und am Ende der Spielfilm? (1)

Unter der Lupe: generative Bilder-KI

Die Sorge in der Branche wächst: Kann ­ künstliche Intelligenz kreativ sein? Können heutige KI­ -Systeme schon eine Serie oder einen Spielfilm ­ herstellen? Wir werfen einen Blick auf den aktuellen Stand der Entwicklungen. Im ersten Teil erklären wir, wie generative Bild- und Bewegtbild-KIs arbeiten, wo ihre Grenzen liegen und wie man KI-Bilder und Deepfakes identifizieren kann. Der zweite Teil widmet sich den Bewegtbild-KIs und ersten Experimenten mit Storytelling.

KI generiertes Bild vom Papst
Foto: unbekannt

„Der erste, komplett von künstlicher Intelligenz erstellte Spielfilm!“ Geben Sie zu: Ein bisschen Angst macht diese Ankündigung schon! Zur Beruhigung: Sie ist Unsinn. Zwar werben auf YouTube etliche Videos mit dieser Behauptung. Bei genauerer Betrachtung entpuppen sich diese aber als simple Erzählungen, die lediglich mithilfe von KI visualisiert wurden. So zeigt der Kurzfilm “Poof” 59 Sekunden lang Fellwesen, die aufgrund ihrer langweiligen Büroarbeit explodieren. In seiner engen Prämisse bleibt der Film visuell konsistent. Je länger und komplexer Produktionen werden, desto problematischer wird der Output via KI.

Dabei gibt es durchaus Produktionen mit marktüblichen TV-Serien-Längen, die auf den ersten Blick wie das Einlösen des obigen Versprechens wirken. Ein Beispiel dafür ist der 32 Minuten lange Film „Mnemosyne 2039“. Solche Produktionen sehen auf den ersten Blick beeindruckend aus. Bei näherer Betrachtung offenbart sich allerdings der übliche KI-Footprint: Morphing-Effekte, unnatürliche Bewegungen und Fehler im Bildfluss, was die Darstellungen oft unheimlich wirken lässt. Dabei schwankt die Qualität auch innerhalb eines Videos oft zwischen “höchst beeindruckend” und “creepy as hell”. Eine konsistente Qualität lässt sich also nicht erkennen und derzeit gibt es noch keine wirklich originelle visuelle Erzählung, die vollständig von KI erstellt wurde – noch nicht. Das hat damit zu tun, wie KI-Systeme Bilder erstellen, wie daraus Videos werden und wie schwer es ist, überhaupt eine stringente Erzählung hinzubekommen. Wie nah sind wir also wirklich am ersten “komplett von künstlicher Intelligenz erstellten” Spielfilm?

So arbeitet generative Bild-KI

Versuchen wir zu verstehen, wie solches Bild- und Bewegtbildmaterial entsteht. Alle generativen KIs arbeiten letztlich auf die gleiche Weise. Dall-E, Midjourney, Googles Imagen und auch die Bewegtbild-KI Sora haben dabei eins gemeinsam: Sie können nicht sehen. Sie können aber über maschinelles Lernen Bilder und Videos analysieren und in Daten auflösen. Sie kombinieren in der Regel Large Language Models (LLMs) und Diffusionsmodelle.

LLMs lernen auf Basis großer Datenmengen an eingegebenen Texten, Kontext, Sinn und Bedeutung zu erkennen. So können sie Zusammenhänge herleiten und neue Inhalte generieren. Diffusionsmodelle haben sich gegenüber den weniger präzisen Modellen der Generative Adversarial Networks (GANs) oder den Variational Autoencoders (VAEs) durchgesetzt. Alle aktuell gehypten, großen KIs zum Generieren von Bildern und Bewegtbild sind Diffusionsmodelle. Diese verwandeln zunächst deutlich erkennbare Bilder nach und nach per stochastischer Differenzialgleichung (SDE) in Rauschen. Durch die Umkehr des Prozesses verwandeln sie dann das Rauschen wieder in aussagekräftige Bilder. Bei der Rückverwandlung gleicht das Modell stetig die neue Stufe des aus dem Rauschen generierten Bildes mit den zahllosen Beispielbildern aus der Datenbasis ab.

KI und das Bild

Eine fotorealistische Manipulation hinzubekommen, auf die man in den sozialen Medien hereinfällt, ist nicht besonders schwierig. Jeder mit einem kostenlosen Account bei Midjourney, Open AIs DALL-E oder ähnlichen Anbietern kann das schaffen. Aber Perfektion ist sehr schwer und bedarf häufiger Iterationen. Wo liegen also erkennbare Unzulänglichkeiten der Abbildung? Im Netz gibt es unzählige Tipps dazu, wie man KI-Fakes erkennt. Das Bild von Papst Franziskus in der Daunenjacke ist vermutlich eines der bekanntesten Fälschungen, auch deshalb, weil es selbst auf den zweiten Blick wenig Anlass zur Skepsis gibt.

KI-generiertes Bild

KI-generiertes Bild
Drei Versuche, über Stable Diffusion ein Bild von Daniel Craig im Smoking zu erstellen, während er neben seinem Aston Martin DBS V12 vor dem Parlament in London steht und ein Exemplar von „Film & TV Kamera“ in der Hand hält: Bemerkenswert sind die zwei Big Bens im ersten Bild und die fünf Finger ohne Daumen im dritten Versuch. Wir haben auch Dall-E-3 mit derselben Aufgabe betraut, aber offenbar ist Daniel Craig dort unbekannt. (Fotos: Stable Diffusion / Uwe Agnes)

Typische Probleme sind sich widersprechende, physikalische Eigenschaften. Wenn die KI zum Beispiel natürlichen Faltenwurf inklusive Schatten und noch eine darin liegende Kette oder darüber liegende Hände mit Fingern darstellen soll, kann sie ins Straucheln kommen. Experten achten zuerst auf eine Reihe von Merkmalen, darunter Finger, Textrepräsentation, Asymmetrien, übersaturierte Farben oder unnatürliches Licht. Auch überstilisierte Darstellungen, die Hautareale sehr weich oder zu stark patiniert darstellen, können Hinweise auf KI-Einsatz sein. Auch die Übergänge von Ohren, Haaren oder Fingern zum Hintergrund können unnatürlich wirken.

Deepfakes

Eine besondere Anwendung von KI-Technologien sind Deepfakes. Diese erstellen nicht vollständig neue Gesichter, sondern manipulieren meist existierende, indem sie auf vorhandenes Bildmaterial das Gesicht einer Person durch das eines anderen ersetzen. Dabei kommt häufig das Verfahren des „Face Swapping“ zum Einsatz. Auf diese Weise entstanden zahlreiche Deepfakes mit Wladimir Putin, Tom Cruise und Barack Obama. 2018 stellte der thailändische Forscher Supasorn Suwajanakorn in seinem TED-Talk „Fake Videos of Real People“ zusammen mit seinen Kollegen von der Universität von Washington die Grundlagen zur Generierung realistischer Lippensynchronität und Gesichtsmanipulation vor. Schon 2018 wies er auf die Gefahr des Missbrauchs dieser Technologie hin.

Auch ohne die Intention einer Täuschung wird die Technik eingesetzt. So lieh für die Netflix-Doku „Schmutziges Pop-Geschäft: Der Boyband-Betrug“ von David Terry Fine der Schauspieler Chris Beck dem verblichenen Doku-Protagonisten Lou Pearlman seine Mimik, um ein altes Promo-Video von Pearlman per Deepfake zur Erzählerstimme der Dokumentation werden zu lassen. Aber auch Deepfakes haben oft Merkmale, an denen man sie identifizieren kann. Dafür empfiehlt es sich, das Video an einem ausreichend großen Computerbildschirm anzusehen, nicht auf dem Smartphone. Hier lässt sich in angemessener Auflösung in das Bild hineinzoomen, was oft schon erste Hinweise auf schlecht verblendete, pixelige Schnittkanten am Rand des Gesichts oder unterschiedliche Hauttöne an Hals, Ohren und Gesicht offenbart.

Zwischenfazit

Innerhalb kürzester Zeit hat sich das Feld der mithilfe von KIs erzeugten Bildinhalte von einem Forschungsthema zur Anwendungsreife beim Endverbraucher entwickelt – und die Entwicklung schreitet rapide voran. Heute sind fotorealistische Manipulationen schnell erstellt. Jeder mit einem Laptop und kostenlosen Tools kann Ergebnisse erzielen, die in sozialen Medien beeindrucken. Doch diese Resultate lassen sich von Laien mit etwas Know-how oft schnell entlarven. [15523]

Anzeige

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.