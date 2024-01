Welche Bedienungsmöglichkeiten haben Anwender bei der KI-Videoerzeugung?

Künstlerisch interessant sind für mich die beiden Eingabeverfahren Video zu Video und Text zu Video. Bei Video zu Video habe ich eine bereits gefilmte Sequenz, die die KI dann in eine andere Umgebung übersetzen kann. Zentrale Elemente der Handlung und Kamerabewegungen bleiben. Ein Beispiel: Ich schwenke über meinen Frühstückstisch mit Kaffeekanne, Milchtüte und Kaffeetassen und sage der KI dann: „Mache daraus einen Schwenk über die Skyline von New York.“ Die Milchtüte verwandelt sich dann zum Empire State Building.

Bei Text zu Video beschreibe ich in einem sogenannten Prompt, einem Textbaustein, was die KI tun soll. Ich habe dafür mittlerweile ein eigenes System, eine „Promptologie“mit inzwischen 13 Elemente definiert. Übersetzt aufs Filmemachen entspräche ein Prompt-Element vielleicht dem Genre, also Doku oder Film noir. Ein anderes Element wäre der Look, also etwa Cinemascope oder 3D-Rendering Games-Look oder VHS-Videomaterial. Mit einem anderen Element könnte ich den Kameratyp definieren, auch analoge Kameras. Zudem die Perspektive, das Licht, den Bildaufbau. Dann könnte ich den Ort und die Handlung definieren: „Hund frisst Pizza hinterm Bahnhof“, dann vielleicht noch den Regiestil oder den Stil des Kameramanns. Erfahrene Filmemacher können dann beim Prompten ihre Referenzen benutzen. Alle anderen texten nur „Hund frisst Pizza“ und geben der KI alle Freiheiten.

Lassen Sie uns das an einem konkreten Beispiel, etwa am KI-erzeugten Kurzfilm „The Frost“ von der US Videosoftware-Schmiede Waymark festmachen.

Nehmen wir als Beispiel die Sequenz eines Mannes, der auf einen Berg schaut und sagt: „Da ist irgendetwas.“ Ein anderer Mann antwortet ihm: „Wir können da nicht hochgehen.“ Dazu wurden die Charaktere als Bild generiert und hochgeladen, dann tippt man den Dialog ein und sucht Stimmen aus und dann wird das auf der Plattform so animiert, dass die Sequenz entsteht. Die Bilder wurden mit DALL-E-2 generiert und mit D-ID animiert. Bei „Frost“ und auch anderen KI-Videos fallen einem die oft eintönigen, sich wiederholenden Kamera- bewegungen auf. Ist das Phänomen der Fantasielosigkeit der Kreatoren oder den Beschränkungen der Software geschuldet?

Es gibt Plattformen mit Kacheln für bestimmte Kamerabewegungen, etwa Reinzoomen und Rauszoomen, Schwenk, Fahrt. Aber selbst um die gut einzusetzen, muss ich natürlich eine Ahnung der filmischen Abläufe und von Script, Kamera, Schnitt haben. Generell arbeiten diese ersten Lsungen noch sehr rudimentär, fast so wie einfache Animationsfilme. Man lädt ein Ausgangsbild hoch, dann erstellt Stable Diffusion Variationen, dann wird das animiert. Fast wie bei einem Daumenkino.

Die Tools können noch nicht so viel. Die meisten bekommen bisher nur recht einfache Animationen hin, etwa D-ID oder Gen 2. Ich selbst experimentiere gerade mit verschiedenen Lösungen und habe erst ein Tool, nämlich Kaiber.ai, gefunden, das insgesamt acht Kamerabewegungen beherrscht, etwa Zoom in, Zoom out, Rotation mit und gegen den Uhrzeigersinn oder Ähnliches. Welche Plattformen sollten sich Interessierte ansehen?

Am besten gefallen mir bisher die Runway ML-Lösungen Gen 1 und Gen 2. Gen 1 beherrscht Video to Video und Gen 2 kann Text to Video. Dann sollte man sich Kaiber und Genmo ansehen und D-ID als bisher beste Lösung um Bilder, Text und Sprache zu synchronisieren. Damit kann man sogar die Sprechgeschwindigkeit verändern. Auch den AI Video Generator HeyGen sollte man mal testen. Mit diesen Tools werde ich bei meinen künstlerischen Projekten weiterarbeiten. Alle diese Varianten richten sich noch an eine recht breite Masse von Nutzern, nicht explizit an Filmemacher. Sie setzen alle auf die Open-Source-KI Stable Diffusion auf. Interessant wird es, sobald sich auch die anderen großen Plattformen wie etwa Midjourney in dem Bereich Bewegtbild engagieren werden. Für die Bildgenerierung interessant: Gerade hat Midjourney mit der Lösung Zoom erstmals ein Outpainting ermöglicht. DALL-E kann bereits seit dem letzten Sommer Inpainting und Outpainting. Photoshop hat dafür Generative Fill integriert. Diese Anbieter werden sich auch stärker im Bewegtbildbereich engagieren – das wird schnell kommen. Darüber hinaus gibt es wahnsinnig viele Lösungen, die einfache Business-Videos produzieren können. Dort gebe ich meine Produkte ein und die generieren dann einen Fließtext über GPT, suchen für den Hintergrund ein Set aus Templates und Bildern und bauen alles zusammen. Das ist für das Marketing kleiner und mittlerer Unternehmen gedacht und für die Nutzung muss man nicht besonders filmaffin sein. [15398] Möchten Sie mehr über KI in der Bewegtbilderstellung erfahren? Hier geht es zum kompletten Interview!