So erstellte Audio Innovation Lab die weltweit erste Spielfilmsynchronisation per KI

Das Kölner Unternehmen Audio Innovation Lab erstellte 2024 für den chinesischen Arthouse-Film „Black Dog“ die weltweit erste Synchronisation eines Spielfilms per KI. Für die einen ist das ein Quantensprung, für andere eine Grenzüberschreitung. Wir sprachen für unser Heft 3.2025 mit Co-Firmengründer Dr. Stefan Sporn über die technologischen Hürden, die ethische Verantwortung und die Zukunft der Synchronarbeit.

Künstliche Intelligenz ist aus dem Technologiesektor nicht mehr wegzudenken. Doch welche Auswirkungen wird die disruptive Technologie auf den kreativen Bereich haben? Die Gründer von Audio Innovation Lab AIL haben für sich eine Antwort gefunden: Das junge Unternehmen hat 2024 den weltweit ersten Kinofilm per Künstlicher Intelligenz synchronisiert.

Dr. Stefan Sporn gründete zusammen mit Benjamin K. Höller und Ingo Hugenroth im Juni 2024 Audio Innovation Lab. Sporn blickt auf über 30 Jahre Erfahrung im Medienbereich zurück. Der Anwalt ist Fachmann im Bereich Medien- und Urheberrecht, war 22 Jahre bei RTL Deutschland, zuletzt als Geschäftsführer der RTL International GmbH, außerdem als COO bei Splendid Medien AG, wo er unter anderem als Geschäftsführer der Splendid Synchron GmbH mit Synchronisation in Kontakt kam.

Schnelle Gründung

Zusammen mit seinem vorigen Arbeitgeber RTL und gefördert von der Landesmedienanstalt NRW forschte er ein gutes halbes Jahr daran, wie KI eingesetzt werden kann. Zudem war ihm wichtig zu ergründen, wie das Publikum KI in der Synchronisation annimmt. Die Resultate lagen im Dezember 2023 vor. “Ergebnis: Es funktioniert technisch. Und der Zuschauer ist nicht mehr in der Lage, zwischen synthetischen oder synthetisierten Stimmen und echten zu unterscheiden”, sagt Sporn. “Das war für mich das Schlüsselerlebnis.”

Dann ging es sehr schnell. Ende Januar 2024 formulierte er seinen Abschlussbericht der Forschung, verließ Splendid und gründete im Juni 2024 mit Höller und Hugenroth Audio Innovation Lab. “Wenn man erkennt, dass sich eine Technologie wie hier KI-Audio so rasant entwickelt, muss man eine bestimmte Geschwindigkeit an den Tag legen.”

Die Akquise von Kunden ist in diesem Stadium eine Herausforderung. Es gab zahlreiche Tests und Pilotprojekte. Höller und Sporn sind in der Leitung der Opus Mediengruppe tätig, die an der Filmwelt Verleihagentur beteiligt ist. So erhielt AIL die Möglichkeit, den Film “Black Dog” des chinesischen Filmemachers Guan Hu mit KI zu synchronisieren. “Durch den Mut dieses Filmverleihs und das Vertrauen, das man in uns gesetzt hat, konnten wir uns an die Champions League des Contents wagen.” Weitere Anfragen kamen parallel.

Keine eigene KI

Anders als andere Tech-Start-ups hat Audio Innovation Lab keine eigene KI-Technologie entwickelt. AIL greift auf bestehende Audio-KI-Lösungen zurück. Die angebotenen Leistungen erstrecken sich über das gesamte Feld der stimmlichen Audioproduktionen: Kinofilme, Dokumentarfilme, TV-Streaming, Hörbücher, Podcast-Übersetzungen oder Werbung.

Das Audio Innovation Lab kann mit dreierlei Arten von Stimmen arbeiten: komplett synthetischen Stimmen, vorab synthetisierten Stimmen echter Sprecher:innen sowie synthetisierten Stimmen der “Quelle”, also des Hauptdarstellers eines Films. Für letztere reicht bereits wenig Material aus, um die KI zu trainieren. Text-to-Speech-Arbeit ist jedoch fehleranfällig, weshalb Sporn bevorzugt mit Speech-to-Speech zu arbeiten. Hierbei spricht eine echte Person den Text ein, und die KI ersetzt die Stimme durch die gewünschte synthetische Variante.

Ethik und KI

Vertrauen ist ein hohes Gut im Umgang mit KI. Missbräuchliche Anwendungen sind allgegenwärtig. Auch in der gesetzeskonformen Anwendung von KI-Audio liegen Gefahren. Der Verband Deutscher Sprecher:innen VDS warnte 2023: “Die KI-Stimmtechnologie birgt die Gefahr, die wirtschaftliche Grundlage professionell Sprechender zu vernichten und die Selbstbestimmung über die eigene Stimme zu verlieren.”

Das Audio Innovation Lab hat sich daher eine Ethikrichtlinie auferlegt, die auf der Webseite einsehbar ist. “Die Ethikrichtlinie ist da, um klare Signale zu senden, was wir machen und was nicht”, sagt Stefan Sporn. Sie dient auch der Abgrenzung von Mitbewerbern aus dem außer-europäischen Ausland, wo Persönlichkeitsrechte oft weniger stark geschützt sind.

Black Dog

Bei “Black Dog” wäre es technisch möglich gewesen, die Stimmen des Casts zu synthetisieren. Es wurde jedoch entschieden, mit komplett künstlichen Stimmen zu arbeiten. “Der Auftraggeber hat sich ausdrücklich gewünscht, dass wir trotz aller Besonderheiten, die der Film hat, dem Original so nah wie möglich kommen”, sagt Stefan Sporn. Die Frage, ob Synchronisation nah am Original bleiben oder einen sprachlichen Transfer schaffen sollte, stellt sich seit jeher und ist unabhängig von KI-Technologie.

Zukunft

Die Branche steht an einem Scheideweg. Die disruptive KI-Technologie wird Veränderung bringen. Stefan Sporn glaubt jedoch nicht, dass ein ganzer Berufs-zweig verschwinden wird. “Es wird noch lange so sein, dass die Feststimmen von Sprecher:innen, die den Deutschen vertrauter sind als die Originalstimmen der Schauspieler:innen, für die Synchronisation genutzt werden.”

Das aktuelle Projekt, der italienische Spielfilm “Willkommen in den Bergen”, ist eine hybride Produktion mit echten und künstlichen Stimmen und läuft seit 13. Februar in den Kinos. Der Dokumentarfilm “Agent of Happiness” folgt am 20. März 2025. [15524]