Das KI-Modell Sora erzeugt eindrucksvolle Bewegtbilder

Sonntag, 18. Februar 2024 von Oliver Schwartz

Der ernsthafte Einsatz für Kreativ-Profis steht im Vordergrund

Das KI-Modell Sora erzeugt eindrucksvolle Bewegtbilder

2023 war das Jahr der Generativen KI. Gefühlt jeden Tag erblickte ein neues Tool das Licht der Welt, das auf den ersten Blick überraschen und faszinieren konnte. Die AI-Junkies wachten Montags als Lichtbildkünstler auf, Dienstags als frischgebackener Grafik-Designer, Mittwochs als Hit-Komponist, Donnerstags als schreibfauler Buchautor und Freitags als Day-Trader mit mächtiger KI-Unterstützung. Viele der Werkzeuge faszinieren nicht diejenigen, deren Talente, erlernte Fähigkeiten und Berufserfahrungen damit in Frage gestellt werden, sondern diejenigen, die gerne mit wenig Mühe etwas sein möchten, was sie nicht sind. Oder diejenigen, die das schnelle Geld in disruptiven Zeiten wittern. Das klingt böse, ist aber das zwingende Fazit aus unendlichen Social-Media-Posts zum Thema. Unstrittig ist aber, dass wie gerade eine Revolution erleben und das sich mit Hilfe der Generativen KI auch viele bislang ungeahnte, nützliche, wertvolle und produktive Chancen eröffnen. Am Ende werden die Werkzeuge sich durchsetzen, die genau das sind: Werkzeuge, für Kreative, für Business-Menschen, für Mediziner, für Umweltschützer, für Menschen, die sich ernsthaft mit einem Thema beschäftigen. Und doch bleibt die Gefahr von Missbrauch, von Fälschungen und Betrug. Die Schnittmenge zwischen ehrenhaftem Prompt-Ingenieur und ruchlosem Fake-News- und Scam-Produzenten war noch nicht so groß wie heute. Und jetzt kommt Sora.

Das Jahr 2024 beginnt mit einer wirklichen Sensation. Das KI-Modell Sora kann man mit Fug und Recht als weiteren Meilenstein der Generativen Künstlichen Intelligenz bezeichnen und die bisherigen Einblicke, die der Entwickler OpenAI gewährt versprechen das Bewegtbild-Genre nachhaltig zu verändern. Hoffentlich vor allem zu bereichern. Doch dazu mehr in diesem Beitrag. Denn selbst OpenAI spricht davon, dass man kritische Bereiche identifizieren will, bei denen die Fähigkeiten von Sora Risiken darstellen und Schäden verursachen können. Man hat dazugelernt, sucht nun frühzeitig die Öffentlichkeit und stellt ausgewählten bildenden Künstlern, Designern und Filmemachern einen Testzugang zur Verfügung. Außerdem betont man, dass Sora ein hilfreiches Werkzeug für Kreativ-Profis werden soll. Neue Töne im Vergleich zu den disruptiven Gesängen im letzten Jahr, bei denen Jedermann per KI aus heiterem Himmel zum Profi werden sollte. Das ist ein Paradigmenwechsel, der bemerkenswert ist. Dennoch gibt es auch zu Sora schon wieder jede Menge hysterisch-euphorische Begleit-Posts auf Social-Media, die suggerieren, dass der nächste „Mission Impossible“-Blockbuster in Sekundenschnelle auf dem PC im Kinderzimmer oder der Studentenbude entsteht.

Was macht also Sora? Das KI-Modell kann auf Basis eines Prompts, einer Text-Eingabe, Filmszenen erstellen, die einerseits sehr fantasievoll sein können – andererseits aber auch sehr realistisch. Jede dieser Szenen kann bis zu einer Minute lang sein. Das macht Sora für den professionellen Einsatz geeignet. Außerdem kann die KI bestehende Filmaufnahmen erweitern, verlängern oder manipulieren. Und zu guter Letzt können vorhandene Fotos oder Bilder zu bewegtem Leben erweckt werden. Die Beispiele, die OpenAI zusammen mit den benutzten Prompts bislang veröffentlicht hat sind mehr als beeindruckend. Denn der Hersteller betont, dass alle Samples genau so generiert worden sind und nicht nachträglich bearbeitet oder montiert worden sind. Sora lässt die Welten von klassischen Video- und Filmaufnahmen, von Drohnenflügen, von Special Effekts und von virtuellen Welten verschwimmen. Dies verspricht viele konstruktive und bereichernde Einsatzszenarien, aber bedeutet auch Risiken – denn Sora kann sehr realistisch aussehende Bewegtbilder generieren. Die Szenen wirken realistisch, bleiben aber künstlich erzeugt oder zumindest manipuliert. Und da beginnen die Probleme.

Vorabvisualisierung von kreativen Ideen

Einmal ungeachtet der Nutzungs- und Preismodelle und vorausgesetzt, dass die erzeugten Szenen in ausreichender Auflösung und Qualität heruntergeladen werden können bedeutet Sora in jedem Fall eine Öffnung der VFX-Welten auch für kleine Film- und Video-Produzenten. Aber auch bei Produktionen mit riesigem Budget und Heerscharen an Profis für Special-Effects, Stunts und Animationen, kann die Technologie massiv zum risikofreieren Produktionsablauf beitragen. Regisseure und Kameraleute können Storyboards und Vorabvisualisierungen auf eine völlig neue Ebene heben. Perspektiven und Einstellungen, die man real drehen will, können vorab intensiv getestet und optimiert werden. Und klar, reale Dreharbeiten können auch ersetzt werden. Oder Einstellungen und Motive generiert werden, die mit realer Filmtechnik nicht möglich gewesen wären, zu teuer, zu gefährlich oder mangels Drehgenehmigung undenkbar. In Hollywood-Kategorien gedacht ersteht hier eine alternative zur bisherigen sehr teuren und rechenintensiven VFX-Welt. Auch heute werden immer wieder, mehr oder weniger sichtbar, wichtige Hintergründe im Computer gestaltet und gerendert. Regisseure, Kameraverantwortliche und Produzenten können in Zukunft ihre Ideen auch ohne die teuren Spezialisten zumindest vorentwickeln.

Im Low-Budget-Bereich oder in der Werbung wird es dagegen viel intensiver um die Generierung von Szenen gehen, die dann so auch im fertigen Produkt tragend zum Einsatz kommen. Bei dem heutigen Kostendruck, unter dem die meisten Produktionen stehen, eröffnet dies viele bislang undenkbare, da unfinanzierbare Möglichkeiten. Aber auch hier kann die KI-Technologie bei der Vorabvisualisierung von kreativen Ideen helfen und damit Kunden überzeugen oder Finanzierungen von Projekten sichern.

Sam Gregory

„„Realistische Bilder von Ereignissen beeinflussen die Annahmen der Menschen darüber, was in der realen Welt vor sich geht, und können zur Täuschung der Menschen genutzt werden!“
Sam Gregory, Geschäftsführer von Witness

Quelle: OpenAI

Echte mit generierten Bewegtbildern zu einer neuen „Wahrheit“ verschmelzen?

Verlässt man das fiktionale Genre und betrachtet den Bereich Dokumentarfilm oder News-Produktion sind die seriösen, journalistischen Einsatzmöglichkeiten beschränkt – und entsteht schnell die Gefahr der Manipulation der Zuschauer. Hier wird es auf einen Kodex für deutliche Kennzeichnung ankommen. Insbesondere Dokumentationen zu historischen Themen können profitieren oder die szenische Nachstellung von Ereignissen. Dies wird aber auch Tummelplatz für Fake-News-Produzenten sein. Das müssen nicht nur Troll-Farmen oder Betrüger sein – das kann durchaus im staatlichen Propaganda-Auftrag erfolgen. Insbesondere in Konfliktzeiten. Es wird spannend sein, wie OpenAI damit umgehen will. Unabhängig davon, dass alle Technologie-Facetten der Künstlichen Intelligenz sehr vorrangig im Sicherheits- und Militärbereich erprobt und genutzt werden und dabei ein Geheimdienst nicht unbedingt ein klassisches Cloud-Abo für Jedermann nutzt. Viele Betrüger und Manipulatoren aber sehr wohl. Hier besteht die größte Gefahr in der Verlängerung von bestehenden Filmaufnahmen oder der Verwendung von echten Fotos als Grundlage zur Erzeugung bewegter Szenen. Wir alle kennen Videomaterial, das kurz vor einem Ereignis endet und dann Gegenstand von Interpretationen und gegenseitigen Beschuldigungen wird. Oder Bilder, die kurz vor oder kurz nach einem Ereignis entstanden sind und bei denen wir im Kopfkino, auf Basis von mitgelieferten Informationen oder Erfahrungen, ausmalen, was kurz zuvor oder kurz danach geschehen sein könnte. Mit Hilfe von Sora besteht nun die Chance, aber auch die Gefahr, echte mit generierten Bewegtbildern zu einer neuen „Wahrheit“ zu verschmelzen. Zu vermeintlichen Tatsachen oder Beweisdokumenten.

Kristian Hammond

„Die Klarheit der Wahrheit, die wir mit Fotos und Videos zu haben glaubten, ist verschwunden! Wir haben versehentlich eine Welt voller Propagandamaschinen aufgebaut. Es gibt Vorurteile in der Gesellschaft und diese Vorurteile werden sich in diesen Systemen widerspiegeln.“
Kristian Hammond, Professor für Informatik an der Northwestern University

Quelle: OpenAI

Vergangene Welten und Ergebnisse in beeindruckenden Bilderwelten zum Leben erwecken

Auf der rechtlichen und ethischen Seite entstehen auch viele Fragen und Herausforderungen, denn oftmals stehen Bewegtbildaufnahmen bewusst versagte Drehgenehmigungen, Mootiv- oder Persönlichkeitsrechte entgegen. Oder auch Markenrechte. Kurzum, wie bei allen Spielarten der Künstlichen Intelligenz wird das KI-Modell ja mit Daten trainiert und bei einer Lösung wie Sora stellt sich wie auch bei Midjourney oder DALL-E die Frage der Herkunft, der Lizensierung und der Urheberrechte der zum Training benutzten Daten. Und umgekehrt auch die Frage der Urheberrechte an den vom Kreativ-User generierten Bilderwelten.

Freuen dürfen sich Historiker und Archäologen, die nun ganz andere Möglichkeiten haben, vergangene Welten und die Ergebnisse ihrer Rekonstruktionen in beeindruckenden Bilderwelten zum Leben zu erwecken. Und OpenAI betont den Einsatz zum Schaffen von Weltsimulationen. Auch dafür gibt es viele positive und wertvolle Einsatzgebiete – gerade auch im Artenschutz, im Umwelt- und Klimaschutz, in der Städteplanung und vielen gesellschaftlichen Aufgaben mehr.

Gary Marcus

„Sie können einen Filter einbauen, der regelt: ‚Erstelle keine Videos mit Taylor Swift‘, aber die Leute werden Wege finden, das zu umgehen.“
Gary Marcus, emeritierter Professor an der New York University und Autor

Quelle: OpenAI

Neuer Technologieansatz und transparente Kommunikation

Die beeindruckende Qualität der Sora-Ergebnisse erklärt der Hersteller mit sogenannten visuellen Patches, indem Trainings-Videos zunächst „in einen latenten Raum niedrigerer Dimension komprimiert werden“ und anschließend die Darstellung „in Raumzeitfelder“ zerlegt wird. Ziel für Sora ist die Erschaffung eines generalistischen Modells für visuelle Daten mit unterschiedlicher Dauer, Seitenverhältnissen und Auflösungen. Als Vorteil wurde bei der Entwicklung festgestellt, wenn man die nativen Auflösungen und Seitenverhältnisse der Trainingsdaten beibehält. In der Vergangenheit wurden diese für Modelle zur Generierung von Bildern oder Videos meist normalisiert.

Gerade für Kreativ-Profis besonders eindrucksvoll sind erste Demos von Sora bei der Video-zu-Video-Bearbeitung oder der nahtlosen Verbindung von zwei Eingabevideos. Hier geht es um das Ändern der Umgebung von existierenden Videoszenen oder um beeindruckende Übergänge, die den Betrachter faszinieren. Bislang war beides nur mit viel teurer VFX-Technik oder einem großen Produktionsaufwand beim Dreh möglich. Sora oder vergleichbare KI-Modelle sind im Gegensatz zu vielen Tools der letzten Monate keine Spielereien. Man spürt bei allen Veröffentlichungen, dass hier wirklich an die Kreativ-Profis und einen produktiven und reproduzierbaren Einsatz gedacht worden ist. Damit unterscheidet sich die Lösung erheblich von vielen Gimmicks und Gadgets, die wir bislang gesehen haben. Der Hersteller OpenAI, der ja in 2023 nicht nur mit ChatGPT sondern auch mit internen Querelen von sich Aufmerksam gemacht hat, unterstreicht damit seine führende Rolle. Auch und nicht zuletzt mit der neuen, sehr transparenten Kommunikation rund um die Entwicklung und Bereitstellung von Sora.

#ki #ai #kuenstlicheintelligenz #sora #openai #genai #generativeki #videos #filme #bewegtbild #szenen #kreativitaet #kreativprofis #visualisierung #recht #ethik #risiken #gefahren #nutzen #kommunikation #technologie #textzuvideo #prompt

-Promotion-