Sora – Text‑zu‑Video‑KI von OpenAI

OpenAI, der Entwickler von ChatGPT, hat 2024 mit einer neuen Text-zu-Video-Entwicklung im Netz für Furore gesorgt. Mittlerweile gibt es eine Vielzahl an Videogeneratiren und SOra wurde in ChatGPT integriert.
Erstes Commercial mit Sora für Toys R Us
Lange Videos mit reiner Textangabe
Laut OpenAI ist Sora ein KI-Modell, das auf der Grundlage von Textanweisungen realistische und fantasievolle Szenen in Videoform erzeugen kann. Mit dieser Technologie können Videos mit einer Länge von bis zu einer Minute erstellt werden, wobei die visuelle Qualität und die Einhaltung der Benutzereingabeaufforderungen gewährleistet werden.
Sora ist in der Lage, komplexe Szenen mit mehreren Charakteren, spezifischen Bewegungsabläufen und genauen Details zu Thema und Hintergrund zu generieren. Das Modell versteht nicht nur, was der Benutzer in der Eingabeaufforderung verlangt, sondern auch, wie diese Elemente in der physischen Welt existieren.
Technik ermöglicht es viele "Frames" vorherzusagen
Zu den herausragenden Merkmalen von Sora gehört die Fähigkeit, ganze Videos auf einmal zu generieren oder bestehende Videos zu strecken, um sie länger zu machen. Dies wird durch eine Technik erreicht, die es dem Modell ermöglicht, viele Frames gleichzeitig vorherzusagen, was eine Herausforderung darstellt, um sicherzustellen, dass ein Subjekt gleich bleibt, auch wenn es vorübergehend aus dem Blickfeld verschwindet.
Die Entwicklung von Sora baut auf früheren Forschungsarbeiten an DALL-E- und GPT-Modellen auf. Es verwendet die in DALL-E 3 eingesetzte Recaptioning-Technik, die sehr beschreibende Untertitel für die visuellen Trainingsdaten erzeugt. Dadurch ist das Modell in der Lage, den Textanweisungen des Benutzers im generierten Video genauer zu folgen.
Video aus einem Bild erstellen
Neben der Fähigkeit, ein Video allein aus Textanweisungen zu erzeugen, kann das Modell auch ein vorhandenes Standbild verwenden und daraus ein Video erzeugen, indem es den Inhalt des Bildes mit Genauigkeit und Sinn für kleine Details animiert. Das Modell kann auch ein bestehendes Video verlängern oder fehlende Bilder hinzufügen.

