Sora

Update: Februar 16, 2024
Lesezeit:  Minuten

Sora: Erstelle ein 60 Sekunden Video mit einer Texteingabe

Sora - das Text zu Video Tool von OpenAI

OpenAI, der Entwickler von ChatGPT und Dall-E, der vor kurzem den GPT Store lanciert hat, hat mit einer neuen Text-zu-Video-Entwicklung im Netz für Furore gesorgt. Während diese Technologien bisher nur Videos von wenigen Sekunden Länge erzeugen konnten, hat OpenAi angekündigt, mit seiner Anwendung SORA Videos von bis zu 60 Sekunden Länge allein durch die Eingabe von Text erzeugen zu können.


Lange Videos mit reiner Textangabe 

Laut OpenAI ist Sora ein KI-Modell, das auf der Grundlage von Textanweisungen realistische und fantasievolle Szenen in Videoform erzeugen kann. Mit dieser Technologie können Videos mit einer Länge von bis zu einer Minute erstellt werden, wobei die visuelle Qualität und die Einhaltung der Benutzereingabeaufforderungen gewährleistet werden.


Sora ist in der Lage, komplexe Szenen mit mehreren Charakteren, spezifischen Bewegungsabläufen und genauen Details zu Thema und Hintergrund zu generieren. Das Modell versteht nicht nur, was der Benutzer in der Eingabeaufforderung verlangt, sondern auch, wie diese Elemente in der physischen Welt existieren.

Beispielvideo Mammut von OpenAI

Ein 10-Sekunden-Clip wurde nur mit folgendem Prompt erstellt: "Mehrere riesige Wollhaarmammuts nähern sich über eine schneebedeckte Wiese, ihr langes wolliges Fell weht leicht im Wind, während sie gehen, schneebedeckte Bäume und dramatische schneebedeckte Berge in der Ferne, das Nachmittagslicht mit dünnen Wolken und einer Sonne hoch in der Ferne erzeugt ein warmes Leuchten, der Blickwinkel der Kamera ist atemberaubend und fängt die großen pelzigen Säugetiere mit schöner Fotografie und Tiefenschärfe ein."  

Technik ermöglicht es viele "Frames" vorherzusagen

Zu den herausragenden Merkmalen von Sora gehört die Fähigkeit, ganze Videos auf einmal zu generieren oder bestehende Videos zu strecken, um sie länger zu machen. Dies wird durch eine Technik erreicht, die es dem Modell ermöglicht, viele Frames gleichzeitig vorherzusagen, was eine Herausforderung darstellt, um sicherzustellen, dass ein Subjekt gleich bleibt, auch wenn es vorübergehend aus dem Blickfeld verschwindet.

Die Entwicklung von Sora baut auf früheren Forschungsarbeiten an DALL-E- und GPT-Modellen auf. Es verwendet die in DALL-E 3 eingesetzte Recaptioning-Technik, die sehr beschreibende Untertitel für die visuellen Trainingsdaten erzeugt. Dadurch ist das Modell in der Lage, den Textanweisungen des Benutzers im generierten Video genauer zu folgen.

Video aus einem Bild erstellen

Neben der Fähigkeit, ein Video allein aus Textanweisungen zu erzeugen, kann das Modell auch ein vorhandenes Standbild verwenden und daraus ein Video erzeugen, indem es den Inhalt des Bildes mit Genauigkeit und Sinn für kleine Details animiert. Das Modell kann auch ein bestehendes Video verlängern oder fehlende Bilder hinzufügen.

Grenzen der Technologie

Trotz seiner beeindruckenden Fähigkeiten hat Sora laut Angabe von OpenAI auch Schwächen, wie z. B. die Schwierigkeit, die Physik komplexer Szenen genau zu simulieren oder spezifische Fälle von Ursache und Wirkung zu verstehen. Beispielsweise kann eine Person in einen Keks beißen, aber der Keks weist später keine Bissspuren auf. Sora kann auch räumliche Details einer Anweisung verwechseln, z.B. links und rechts vertauschen, und präzise Beschreibungen von Ereignissen herausfordern, die sich im Laufe der Zeit ereignen, z.B. einer bestimmten Kamerabewegung folgen.

Vor Einführung des Tools wird die Sicherheit getestet

Bevor Sora in OpenAI-Produkten verfügbar gemacht wird, werden Sicherheitsvorkehrungen getroffen. Dazu gehören die Arbeit mit Personen (den sogenannten Red Teamern) die das Tool testen und die Entwicklung von Werkzeugen zur Erkennung irreführender Inhalte.

Bleibe am Ball!

Informiere dich laufend über neue AI-Tools &
die Einsatzmöglichkeiten von künstlicher Intelligenz

Hier findest Du unsere Datenschutzerklärung

KI Tool Liste 2023

Autor

Johannes Deltl faszinieren die Möglichkeiten, aber auch Herausforderungen der Künstlichen Intelligenz. Er ist Geschäftsführer der Beratungsfirma ACRASIO und mehrfacher Buchautor. Kontaktiere ihn hier.

{"email":"Email address invalid","url":"Website address invalid","required":"Required field missing"}