KI lernt Trickfilm – Tom & Jerry lassen grüßen

Eine neue KI-Methode namens Test-Time Training (TTT) ermöglicht beeindruckend lange AI-generierte Videos. Forscher demonstrieren damit einminütige Tom-&-Jerry-Cartoons – bislang galten ~20 Sekunden als Limit. Durch spezielle TTT-Layer erhält das Videomodell eine Art Gedächtnis für längere Szenen, sodass die Verfolgungsjagd von Tom & Jerry über mehrere Szenen konsistent bleib. Kleine Bugs gibt’s noch (der Käse schwebt schon mal unnötig lange in der Luf, aber insgesamt ein großer Schritt Richtung KI-animierte Mini-Filme​

Quelle: the decoderTest time training

Forscher haben eine Methode zur Erstellung
längerer, zusammenhängenderer KI-Videos entwickelt,
die komplexe Geschichten erzählen.

Obwohl sich die KI-Videogenerierung in den letzten Monaten deutlich verbessert hat, bleiben Längenbeschränkungen eine anhaltende Herausforderung. OpenAIs Sora erreicht maximal 20 Sekunden, Metas MovieGen 16 Sekunden und Googles Veo 2 nur 8 Sekunden. Nun hat ein Team von Nvidia, der Stanford University, UCSD, UC Berkeley und UT Austin eine Lösung vorgestellt: Test-Time-Training-Layer (TTT-Layer), die Videos mit einer Länge von bis zu einer Minute ermöglichen.

Das grundlegende Problem bestehender Modelle liegt in ihrem „Self-Attention“-Mechanismus in Transformer-Architekturen. Dieser Ansatz erfordert, dass jedes Element einer Sequenz mit jedem anderen Element in Beziehung steht, wodurch der Rechenaufwand quadratisch mit der Länge steigt. Bei einminütigen Videos mit über 300.000 Token wird dies rechnerisch unerschwinglich.

Rekurrente neuronale Netze (RNNs) bieten eine potenzielle Alternative, da sie Daten sequenziell verarbeiten und Informationen in einem „verborgenen Zustand“ speichern. Der Rechenaufwand steigt dabei linear mit der Sequenzlänge. Herkömmliche RNNs haben jedoch aufgrund ihrer Architektur Schwierigkeiten, komplexe Beziehungen über längere Sequenzen hinweg zu erfassen.

Wie TTT-Ebenen die Videogenerierung verändern

Die Innovation der Forscher ersetzt einfache verborgene Zustände in herkömmlichen RNNs durch kleine neuronale Netzwerke, die während der Videogenerierung kontinuierlich lernen. Diese TTT-Schichten arbeiten parallel zum Aufmerksamkeitsmechanismus.

Während jedes Verarbeitungsschritts trainiert das Mini-Netzwerk, Muster im aktuellen Bildausschnitt zu erkennen und zu rekonstruieren. Dadurch entsteht ein ausgefeilteres Speichersystem, das die Konsistenz über längere Sequenzen hinweg besser aufrechterhält – und so sicherstellt, dass Räume und Charaktere über mehrere Szenen hinweg konsistent bleiben. Ein ähnlicher Testzeit-Trainingsansatz zeigte Ende 2024 im ARC-AGI-Benchmark Erfolg, allerdings basierte diese Implementierung auf LoRAs.

Das Team demonstrierte seinen Ansatz anhand von Tom-und-Jerry-Cartoons. Ihr Datensatz umfasst etwa sieben Stunden Zeichentrickmaterial mit detaillierten Personenbeschreibungen.

  1. Eine kurze Zusammenfassung in 5–8 Sätzen (z. B. „Tom isst glücklich einen Apfelkuchen am Küchentisch. Jerry schaut sehnsüchtig zu …“)
  2. Eine detailliertere Darstellung von etwa 20 Sätzen, wobei jeder Satz einem 3-Sekunden-Segment entspricht
  3. Ein umfassendes Storyboard, in dem jedes 3-Sekunden-Segment durch einen Absatz mit 3-5 Sätzen beschrieben wird, der Hintergrund, Charaktere und Kamerabewegungen detailliert beschreibt

Verlängerung der Videolänge um das 20-fache

Die Forscher bauten auf CogVideo-X auf, einem vortrainierten Modell mit 5 Milliarden Parametern, das ursprünglich nur 3-Sekunden-Clips generierte. Durch die Integration von TTT-Ebenen trainierten sie es schrittweise für längere Zeiträume – von 3 Sekunden über 9, 18, 30 und schließlich 63 Sekunden.

Die rechenintensiven Self-Attention-Mechanismen gelten nur für 3-Sekunden-Segmente, während die effizienteren TTT-Schichten global über das gesamte Video hinweg wirken und so den Rechenaufwand überschaubar halten. Jedes Video wird vom Modell in einem einzigen Durchgang ohne anschließende Bearbeitung oder Montage generiert. Die resultierenden Videos erzählen zusammenhängende Geschichten über mehrere Szenen hinweg.

Trotz dieser Fortschritte weist das Modell noch immer Einschränkungen auf – Objekte verändern sich manchmal an Segmentübergängen, schweben unnatürlich oder erfahren abrupte Lichtwechsel.

Alle Informationen, Beispiele und Vergleiche mit anderen Methoden sind auf GitHub verfügbar.

Zusammenfassung

  • Forscher haben eine neue Methode namens Test-Time Training Layers (TTT-Layers) entwickelt, mit der KI-generierte Videos deutlich verlängert werden können – von maximal 20 Sekunden für führende Modelle auf bis zu 63 Sekunden.
  • Die Innovation kombiniert Transformatormodelle mit rekurrierenden neuronalen Netzwerken, wodurch die TTT-Schichten während der Videogenerierung kontinuierlich lernen und ein besseres „Gedächtnis“ für längere Sequenzen entwickeln, ohne die Rechenkomplexität im Quadrat zu erhöhen.
  • Als Machbarkeitsnachweis erweiterten die Forscher das CogVideo-X-Modell um ihre TTT-Ebenen und trainierten es mit Tom-und-Jerry-Cartoons. So konnten Benutzer ihre Videoideen auf drei verschiedenen Detailebenen eingeben – von kurzen Zusammenfassungen bis hin zu detaillierten Storyboards.