KI lernt Trickfilm – Tom & Jerry lassen grüßen

Eine neue KI-Methode namens Test-Time Training (TTT) ermöglicht beeindruckend lange AI-generierte Videos. Forscher demonstrieren damit einminütige Tom-&-Jerry-Cartoons – bislang galten ~20 Sekunden als Limit. Durch spezielle TTT-Layer erhält das Videomodell eine Art Gedächtnis für längere Szenen, sodass die Verfolgungsjagd von Tom & Jerry über mehrere Szenen konsistent bleib. Kleine Bugs gibt’s noch (der Käse schwebt schon mal unnötig lange in der Luf, aber insgesamt ein großer Schritt Richtung KI-animierte Mini-Filme

Quelle: the decoder, Test time training

Forscher haben eine Methode zur Erstellung
längerer, zusammenhängenderer KI-Videos entwickelt,
die komplexe Geschichten erzählen.

Obwohl sich die KI-Videogenerierung in den letzten Monaten deutlich verbessert hat, bleiben Längenbeschränkungen eine anhaltende Herausforderung. OpenAIs Sora erreicht maximal 20 Sekunden, Metas MovieGen 16 Sekunden und Googles Veo 2 nur 8 Sekunden. Nun hat ein Team von Nvidia, der Stanford University, UCSD, UC Berkeley und UT Austin eine Lösung vorgestellt: Test-Time-Training-Layer (TTT-Layer), die Videos mit einer Länge von bis zu einer Minute ermöglichen.

Das grundlegende Problem bestehender Modelle liegt in ihrem „Self-Attention“-Mechanismus in Transformer-Architekturen. Dieser Ansatz erfordert, dass jedes Element einer Sequenz mit jedem anderen Element in Beziehung steht, wodurch der Rechenaufwand quadratisch mit der Länge steigt. Bei einminütigen Videos mit über 300.000 Token wird dies rechnerisch unerschwinglich.

Rekurrente neuronale Netze (RNNs) bieten eine potenzielle Alternative, da sie Daten sequenziell verarbeiten und Informationen in einem „verborgenen Zustand“ speichern. Der Rechenaufwand steigt dabei linear mit der Sequenzlänge. Herkömmliche RNNs haben jedoch aufgrund ihrer Architektur Schwierigkeiten, komplexe Beziehungen über längere Sequenzen hinweg zu erfassen.

Wie TTT-Ebenen die Videogenerierung verändern

Die Innovation der Forscher ersetzt einfache verborgene Zustände in herkömmlichen RNNs durch kleine neuronale Netzwerke, die während der Videogenerierung kontinuierlich lernen. Diese TTT-Schichten arbeiten parallel zum Aufmerksamkeitsmechanismus.

Während jedes Verarbeitungsschritts trainiert das Mini-Netzwerk, Muster im aktuellen Bildausschnitt zu erkennen und zu rekonstruieren. Dadurch entsteht ein ausgefeilteres Speichersystem, das die Konsistenz über längere Sequenzen hinweg besser aufrechterhält – und so sicherstellt, dass Räume und Charaktere über mehrere Szenen hinweg konsistent bleiben. Ein ähnlicher Testzeit-Trainingsansatz zeigte Ende 2024 im ARC-AGI-Benchmark Erfolg, allerdings basierte diese Implementierung auf LoRAs.

Das Team demonstrierte seinen Ansatz anhand von Tom-und-Jerry-Cartoons. Ihr Datensatz umfasst etwa sieben Stunden Zeichentrickmaterial mit detaillierten Personenbeschreibungen.

Eine kurze Zusammenfassung in 5–8 Sätzen (z. B. „Tom isst glücklich einen Apfelkuchen am Küchentisch. Jerry schaut sehnsüchtig zu …“)
Eine detailliertere Darstellung von etwa 20 Sätzen, wobei jeder Satz einem 3-Sekunden-Segment entspricht
Ein umfassendes Storyboard, in dem jedes 3-Sekunden-Segment durch einen Absatz mit 3-5 Sätzen beschrieben wird, der Hintergrund, Charaktere und Kamerabewegungen detailliert beschreibt

Verlängerung der Videolänge um das 20-fache

Die Forscher bauten auf CogVideo-X auf, einem vortrainierten Modell mit 5 Milliarden Parametern, das ursprünglich nur 3-Sekunden-Clips generierte. Durch die Integration von TTT-Ebenen trainierten sie es schrittweise für längere Zeiträume – von 3 Sekunden über 9, 18, 30 und schließlich 63 Sekunden.

Die rechenintensiven Self-Attention-Mechanismen gelten nur für 3-Sekunden-Segmente, während die effizienteren TTT-Schichten global über das gesamte Video hinweg wirken und so den Rechenaufwand überschaubar halten. Jedes Video wird vom Modell in einem einzigen Durchgang ohne anschließende Bearbeitung oder Montage generiert. Die resultierenden Videos erzählen zusammenhängende Geschichten über mehrere Szenen hinweg.

Trotz dieser Fortschritte weist das Modell noch immer Einschränkungen auf – Objekte verändern sich manchmal an Segmentübergängen, schweben unnatürlich oder erfahren abrupte Lichtwechsel.

Alle Informationen, Beispiele und Vergleiche mit anderen Methoden sind auf GitHub verfügbar.

Zusammenfassung

Forscher haben eine neue Methode namens Test-Time Training Layers (TTT-Layers) entwickelt, mit der KI-generierte Videos deutlich verlängert werden können – von maximal 20 Sekunden für führende Modelle auf bis zu 63 Sekunden.
Die Innovation kombiniert Transformatormodelle mit rekurrierenden neuronalen Netzwerken, wodurch die TTT-Schichten während der Videogenerierung kontinuierlich lernen und ein besseres „Gedächtnis“ für längere Sequenzen entwickeln, ohne die Rechenkomplexität im Quadrat zu erhöhen.
Als Machbarkeitsnachweis erweiterten die Forscher das CogVideo-X-Modell um ihre TTT-Ebenen und trainierten es mit Tom-und-Jerry-Cartoons. So konnten Benutzer ihre Videoideen auf drei verschiedenen Detailebenen eingeben – von kurzen Zusammenfassungen bis hin zu detaillierten Storyboards.

Verwendung von eigenen Inhalten oder
Ergänzungen durch fremde Quellen (z. B. YouTube) in privaten Filmen

Die Diskussion darüber, ob private Filme ausschließlich aus eigenen Aufnahmen bestehen dürfen oder ob fremdes Material (wie YouTube-Videos oder andere Quellen) ergänzt werden kann, hat rechtliche, kreative und praktische Aspekte. Hier sind ausführliche Beschreibungen der Vorteile und Nachteile, die mit beiden Ansätzen verbunden sind.

Vorteile der Verwendung ausschließlich eigener Inhalte

Urheberrechtssicherheit
- Vorteil: Wenn Sie ausschließlich eigenes Material verwenden, sind Sie automatisch der Urheber des gesamten Inhalts. Sie tragen keine rechtlichen Risiken, da Sie die vollen Rechte an Ihren eigenen Aufnahmen besitzen.
- Beispiel: Aufnahmen von Ihrer Reise, Ihrer Familie oder Ihren Erlebnissen können bedenkenlos verwendet werden.
Authentizität
- Vorteil: Eigene Inhalte spiegeln Ihre persönliche Perspektive wider und verleihen Ihrem Film eine einzigartige, authentische Handschrift. Die Zuschauer können sich besser mit Ihrer Erfahrung identifizieren.
- Beispiel: Persönliche Clips wirken natürlicher und emotionaler als fremdes Material.
Keine Lizenzkosten
- Vorteil: Da Sie keine fremden Inhalte verwenden, müssen Sie keine Lizenzen erwerben oder sich mit den Bedingungen externer Plattformen auseinandersetzen.
Kreative Kontrolle
- Vorteil: Sie behalten die volle Kontrolle über den Stil, die Qualität und die Botschaft Ihres Films, ohne sich an fremdes Material anpassen zu müssen.

Nachteile der ausschließlichen Verwendung eigener Inhalte

Begrenzte Ressourcen
- Nachteil: Wenn Sie nur eigenes Material verwenden, sind die verfügbaren Inhalte durch Ihre Ausrüstung, Fähigkeiten und Zeit begrenzt. Dies kann die Qualität und Vielseitigkeit des Films einschränken.
- Beispiel: Sie könnten keine professionellen Luftaufnahmen oder historische Clips verwenden, wenn Sie keine Drohne oder Zugang zu solchen Orten haben.
Höherer Aufwand
- Nachteil: Die Produktion von ausschließlich eigenem Material kann zeitaufwendig und teuer sein. Sie müssen alles selbst filmen und bearbeiten, was bei umfangreichen Projekten eine Herausforderung darstellen kann.
Weniger Abwechslung
- Nachteil: Ohne fremdes Material kann der Film eintönig wirken, insbesondere wenn Sie keine Möglichkeit haben, bestimmte Perspektiven oder spezielle Effekte einzubauen.

Vorteile der Verwendung von fremden Quellen (z. B. YouTube)

Erweiterte Ressourcen
- Vorteil: Die Verwendung von fremden Quellen wie YouTube bietet Zugang zu einer riesigen Vielfalt an Material (z. B. historische Aufnahmen, Drohnenvideos, Interviews), das Sie möglicherweise nicht selbst erstellen können.
- Beispiel: Sie können professionelle Aufnahmen von Sehenswürdigkeiten oder Zeitdokumente verwenden, um Ihren Film zu bereichern.
Professionelle Qualität
- Vorteil: Viele auf Plattformen wie YouTube verfügbare Videos sind von hoher Qualität und können Ihrem Film einen professionelleren Look verleihen, besonders wenn Sie selbst nicht über teure Ausrüstung verfügen.
Zeit- und Kostenersparnis
- Vorteil: Anstatt alle Inhalte selbst zu filmen, können Sie auf bereits existierendes Material zurückgreifen, was Zeit und Produktionskosten spart.
Kreative Möglichkeiten
- Vorteil: Fremdes Material kann neue kreative Möglichkeiten eröffnen, wie z. B. den Einsatz von Animationen, historischen Clips oder Luftaufnahmen, die Sie sonst nicht hätten.
Ergänzung von Informationen
- Vorteil: Fremdes Material kann wichtige Hintergrundinformationen liefern oder bestimmte Aspekte visuell erklären, die Sie in Ihrem eigenen Material nicht abdecken können.

Nachteile der Verwendung von fremden Quellen

Rechtliche Risiken
- Nachteil: Die wichtigste Einschränkung bei der Verwendung von fremdem Material ist das Urheberrecht. Ohne die Erlaubnis des Rechteinhabers begehen Sie eine Urheberrechtsverletzung, selbst wenn der Film nur privat verwendet wird.
- Beispiel: Viele YouTube-Videos sind durch Lizenzbedingungen geschützt und dürfen nicht ohne Genehmigung verwendet werden.
Eingeschränkte Nutzungsmöglichkeiten
- Nachteil: Selbst wenn Sie fremdes Material verwenden, kann dies Ihre Nutzungsmöglichkeiten einschränken. Sie dürfen den Film möglicherweise nicht öffentlich teilen (z. B. auf YouTube oder in sozialen Medien), da dies gegen die Lizenzbedingungen verstößt.
Mangel an Authentizität
- Nachteil: Wenn zu viel fremdes Material verwendet wird, kann der Film weniger authentisch wirken und den Eindruck erwecken, dass er nicht Ihre persönliche Geschichte erzählt.
Qualitätsunterschiede
- Nachteil: Fremdes Material kann sich in Stil und Qualität von Ihren eigenen Aufnahmen unterscheiden, was den Film unharmonisch wirken lässt.
Komplexität der Lizenzierung
- Nachteil: Die Lizenzierung von fremdem Material kann kompliziert und zeitaufwendig sein. Sie müssen die Rechteinhaber kontaktieren und möglicherweise Lizenzgebühren zahlen.

Zusammenfassung

Eigene Inhalte

Vorteile:
- Rechtlich sicher.
- Authentisch.
- Volle kreative Kontrolle.
Nachteile:
- Begrenzte Ressourcen.
- Höherer Aufwand.
- Weniger Abwechslung.

Ergänzungen durch fremde Quellen

Vorteile:
- Zugang zu professionellen und vielfältigen Inhalten.
- Zeit- und Kostenersparnis.
- Kreative Möglichkeiten.
Nachteile:
- Rechtliche Risiken (Urheberrecht).
- Potenzieller Verlust von Authentizität.
- Komplexe Lizenzbedingungen.

Empfehlung

Wenn Sie fremdes Material verwenden möchten, achten Sie darauf:

Rechte zu prüfen:
Lesen Sie die Lizenzbedingungen der Inhalte genau.
Erlaubnis einzuholen:
Kontaktieren Sie die Rechteinhaber, wenn nötig.
Creative Commons-Inhalte
zu nutzen: Suchen Sie nach Videos, die unter der Creative-Commons-Lizenz stehen und für private oder nicht-kommerzielle Filme verwendet werden dürfen.

Für rein private Zwecke (z. B. für den Familienkreis) kann die Verwendung von fremden Quellen möglicherweise toleriert werden, solange der Film nicht öffentlich zugänglich gemacht wird. Dennoch ist es immer sicherer, eigene Inhalte oder lizenzfreie Quellen zu verwenden.

Ki, die Videos erstellen können mit Hintergrundmanipulation

Synthesia synthesia.io

Spezialisiert auf virtuelle Präsentationen mit anpassbaren Hintergründen. Bietet eine große Auswahl an professionellen Hintergrundszenen
Kostenpflichtig

Descript descript.com

Ermöglicht das nahtlose Austauschen von Videohintergründen mit KI-gestützter Technologie
Freemium

Kapwing kapwing.com

Online-Tool für automatische Hintergrundentfernung und -ersetzung in Videos
Freemium

Unscreen unscreen.com

Spezialisiert auf die automatische Entfernung und Ersetzung von Videohintergründen ohne Greenscreen.
Kostenpflichtig mit Gratisversion

Remove.bg für Video remove.bg

Professionelle Hintergrundentfernung und -ersetzung für Videos.
Kostenpflichtig mit Gratisversion

HitPaw hitpaw.com

KI-gestütztes Tool für Hintergrundmanipulation in Videos mit verschiedenen Vorlagen
kostenpflichtig

Wondershare Filmorafilmora.wondershare.de

Bietet KI-gestützte Hintergrundeffekte und -ersetzung.
Kostenpflichtig mit Testversion

PhotoRoom photoroom.com

Erweiterte Funktionen für Videohintergrundbearbeitung mit KI-Unterstützung
Freemium

Animaker animaker.com

Spezialisiert auf animierte Hintergründe und Szenengestaltung
Freemium

Kaiber kaiber.ai

KI-Tool für kreative Hintergrundmanipulation und -generation
Kostenpflichtig

Colossyan colossyan.com

Erstellt Videos mit KI-Avataren vor beliebigen Hintergründen
Kostenpflichtig

Pictory pictory.ai

Automatische Hintergrundanpassung für Unternehmensvideos
Kostenpflichtig mit Testversion

Veed.io veed.io

Online-Plattform für professionelle Hintergrundbearbeitung
Freemium

XSplit VCam xsplit.com

Speziell für Webcam-Hintergrundeffekte und virtuelle Hintergründe
Kostenpflichtig mit Gratisversion

Ki, Tools, die Videos erstellen ohne Hintergrundmanipulation

Freemium

ist ein Geschäftsmodell, das sich aus den Wörtern "Free" (kostenlos) und "Premium" (hochwertig) zusammensetzt. Bei diesem Modell wird ein grundlegendes Produkt oder eine Dienstleistung kostenlos angeboten, während für zusätzliche Funktionen, Dienstleistungen oder erweiterte Inhalte ein Preis verlangt wird

Synthesia www.synthesia.io

Erstellt Studio-Qualität Videos mit realistischen KI-Avataren. Unterstützt über 140 Sprachen und bietet verschiedene Video-Templates.
Ideal für Training und Marketing
Kostenpflichtig

Hailuo hailuoai.video

Spezialisiert auf hochwertige Kurzvideos mit Text-zu-Video und Bild-zu-Video Funktionen. Besonders gut für charakterbasierte Szenen
Kostenpflichtig

Alibaba Qwen chat.qwenlm.ai

Text-zu-Video Generator von Alibaba. Etwas langsamer in der Generierung, aber dafür
komplett kostenlos

Kling www.klingai.com

Bekannt für hochqualitative Bewegungen und Realismus. Bietet sowohl Text-zu-Video als auch Bild-zu-Video Funktionen
Kostenpflichtig

Runway runwayml.com

Umfassendes Kreativtool mit Gen-3 Modell. Bietet Text-zu-Video, Bild-zu-Video und Video-zu-Video Funktionen
Kostenpflichtig

Renderforest renderforest.com

Professionelle Animationen bis zu 4K-Auflösung. Versteht Skripte und erstellt automatisch passende Videos
Kostenpflichtig mit kostenloser Testversion