KI lernt Trickfilm – Tom & Jerry lassen grüßen
Eine neue KI-Methode namens Test-Time Training (TTT) ermöglicht beeindruckend lange AI-generierte Videos. Forscher demonstrieren damit einminütige Tom-&-Jerry-Cartoons – bislang galten ~20 Sekunden als Limit. Durch spezielle TTT-Layer erhält das Videomodell eine Art Gedächtnis für längere Szenen, sodass die Verfolgungsjagd von Tom & Jerry über mehrere Szenen konsistent bleib. Kleine Bugs gibt’s noch (der Käse schwebt schon mal unnötig lange in der Luf, aber insgesamt ein großer Schritt Richtung KI-animierte Mini-Filme
Quelle: the decoder, Test time training
Forscher haben eine Methode zur Erstellung
längerer, zusammenhängenderer KI-Videos entwickelt,
die komplexe Geschichten erzählen.
Obwohl sich die KI-Videogenerierung in den letzten Monaten deutlich verbessert hat, bleiben Längenbeschränkungen eine anhaltende Herausforderung. OpenAIs Sora erreicht maximal 20 Sekunden, Metas MovieGen 16 Sekunden und Googles Veo 2 nur 8 Sekunden. Nun hat ein Team von Nvidia, der Stanford University, UCSD, UC Berkeley und UT Austin eine Lösung vorgestellt: Test-Time-Training-Layer (TTT-Layer), die Videos mit einer Länge von bis zu einer Minute ermöglichen.
Das grundlegende Problem bestehender Modelle liegt in ihrem „Self-Attention“-Mechanismus in Transformer-Architekturen. Dieser Ansatz erfordert, dass jedes Element einer Sequenz mit jedem anderen Element in Beziehung steht, wodurch der Rechenaufwand quadratisch mit der Länge steigt. Bei einminütigen Videos mit über 300.000 Token wird dies rechnerisch unerschwinglich.
Rekurrente neuronale Netze (RNNs) bieten eine potenzielle Alternative, da sie Daten sequenziell verarbeiten und Informationen in einem „verborgenen Zustand“ speichern. Der Rechenaufwand steigt dabei linear mit der Sequenzlänge. Herkömmliche RNNs haben jedoch aufgrund ihrer Architektur Schwierigkeiten, komplexe Beziehungen über längere Sequenzen hinweg zu erfassen.
Wie TTT-Ebenen die Videogenerierung verändern
Die Innovation der Forscher ersetzt einfache verborgene Zustände in herkömmlichen RNNs durch kleine neuronale Netzwerke, die während der Videogenerierung kontinuierlich lernen. Diese TTT-Schichten arbeiten parallel zum Aufmerksamkeitsmechanismus.
Während jedes Verarbeitungsschritts trainiert das Mini-Netzwerk, Muster im aktuellen Bildausschnitt zu erkennen und zu rekonstruieren. Dadurch entsteht ein ausgefeilteres Speichersystem, das die Konsistenz über längere Sequenzen hinweg besser aufrechterhält – und so sicherstellt, dass Räume und Charaktere über mehrere Szenen hinweg konsistent bleiben. Ein ähnlicher Testzeit-Trainingsansatz zeigte Ende 2024 im ARC-AGI-Benchmark Erfolg, allerdings basierte diese Implementierung auf LoRAs.
Das Team demonstrierte seinen Ansatz anhand von Tom-und-Jerry-Cartoons. Ihr Datensatz umfasst etwa sieben Stunden Zeichentrickmaterial mit detaillierten Personenbeschreibungen.
- Eine kurze Zusammenfassung in 5–8 Sätzen (z. B. „Tom isst glücklich einen Apfelkuchen am Küchentisch. Jerry schaut sehnsüchtig zu …“)
- Eine detailliertere Darstellung von etwa 20 Sätzen, wobei jeder Satz einem 3-Sekunden-Segment entspricht
- Ein umfassendes Storyboard, in dem jedes 3-Sekunden-Segment durch einen Absatz mit 3-5 Sätzen beschrieben wird, der Hintergrund, Charaktere und Kamerabewegungen detailliert beschreibt
Verlängerung der Videolänge um das 20-fache
Die Forscher bauten auf CogVideo-X auf, einem vortrainierten Modell mit 5 Milliarden Parametern, das ursprünglich nur 3-Sekunden-Clips generierte. Durch die Integration von TTT-Ebenen trainierten sie es schrittweise für längere Zeiträume – von 3 Sekunden über 9, 18, 30 und schließlich 63 Sekunden.
Die rechenintensiven Self-Attention-Mechanismen gelten nur für 3-Sekunden-Segmente, während die effizienteren TTT-Schichten global über das gesamte Video hinweg wirken und so den Rechenaufwand überschaubar halten. Jedes Video wird vom Modell in einem einzigen Durchgang ohne anschließende Bearbeitung oder Montage generiert. Die resultierenden Videos erzählen zusammenhängende Geschichten über mehrere Szenen hinweg.
Trotz dieser Fortschritte weist das Modell noch immer Einschränkungen auf – Objekte verändern sich manchmal an Segmentübergängen, schweben unnatürlich oder erfahren abrupte Lichtwechsel.
Alle Informationen, Beispiele und Vergleiche mit anderen Methoden sind auf GitHub verfügbar.
Zusammenfassung
- Forscher haben eine neue Methode namens Test-Time Training Layers (TTT-Layers) entwickelt, mit der KI-generierte Videos deutlich verlängert werden können – von maximal 20 Sekunden für führende Modelle auf bis zu 63 Sekunden.
- Die Innovation kombiniert Transformatormodelle mit rekurrierenden neuronalen Netzwerken, wodurch die TTT-Schichten während der Videogenerierung kontinuierlich lernen und ein besseres „Gedächtnis“ für längere Sequenzen entwickeln, ohne die Rechenkomplexität im Quadrat zu erhöhen.
- Als Machbarkeitsnachweis erweiterten die Forscher das CogVideo-X-Modell um ihre TTT-Ebenen und trainierten es mit Tom-und-Jerry-Cartoons. So konnten Benutzer ihre Videoideen auf drei verschiedenen Detailebenen eingeben – von kurzen Zusammenfassungen bis hin zu detaillierten Storyboards.
Verwendung von eigenen Inhalten oder
Ergänzungen durch fremde Quellen (z. B. YouTube) in privaten Filmen
Die Diskussion darüber, ob private Filme ausschließlich aus eigenen Aufnahmen bestehen dürfen oder ob fremdes Material (wie YouTube-Videos oder andere Quellen) ergänzt werden kann, hat rechtliche, kreative und praktische Aspekte. Hier sind ausführliche Beschreibungen der Vorteile und Nachteile, die mit beiden Ansätzen verbunden sind.
Vorteile der Verwendung ausschließlich eigener Inhalte
- Urheberrechtssicherheit
- Vorteil: Wenn Sie ausschließlich eigenes Material verwenden, sind Sie automatisch der Urheber des gesamten Inhalts. Sie tragen keine rechtlichen Risiken, da Sie die vollen Rechte an Ihren eigenen Aufnahmen besitzen.
- Beispiel: Aufnahmen von Ihrer Reise, Ihrer Familie oder Ihren Erlebnissen können bedenkenlos verwendet werden.
- Authentizität
- Vorteil: Eigene Inhalte spiegeln Ihre persönliche Perspektive wider und verleihen Ihrem Film eine einzigartige, authentische Handschrift. Die Zuschauer können sich besser mit Ihrer Erfahrung identifizieren.
- Beispiel: Persönliche Clips wirken natürlicher und emotionaler als fremdes Material.
- Keine Lizenzkosten
- Vorteil: Da Sie keine fremden Inhalte verwenden, müssen Sie keine Lizenzen erwerben oder sich mit den Bedingungen externer Plattformen auseinandersetzen.
- Kreative Kontrolle
- Vorteil: Sie behalten die volle Kontrolle über den Stil, die Qualität und die Botschaft Ihres Films, ohne sich an fremdes Material anpassen zu müssen.
Nachteile der ausschließlichen Verwendung eigener Inhalte
- Begrenzte Ressourcen
- Nachteil: Wenn Sie nur eigenes Material verwenden, sind die verfügbaren Inhalte durch Ihre Ausrüstung, Fähigkeiten und Zeit begrenzt. Dies kann die Qualität und Vielseitigkeit des Films einschränken.
- Beispiel: Sie könnten keine professionellen Luftaufnahmen oder historische Clips verwenden, wenn Sie keine Drohne oder Zugang zu solchen Orten haben.
- Höherer Aufwand
- Nachteil: Die Produktion von ausschließlich eigenem Material kann zeitaufwendig und teuer sein. Sie müssen alles selbst filmen und bearbeiten, was bei umfangreichen Projekten eine Herausforderung darstellen kann.
- Weniger Abwechslung
- Nachteil: Ohne fremdes Material kann der Film eintönig wirken, insbesondere wenn Sie keine Möglichkeit haben, bestimmte Perspektiven oder spezielle Effekte einzubauen.
Vorteile der Verwendung von fremden Quellen (z. B. YouTube)
- Erweiterte Ressourcen
- Vorteil: Die Verwendung von fremden Quellen wie YouTube bietet Zugang zu einer riesigen Vielfalt an Material (z. B. historische Aufnahmen, Drohnenvideos, Interviews), das Sie möglicherweise nicht selbst erstellen können.
- Beispiel: Sie können professionelle Aufnahmen von Sehenswürdigkeiten oder Zeitdokumente verwenden, um Ihren Film zu bereichern.
- Professionelle Qualität
- Vorteil: Viele auf Plattformen wie YouTube verfügbare Videos sind von hoher Qualität und können Ihrem Film einen professionelleren Look verleihen, besonders wenn Sie selbst nicht über teure Ausrüstung verfügen.
- Zeit- und Kostenersparnis
- Vorteil: Anstatt alle Inhalte selbst zu filmen, können Sie auf bereits existierendes Material zurückgreifen, was Zeit und Produktionskosten spart.
- Kreative Möglichkeiten
- Vorteil: Fremdes Material kann neue kreative Möglichkeiten eröffnen, wie z. B. den Einsatz von Animationen, historischen Clips oder Luftaufnahmen, die Sie sonst nicht hätten.
- Ergänzung von Informationen
- Vorteil: Fremdes Material kann wichtige Hintergrundinformationen liefern oder bestimmte Aspekte visuell erklären, die Sie in Ihrem eigenen Material nicht abdecken können.
Nachteile der Verwendung von fremden Quellen
- Rechtliche Risiken
- Nachteil: Die wichtigste Einschränkung bei der Verwendung von fremdem Material ist das Urheberrecht. Ohne die Erlaubnis des Rechteinhabers begehen Sie eine Urheberrechtsverletzung, selbst wenn der Film nur privat verwendet wird.
- Beispiel: Viele YouTube-Videos sind durch Lizenzbedingungen geschützt und dürfen nicht ohne Genehmigung verwendet werden.
- Eingeschränkte Nutzungsmöglichkeiten
- Nachteil: Selbst wenn Sie fremdes Material verwenden, kann dies Ihre Nutzungsmöglichkeiten einschränken. Sie dürfen den Film möglicherweise nicht öffentlich teilen (z. B. auf YouTube oder in sozialen Medien), da dies gegen die Lizenzbedingungen verstößt.
- Mangel an Authentizität
- Nachteil: Wenn zu viel fremdes Material verwendet wird, kann der Film weniger authentisch wirken und den Eindruck erwecken, dass er nicht Ihre persönliche Geschichte erzählt.
- Qualitätsunterschiede
- Nachteil: Fremdes Material kann sich in Stil und Qualität von Ihren eigenen Aufnahmen unterscheiden, was den Film unharmonisch wirken lässt.
- Komplexität der Lizenzierung
- Nachteil: Die Lizenzierung von fremdem Material kann kompliziert und zeitaufwendig sein. Sie müssen die Rechteinhaber kontaktieren und möglicherweise Lizenzgebühren zahlen.
Zusammenfassung
Eigene Inhalte
- Vorteile:
- Rechtlich sicher.
- Authentisch.
- Volle kreative Kontrolle.
- Nachteile:
- Begrenzte Ressourcen.
- Höherer Aufwand.
- Weniger Abwechslung.
Ergänzungen durch fremde Quellen
- Vorteile:
- Zugang zu professionellen und vielfältigen Inhalten.
- Zeit- und Kostenersparnis.
- Kreative Möglichkeiten.
- Nachteile:
- Rechtliche Risiken (Urheberrecht).
- Potenzieller Verlust von Authentizität.
- Komplexe Lizenzbedingungen.
Empfehlung
Wenn Sie fremdes Material verwenden möchten, achten Sie darauf:
- Rechte zu prüfen:
Lesen Sie die Lizenzbedingungen der Inhalte genau. - Erlaubnis einzuholen:
Kontaktieren Sie die Rechteinhaber, wenn nötig. - Creative Commons-Inhalte
zu nutzen: Suchen Sie nach Videos, die unter der Creative-Commons-Lizenz stehen und für private oder nicht-kommerzielle Filme verwendet werden dürfen.
Für rein private Zwecke (z. B. für den Familienkreis) kann die Verwendung von fremden Quellen möglicherweise toleriert werden, solange der Film nicht öffentlich zugänglich gemacht wird. Dennoch ist es immer sicherer, eigene Inhalte oder lizenzfreie Quellen zu verwenden.
Ki, die Videos erstellen können mit Hintergrundmanipulation
Synthesia synthesia.io
Spezialisiert auf virtuelle Präsentationen mit anpassbaren Hintergründen. Bietet eine große Auswahl an professionellen Hintergrundszenen
Kostenpflichtig
Descript descript.com
Ermöglicht das nahtlose Austauschen von Videohintergründen mit KI-gestützter Technologie
Freemium
Kapwing kapwing.com
Online-Tool für automatische Hintergrundentfernung und -ersetzung in Videos
Freemium
Unscreen unscreen.com
Spezialisiert auf die automatische Entfernung und Ersetzung von Videohintergründen ohne Greenscreen.
Kostenpflichtig mit Gratisversion
Remove.bg für Video remove.bg
Professionelle Hintergrundentfernung und -ersetzung für Videos.
Kostenpflichtig mit Gratisversion
HitPaw hitpaw.com
KI-gestütztes Tool für Hintergrundmanipulation in Videos mit verschiedenen Vorlagen
kostenpflichtig
Wondershare Filmorafilmora.wondershare.de
Bietet KI-gestützte Hintergrundeffekte und -ersetzung.
Kostenpflichtig mit Testversion
PhotoRoom photoroom.com
Erweiterte Funktionen für Videohintergrundbearbeitung mit KI-Unterstützung
Freemium
Animaker animaker.com
Spezialisiert auf animierte Hintergründe und Szenengestaltung
Freemium
Kaiber kaiber.ai
KI-Tool für kreative Hintergrundmanipulation und -generation
Kostenpflichtig
Colossyan colossyan.com
Erstellt Videos mit KI-Avataren vor beliebigen Hintergründen
Kostenpflichtig
Pictory pictory.ai
Automatische Hintergrundanpassung für Unternehmensvideos
Kostenpflichtig mit Testversion
Veed.io veed.io
Online-Plattform für professionelle Hintergrundbearbeitung
Freemium
XSplit VCam xsplit.com
Speziell für Webcam-Hintergrundeffekte und virtuelle Hintergründe
Kostenpflichtig mit Gratisversion
Ki, Tools, die Videos erstellen ohne Hintergrundmanipulation
Freemium
ist ein Geschäftsmodell, das sich aus den Wörtern "Free" (kostenlos) und "Premium" (hochwertig) zusammensetzt. Bei diesem Modell wird ein grundlegendes Produkt oder eine Dienstleistung kostenlos angeboten, während für zusätzliche Funktionen, Dienstleistungen oder erweiterte Inhalte ein Preis verlangt wird
Synthesia www.synthesia.io
Erstellt Studio-Qualität Videos mit realistischen KI-Avataren. Unterstützt über 140 Sprachen und bietet verschiedene Video-Templates.
Ideal für Training und Marketing
Kostenpflichtig
Hailuo hailuoai.video
Spezialisiert auf hochwertige Kurzvideos mit Text-zu-Video und Bild-zu-Video Funktionen. Besonders gut für charakterbasierte Szenen
Kostenpflichtig
Alibaba Qwen chat.qwenlm.ai
Text-zu-Video Generator von Alibaba. Etwas langsamer in der Generierung, aber dafür
komplett kostenlos
Kling www.klingai.com
Bekannt für hochqualitative Bewegungen und Realismus. Bietet sowohl Text-zu-Video als auch Bild-zu-Video Funktionen
Kostenpflichtig
Runway runwayml.com
Umfassendes Kreativtool mit Gen-3 Modell. Bietet Text-zu-Video, Bild-zu-Video und Video-zu-Video Funktionen
Kostenpflichtig
Renderforest renderforest.com
Professionelle Animationen bis zu 4K-Auflösung. Versteht Skripte und erstellt automatisch passende Videos
Kostenpflichtig mit kostenloser Testversion
InVideo invideo.io
Über 8 Millionen Stockmedien verfügbar. Wandelt Texte in Videos um und generiert Skripte
Kostenpflichtig mit Gratis-Plan
FlexClip flexclip.com
Spezialisiert auf Text-zu-Video Konvertierung mit Skripterstellung und Sprachsynthese
Freemium
Canva canva.com
Benutzerfreundlicher Text-zu-Video-Generator mit umfangreicher Template-Bibliothek
Freemium
Google Veo Google Veo
Bekannt für realistische Physik-Simulationen in generierten Videos
Begrenzt kostenlos
OpenAI Sora OpenAI Sora
Hochwertige visuelle Ausgabe.
Da ganz neu keine Preisangaben
Adobe Firefly adobe.com
Teil der Adobe Creative Suite mit KI-gestützter Videoerstellung
Kostenpflichtig
Synthesys synthesys.io
Fortschrittliche Text-zu-Sprach-Umwandlung für Erklärvideos
Kostenpflichtig
Pictory pictory.ai
Automatisierte Videoerstellung aus längeren Inhalten
Kostenpflichtig mit Testversion
Lumen5 lumen5.com
KI-gestützte Umwandlung von Blogbeiträgen in Videos
Freemium
Tutorials YouTube zum Theme KI-Video
KI generierte Videos erstellen (kostenlos) -
Künstliche Intelligenz Tutorial (720p60fps).mp4
KI VIDEO mit Avatar erstellen _ HeyGen AI
Video Generator Tutorial (1080p).mp4
kostenlos Avatar Videos mit KI erstellen -
Vidnoz AI Tutorial (720p60fps).mp4
kostenlose KI um TikToks & Shorts zu erstellen -
Tutorial (720p60fps).mp4
TikToks automatisch mit KI erstellen und schneiden -
Filmora 14 Tutorial (720p60fps).mp4
Bild Hintergrund entfernen und transparent machen
mit KI (kostenlos) - Tutorial (720p60fps).mp4