Google hat seine neuesten generativen Medienmodelle vorgestellt und bringt damit Generative KI sichtbar über Text hinaus in den Bereich von Text-zu-Video und 3D-Inhalte. Die Ankündigungen umfassen das Videomodell Veo 3, das Bildmodell Imagen 4, das Filmproduktions-Tool Flow sowie erweiterte Musikfunktionen mit Lyria 2; viele Funktionen sind zunächst in den USA verfügbar.
Generative KI für Bewegtbild: Veo 3 und Imagen 4 treiben Text-zu-Video voran
Neue Fähigkeiten und Verfügbarkeit von Veo 3 und Imagen 4
Veo 3 erweitert die Videogenerierung um erstmals integriertes Audio: Hintergrundgeräusche, Vogelstimmen und sogar Dialoge lassen sich direkt aus Prompt-Text erzeugen. Das Modell verbessert zudem Lippensynchronisation, realistische Darstellung und die Kombination von Text- und Bild-Prompts. Veo 3 ist in den USA über Gemini im Rahmen eines Google AI Ultra-Abos sowie für Unternehmen über Vertex AI zugänglich.
Imagen 4 liefert eine deutlich gesteigerte Detailtreue bei Texturen, Typografie und feinen Strukturen und erzeugt Bilder bis zu 2K Auflösung; eine beschleunigte Variante soll die Leistung gegenüber Imagen 3 nochmals erhöhen. Beide Modelle sind in Google-Produkten wie Workspace, Vertex AI und in bestimmten Kreativ-Tools integriert, was die Kombination von Bild- und Videoproduktion erleichtert.
Kernaussage: Mit Veo 3 und Imagen 4 setzt Google einen technischen Schritt hin zu nativer Videosynthese und hochwertiger Bildproduktion, der Produktionszyklen verkürzen kann.

Medieninnovation und Workflows: Flow und Lyria 2 verbinden Film, Musik und Kreative
Flow als KI-gestütztes Filmproduktionswerkzeug
Flow fasst Modelle wie Veo, Imagen und Gemini zusammen und erlaubt es Kreativen, Szenen, Cast, Drehorte und Stile zentral zu beschreiben und in Filmsequenzen umzusetzen. Google betont, dass Flow mit Modellen von DeepMind arbeitet und in den USA für Nutzer von Google AI Pro und Ultra verfügbar ist; weitere Länder sollen folgen.
Parallel erweitert Lyria 2 die Musikproduktion: Die Music AI Sandbox bietet Kompositionswerkzeuge und das interaktive Modell Lyria RealTime ermöglicht Live-Generierung von Musik, etwa als Grundlage für MusicFX DJ. Lyria steht Creatorn in YouTube Shorts und Unternehmen über Vertex AI zur Verfügung.
Wichtig: Die Integration von Bild-, Audio- und Videofunktionen zielt darauf ab, kreative Workflows zu beschleunigen und neue Formen multimodaler Inhalte zu ermöglichen.
Vertrauen, Technik und Marktfolgen: SynthID, Deep Learning und Videosynthese
Provenienz, Sicherheit und technische Grundlagen
Zum Umgang mit synthetischen Medien hat Google sein Wasserzeichen-System SynthID etabliert; seit 2023 wurden damit mehr als 10 Milliarden Bilder, Videos, Audiodateien und Texte markiert. Neu ist das SynthID Detector-Portal, das hochgeladene Dateien überprüft und so Blockchain-ähnliche Nachvollziehbarkeit für KI-generierte Inhalte bieten soll.
Technisch beruhen die Produkte auf Deep Learning-basierten Neuronalen Netzen und multimodalen Foundation Models, die Text, Bild, Audio und Video verknüpfen. Dienste wie Vertex AI, Model Garden und Gemini Code Assist sind als Infrastruktur gedacht, um Unternehmen die Integration von Generative KI in Kundenservice, Marketing und Produktentwicklung zu erleichtern.
Fazit dieses Abschnitts: Die Kombination aus technischen Fortschritten in Computergrafik und Videosynthese sowie Mechanismen zur Kennzeichnung sollen Akzeptanz fördern, stellen aber Medienbranche und Regulierer vor neue Fragen.
Kurz zusammengefasst steht die Branche jetzt an einem Wendepunkt: Medieninnovation durch Generative KI schafft neue Produktionsmodelle für Multimodale Inhalte, gleichzeitig rücken Transparenz und Verantwortlichkeit in den Mittelpunkt — die nächsten Monate werden zeigen, wie schnell sich Text-zu-Video und D-Inhalte in professionelle Workflows etablieren.





