Google I/O 2026 stellt Gemini Omni vor: Multimodale Eingaben erzeugen Video, dreifach bestätigt

TSO-Kurzfassung

Google hat auf der I/O 2026 Gemini Omni vorgestellt. Drei übereinstimmende Quellen bestätigen, dass das Kernmerkmal darin besteht, Texte, Bilder, Audio und Video als multimodale Eingaben zu verarbeiten und hochwertige Videoinhalte zu erzeugen. Wo die endgültigen Leistungsgrenzen liegen, ob bereits ein breiteres „anything from any input“ unterstützt wird und wie die Beziehung zu bestehenden Videogeneratoren genau aussieht, unterscheiden sich die Darstellungen; einige Details lassen sich aus den vorliegenden Quellen nicht bestätigen.
Technologielogik · Intelligenzgrenze
20. Mai 2026

TSO-HinweisDiese Seite nutzt das neue redaktionelle Artikellayout mit den aktuell verfügbaren öffentlichen Artikelfeldern. Strukturierte quellenbezogene Verifikationsdaten sind noch nicht Teil der öffentlichen API.

Einordnung der drei Quellen und TSO-Prüfung:

Quelle 1 (TechCrunch): Bestätigt, dass Google auf der I/O 2026 Gemini Omni vorgestellt hat, ein neues multimodales Modell; Sundar Pichai beschrieb die Vision mit „create anything from any input“.
Quelle 2 (9to5Google): Bestätigt den Auftritt von Gemini Omni auf der I/O 2026 und betont, dass es derzeit „only designed to generate video content“ ist, zugleich aber ebenfalls als Modell zum „create anything from any input“ vermarktet wird.
Quelle 3 (Engadget): Bestätigt, dass Gemini Omni Bilder, Audio, Video und Text als Eingaben verarbeiten und daraus „high-quality videos“ erzeugen kann; zudem wird es als nächster Schritt nach Nano Banana beschrieben.

TSO-Prüfung:

T (Three-source overlap, gemeinsame Fakten): Alle drei Quellen bestätigen die Veröffentlichung von Gemini Omni durch Google auf der I/O 2026 und ordnen das Modell im Bereich multimodaler Eingaben und Videoerzeugung ein.
S (Shared specifics, gemeinsame Details): Alle drei Quellen greifen die Formulierung „create anything from any input“ oder eine sinngleiche Aussage auf; außerdem betonen alle den multimodalen Charakter von Gemini Omni.
O (Outlier / Unterschiede): Nur Quelle 3 nennt ausdrücklich die Eingabetypen „images, audio, video and text“; nur Quelle 2 betont, dass das Modell derzeit ausschließlich für die Erzeugung von Videoinhalten vorgesehen sei; nur Quelle 3 bezeichnet es als einen Schritt nach Nano Banana und „presumably“ nach dem aktuellen Videogenerator Veo 3.1, was sich aus den anderen Quellen nicht bestätigen lässt.

Gemeinsam bestätigte Fakten:

Google hat auf der I/O 2026 Gemini Omni vorgestellt.
Gemini Omni ist ein multimodales KI-Modell.
Das Modell steht in Zusammenhang mit der Erzeugung von Videos und kann mehrere Eingabetypen in Videoinhalte umwandeln.
Alle drei Quellen verknüpfen es mit der Richtung „create anything from any input“, was auf eine breitere Vision als ein einfaches Ein-zu-eins-Tool hinweist.

Wesentliche Unterschiede:

Der aktuelle Funktionsumfang ist unterschiedlich beschrieben:
- Quelle 2 sagt ausdrücklich, dass es derzeit nur zur Erzeugung von Videoinhalten gedacht ist.
- Quelle 1 und Quelle 3 betonen dagegen stärker die allgemeine Vision, aus beliebigen Eingaben beliebige Inhalte zu erzeugen.
- Ob Gemini Omni zum Zeitpunkt der Veröffentlichung bereits Ausgaben außerhalb von Video unterstützt, lässt sich aus den vorliegenden Quellen nicht bestätigen.
Die Beschreibung der Eingaben ist nicht vollständig identisch:
- Quelle 3 nennt Text, Bilder, Audio und Video ausdrücklich.
- Quelle 1 erwähnt Bilder, Audio und Text.
- Quelle 2 führt die Eingabetypen nicht im Einzelnen auf.
Die Beziehung zu bestehenden Produkten wird nur einmal erwähnt:
- Nur Quelle 3 spricht von einem Schritt nach Nano Banana und mutmaßlich nach Veo 3.1.
- Diese Einordnung fehlt in Quelle 1 und Quelle 2 und kann daher nicht als gesichert gelten.
Weitere technische Details:
- Formulierungen wie „grounded in reality“, „grounded in Gemini's real-world knowledge“, „lifelike video“ und „high-quality videos“ stammen aus unterschiedlichen Quellen und verstärken denselben Eindruck, sind jedoch in ihrer technischen Bedeutung nicht eindeutig belegt.

Hintergrund und Analyse:
Im Vergleich der drei Quellen zeigt sich, dass der Schwerpunkt bei Gemini Omni nicht nur auf „Videoerzeugung“, sondern auf einer integrierten multimodalen Verarbeitungs- und Generierungslogik liegt. Alle Medien greifen die Erzählung „create anything from any input“ auf, doch die direkt bestätigbare Funktion ist weiterhin vor allem die Videogenerierung auf Basis mehrerer Eingaben. Mit anderen Worten: Die Ankündigung vermittelt eine größere Produktvision, aber der in den Quellen eindeutig bestätigte Kern bleibt ein multimodales Modell mit Videoausgabe als Ausgangspunkt.

Zu Aussagen über „realistischere Videoinhalte“ oder „weitere Bearbeitungsfunktionen“ gibt es in den drei Quellen keine durchgehend einheitliche, direkt bestätigte Grundlage. Streng quellenbasiert lässt sich daher nur sagen, dass Gemini Omni mit hochwertigen, realistisch wirkenden Videos in Verbindung gebracht wird; weitergehende Rückschlüsse auf komplette Videobearbeitungs-Workflows sind nicht gesichert.

Zusammenfassung der drei Quellen:

TechCrunch: Hebt hervor, dass Google auf der I/O 2026 einen konkreten Schritt in Richtung „anything from any input“ gemacht hat und Gemini Omni als neues multimodales Modell präsentiert.
9to5Google: Betont, dass der praktische Schwerpunkt von Omni derzeit weiterhin auf der Videogenerierung liegt, obwohl es als „create anything from any input“-Modell positioniert wird.
Engadget: Unterstreicht, dass Omni Bilder, Audio, Video und Text kombinieren kann, um hochwertige Videos auf Basis des Wissens von Gemini zu erzeugen, und sieht darin einen neuen Entwicklungsschritt.

Fazit:
Zusammenfassend lässt sich Gemini Omni als das von Google auf der I/O 2026 vorgestellte multimodale KI-Videomodell bestätigen. Die zentralen Begriffe sind „multimodale Eingaben“ und „Videoausgabe“. Ob es bereits breitere Bearbeitungsfunktionen bietet, ob es Ausgaben jenseits von Video unterstützt und wie genau es sich zu bestehenden Modellen verhält, wird in den vorliegenden Quellen nicht einheitlich belegt und sollte daher als „nicht in den Quellen erwähnt“ oder „aus den gegebenen Quellen nicht bestätigbar“ gekennzeichnet werden.

Google I/O 2026 stellt Gemini Omni vor: Multimodale Eingaben erzeugen Video, drei Quellen deuten auf ein neues Modell mit „Video als Ausgangspunkt“ hin

Aktueller Leserahmen

Informationsquellen