Google I/O 2026 发布 Gemini Omni：多模态输入生成视频，三源交叉验证

TSO 摘要

Google 在 I/O 2026 上发布 Gemini Omni，三家信源一致确认其核心能力是接收文本、图片、音频和视频等多模态输入，并生成高质量视频内容。关于其最终能力边界、是否已支持更广泛的“anything from any input”，以及与现有视频生成器的具体关系，三源表述存在差异，部分信息无法从给定信源中确认。
科技逻辑 · 智能前沿
2026年5月20日

TSO 说明当前详情页已按新版编辑部文章版式重构，但仍只使用现有 public article 字段；逐条信源与结论结构暂未进入 public API。

顶部三源观点与 TSO 校验结论：

信源1（TechCrunch）：确认 Google 在 I/O 2026 上推出 Gemini Omni，是一套新的多模态模型，Sundar Pichai 以“create anything from any input”描述其愿景。
信源2（9to5Google）：确认 Gemini Omni 在 I/O 2026 亮相，目前“only designed to generate video content”，但同样被包装为可“create anything from any input”。
信源3（Engadget）：确认 Gemini Omni 可将图片、音频、视频和文本作为输入，生成“high-quality videos”，并称其是继 Nano Banana 之后的“next step”。

TSO 校验结论：

T（Three-source overlap，三源重叠事实）：三源共同确认 Google 在 I/O 2026 发布 Gemini Omni，且该模型围绕多模态输入与视频生成展开。
S（Shared specifics，共同细节）：三源均提到“create anything from any input”这一表述或近似表述；三源都指向 Gemini Omni 的多模态属性。
O（Outlier / 差异项）：仅信源3明确列出可作为输入的类型为“images, audio, video and text”；仅信源2强调“currently only designed to generate video content”；仅信源3提到其是从 Nano Banana 以及“presumably”当前视频生成器 Veo 3.1 往上的一步，这一关系在另外两源中无法确认。

共同确认事实：

Google 在 I/O 2026 上发布了 Gemini Omni。
Gemini Omni 是一套多模态 AI 模型。
该模型与视频生成有关，且能把多种输入转化为视频内容。
三源都将其与“create anything from any input”的方向联系起来，说明其定位不止于单一输入到单一输出的工具。

主要分歧或差异点：

当前能力范围存在差异：
- 信源2明确称它“目前只用于生成视频内容”。
- 信源1与信源3则更强调其通向“从任何输入创建任何内容”的广义愿景。
- 无法从给定信源中确认 Gemini Omni 是否在发布当下已支持非视频输出。
输入类型的表述不完全一致：
- 信源3明确列出文本、图片、音频、视频。
- 信源1只写到 images、audio、text。
- 信源2未逐项列出输入类型。
与既有产品关系的表述存在唯一来源：
- 仅信源3提到它是相对 Nano Banana、以及“presumably” Veo 3.1 的下一步。
- 这一点在信源1、信源2中均未提及，无法从给定信源中确认。
细节边界：
- “grounded in reality”“grounded in Gemini's real-world knowledge”“lifelike video”“high-quality videos”等描述分别见于不同信源，属于同一方向的修辞强化，但具体技术含义无法从给定信源中确认。

背景与分析：
从三源交叉看，Gemini Omni 的发布重点并不只是“视频生成”，而是多模态理解与生成的一体化展示。各家媒体都将“create anything from any input”作为其核心叙事，但目前可被直接确认的能力边界仍是“以视频生成为起点”。也就是说，发布信息传递出一个更大的产品愿景，但信源中真正一致、可确认的落点，仍然是多模态输入驱动的视频输出。

对于“更逼真的视频内容”“继续编辑”等用户所给事件摘要中的说法，给定三源中没有直接、完整且一致的描述，因此无法从给定信源中确认。若要严格按信源写作，只能确认 Gemini Omni 与高质量、逼真风格的视频生成相关，而不能进一步扩展为完整的视频编辑工作流。

三源观点摘要：

TechCrunch：强调 Google 在 I/O 2026 上朝“从任何输入创建任何内容”的方向迈出具体一步，Gemini Omni 是新的多模态模型家族。
9to5Google：强调 Omni 目前的实际设计重点仍是视频生成，但同时被定位为可“create anything from any input”。
Engadget：强调 Omni 可以融合图片、音频、视频和文本输入，生成基于 Gemini 世界知识的高质量视频，并将其视为新的升级步骤。

结语：
综合三源，Gemini Omni 已可被确认是 Google 在 I/O 2026 推出的多模态 AI 视频生成模型，核心关键词是“多模态输入”和“视频输出”。但关于它是否已具备更广泛的编辑能力、是否支持除视频之外的最终输出，以及与既有模型的精确继承关系，给定信源并未形成完全一致的证据链，相关内容应标注为“信源未提及”或“无法从给定信源中确认”。

Google I/O 2026 发布 Gemini Omni：多模态输入生成视频，三源均指向“以视频为起点”的新模型

当前阅读框架

信息来源