
注意: 本文中有关 Gemini Omni 的所有内容均基于未经证实的泄露信息和社区推测。Google 尚未正式宣布该模型、确认其功能或承诺发布时间表。一旦官方信息公布,我们将及时更新本文。
Google I/O 2026 还有一周就要开幕,社交媒体上已出现疑似名为"Gemini Omni"的新视频生成功能的未经核实演示。以下是泄露内容的呈现、其可能意味着什么,以及 AnyCap 将如何集成该模型。
AnyCap 目前可用的视频模型
Omni 仍属推测,但如果您现在就想使用 AI 视频生成,以下模型已在 AnyCap 上线,一个 API 密钥即可全部访问:
| 模型 | 提供商 | 最适合 |
|---|---|---|
| Veo 3.1 | 电影级摄影、音视频同步 | |
| Seedance 2.0 | ByteDance | 顶级基准性能,Fast/Turbo 变体 |
| Wan 2.7 | Alibaba | 1080p 输出,音频同步动态 |
| Kling V3.0 | Kuaishou | 高保真,Std/Pro/O3 变体 |
| Sora 2 | OpenAI | 可通过 API 访问的视频生成 |
| Nano Banana 2 | 快速图像生成与编辑 | |
| Nano Banana Pro | 高保真图像生成 |
所有模型共享同一 API 端点、计费方式和认证机制,无需单独的 SDK 或按模型签署合同。
泄露内容(未经核实)
5 月 2 日,一位 Reddit 用户分享了一张来自 Gemini 移动端应用的截图,其中显示文字:"Start with an idea or try a template. Powered by Omni."(从一个想法开始,或尝试模板。由 Omni 提供支持。)该标签与"Toucan"一同出现,据报道"Toucan"是 Google 当前 Veo 3.1 视频路径的内部代号。该截图尚未得到独立核实。
界面说明据报道显示:
认识我们全新的视频生成模型。重混您的视频,在聊天中直接编辑,尝试模板,以及更多功能。
此文字来自泄露截图,尚未得到 Google 官方确认。
三种可能性(均属推测)
如果泄露内容反映了一款真实在研产品,AI 社区讨论了几种解读——均属推测,需等待 Google 官方说明:
| # | 可能性 | 可信度 | 备注 |
|---|---|---|---|
| 1 | Veo 品牌重塑 — Omni 是现有 Veo 管线的新产品名称 | 未知 | 若属实,仅为表面更名 |
| 2 | 全新视频模型 — 在 Gemini 体系下训练的不同架构 | 未知 | 底层技术只有 Google 知晓 |
| 3 | 统一多模态模型 — 文字+图像+视频+音频的单一系统 | 高度推测 | 名称引发此联想,但无证据支撑 |
以上可能性均未得到证实。
泄露片段内容
网络上流传的演示均未经核实——无法独立确认这些片段是否由 Gemini Omni 生成,或是否代表该模型的典型输出质量。
黑板前的教授(未经核实)
一个广泛流传的片段显示,一位疑似教授的人物一边在黑板上书写数学公式,一边讲解推导过程。观察者注意到片段中的公式看似正确,粉笔书写也较为连贯。该片段的来源尚未得到独立核实。
AI 生成视频中的文字渲染历来不够可靠。若此片段真实且具代表性,将表明该领域取得了进展——但在没有官方确认或独立测试的情况下,无法得出确定性结论。
餐厅场景(未经核实)
另一段泄露片段显示两名男子在餐厅吃意大利面。这引用了非正式评估 AI 视频质量时常用的"Will Smith eating spaghetti"基准。该片段的来源和真实性均未经核实。
编辑功能(未经核实)
泄露截图显示,编辑功能包括通过聊天界面去除水印和替换对象。Google 尚未确认这些功能,也不清楚这反映的是成品还是内部测试。
与 Google 当前方案的对比
回顾 Google 实际已发布的内容(非泄露):
- Nano Banana 2 和 Pro:Google 公开发布的 AI 图像生成模型,已集成至 Gemini,可通过聊天界面生成和编辑图像。
- Veo 3.1:Google 公开发布的视频生成模型,可通过 Gemini 访问,但作为独立管线运行,标注为"Powered by Veo 3.1"(由 Veo 3.1 提供支持)。
泄露内容促使包括 36Kr 在内的部分媒体将 Omni 描述为"Nano Banana 的视频版"。这只是一种类比,并非 Google 的官方定位,可能并不反映实际产品。
AI 视频领域现状(已确认)
以下是截至 2026 年 5 月已公开可用的主要 AI 视频模型:
| 模型 | 公司 | 状态 |
|---|---|---|
| Seedance 2.0 | ByteDance | 公开可用 |
| HappyHorse-1.0 | Alibaba | 公开可用 |
| Wan 2.7 | Alibaba | 公开可用 |
| Kling V3.0 | Kuaishou | 公开可用 |
| Sora 2 | OpenAI | 仅 API(消费者应用于 2026 年 4 月 29 日关闭) |
| Veo 3.1 | 通过 Gemini 提供(受地区限制) |
OpenAI 已确认 Sora 消费者应用于 2026 年 4 月 29 日关闭。Google 已公开表示视频生成仍是其产品路线图的一部分。
Gemini Omni 未出现在此列表中,因为它尚未被官方宣布。
AnyCap 的立场
AnyCap 是一个 AI 能力平台,将图像、视频、音频、搜索等生成式 AI 模型汇聚于单一 API 之下。本文开头列出的视频模型(Veo 3.1、Seedance 2.0、Wan 2.7、Kling V3.0、Sora 2、Nano Banana 2 和 Nano Banana Pro)目前均已在 AnyCap 模型目录中上线。
关于 Gemini Omni:
- Google 尚未宣布该模型,也未确认 API 访问方式。
- 若 Google 发布带有 API 访问的 Omni,AnyCap 将对其进行评估并着手集成。
- 目前没有已确认的时间表,因为 Google 也尚未披露。
- AnyCap 不拥有对 Google 未发布产品的提前或特殊访问权限。
值得关注的事项
Google I/O 2026 将于 2026 年 5 月 19 至 20 日举行。Google 通常借助此活动宣布产品更新,但具体议程尚未确认。无论 Omni 是否被提及,AnyCap 都将持续关注官方公告,并在机会出现时评估集成可能性。
总结
未经证实的泄露信息表明,Google 可能正在以"Omni"为名开发 Gemini 的原生视频生成体验。流传中的片段令人关注,但尚未得到确认。Google 既未宣布该产品,也未描述其功能或提供发布时间表。
若 Omni 随 API 访问一同发布,AnyCap 将按照对待其他重要新模型的惯例,对其进行评估和集成。与此同时,七款视频和图像生成模型已在 AnyCap 上线,均可通过单一 API 密钥访问。
如 Google 就 Gemini Omni 发布官方信息,本文将随时更新。