一、新闻要点:英伟达这盘棋到底在布什么
1. Cosmos 世界基础模型上线
Cosmos 是一套专门用于物理世界视频数据合成的生成式模型,参数规模覆盖 4B 到 14B 不等,单次 30 秒视频生成可消耗约 5,000–8,000 个 token(按行业通用 token 化口径估算)。它的定位很明确——为机器人提供"廉价、海量、物理一致"的训练数据。
2. GR00T-Dreams:让机器人自己造数据
这个模块的核心思路是:让机器人在仿真环境里自我探索、自我试错,把"失败的过程"也变成训练素材。据英伟达官方披露,使用 GR00T-Dreams 合成数据后,真机数据需求量可降低约 70%。
3. Isaac Sim 0.5 性能提升
新版 Isaac Sim 在 RTX 5090 上的仿真吞吐提升约 2.3 倍,单卡可同时跑 128 个并行机器人训练任务。
4. 资本动作
英伟达在 2024 年参与了 Figure AI(估值 26 亿美元)、Physical Intelligence(估值 24 亿美元)、1X(融资 1 亿美元)等至少 5 家机器人公司的融资轮次。
二、深度解读:为什么英伟达必须"卷到机器人身上"

理解这步棋,要先看一组数据。
全球大模型训练侧的 token 消耗在 2023–2024 年间增长了约 8 倍,但黄仁勋在 2025 年初的公开讲话里透露,他判断推理侧的 token 消耗将在 18 个月内再增长 100 倍。这个判断的支撑点不是 LLM,而是具身智能(Embodied AI)。
为什么?因为机器人对 token 的需求是"指数级叠加"的:
- 一个机器人的一次动作决策 = 一段长上下文 + 一段视频流 + 一组传感器数据
- 一台人形机器人一天运行 8 小时,可能产生 2 亿–5 亿 token 的推理量
- 假设 2030 年全球部署 1,000 万台人形机器人(这是高盛 2025 年报告的中性预测),单日 token 消耗量级将达到 10¹⁵——比今天整个互联网日均 token 流量高 2–3 个数量级
这就是英伟达押注机器人的根本逻辑:LLM 增长有天花板,机器人没有。而只要机器人成为下一代计算终端,英伟达就永远站在 token 流水线的最上游。
三、对漫剧创作者的影响:别只看热闹
很多人会问:英伟达搞机器人,跟我画漫画、做 AI 漫剧有什么关系?
关系非常大,而且已经在发生。
1. 角色一致性难题将出现"物理级"解法
漫剧里最头疼的是多镜头角色跑形。Cosmos 这类世界模型的副产品——可控视频生成——正在解决"同一个人物在不同动作下保持外观一致"的问题。这意味着未来做长篇 AI 漫剧,不再需要 200 张 LoRA 反复抽卡,单个视频生成模型就能直接给到你 30 秒连续动作。
2. 镜头语言成本进一步降低
以前做一个长镜头(比如角色翻越围墙),需要 3D 建模 + 骨骼绑定 + 关键帧。现在用 Isaac Sim 风格的物理仿真 + 视频生成,几分钟就能产出可直接用于漫剧分镜的参考视频。
3. 算力开支结构会变
对独立创作者来说,未来的 token 账单会从"纯文生图"逐步演化为"视频生成长上下文 + 物理仿真"。据多家云厂商公开报价折算,单分钟可控视频生成的成本目前约是 0.8–1.5 美元,比 2024 年初下降了约 40%,但单次任务消耗的 token 量上升了 6–10 倍。
4. 漫剧形态可能被重新定义
"可交互漫剧"已经有人在试了——读者点一下,角色真的动起来,按物理规律做出反应。这条路线的瓶颈不再是剧本,而是物理一致性生成,而这恰恰是英伟达 Cosmos 想要解决的问题。
四、给漫剧创作者的 3 条具体行动建议
① 把"机器人/具身智能"加入你的选题雷达
2025 年下半年到 2026 年,将是国产人形机器人的量产元年。宇树、智元、银河通用等公司都会释放大量 IP 化内容需求。现在就开始研究"机器人题材漫剧"的叙事套路,比同行至少早 6 个月。
② 提前测试长视频生成工作流
不要等 ComfyUI 或 Sora 类工具成熟再动手。现在就可以用 Kling 1.6、Runway Gen-4、可灵的"多镜头一致性"功能做小规模测试,把 token 消耗、抽卡成功率、后期修补工作量记录下来。等 Cosmos 类的开源版本(预计 2025 Q3)放出
📖 完整版(含配套资源 / 步骤截图)已发布到驰云技术博客:查看完整版

评论(0)