OpenAI点赞转发的冠军项目，背后藏着一个国人3D生成团队

时间： 2026-03-06 14:54作者： Viviana

机器之心编辑部

近日，一款名为StoryWorld的 iOS 产品 Demo 在海外开发者与 3D 创作者社区引发关注：用户只需用手机摄像头对准真实空间，通过语音输入描述，即可生成 3D 角色与物体，通过移动手机完成取景与运镜，像导演一样调度站位与镜头。

该项目获得了 OpenAI Codex Hackathon 冠军，OpenAI 官方 OpenAI Developers 也在 X 平台转发推荐了这款创建 3D 场景的应用。据开发者 Varick Lim 介绍，他在 24 小时的开发时间内完成了这款应用，其中核心的 3D 资产生成环节使用了DeemosTech（影眸科技）的 Hyper3D Rodin

一、3D 生成从演示工具到生产工具

与常见的 AR 叠加效果不同，StoryWorld 中的 3D 对象是完整的三维资产，可以在空间中定位、缩放和多角度观察。这些资产被放置进场景后，用户只需移动 iPhone 摄像头，就能完成取景与运镜，实现类似电影摄影机的 “走位拍摄”，包括角色站位、拍摄角度与景别（近景 / 远景）控制。

视频链接：https://mp.weixin.qq.com/s/C-vIHqb4RQyRlVP7BdMqzg

在 AI 应用开发社区，工具的选择通常以结果和效率为导向：能否在极短时间内稳定产出可用资产、并撑起完整体验，是比 “表面参数” 更直接的标准。Hyper3D Rodin 在实时文 / 图生 3D 中呈现出的稳定性与可控性，使其成为 StoryWorld 在黑客松环境下的关键技术选项之一。

Varick Lim 在 X 上兴奋地表示：（StoryWorld）没有 Rodin 就无法实现！他的这个项目也启发了更多顶级 AI builder 跟随。3D 生成技术正在从单纯的内容展示工具，转变为开发者构建产品时的底层技术组件。

过去的生成式内容更多聚焦于 “生成一个画面 / 一个结果”，而 StoryWorld 这种形态把创作重心转向 “场景构建与镜头语言”。这种转变让 3D 生成从 “演示型技术” 走向 “生产型组件”，从而对 3D 生成提出更高要求，高稳定性和可控性的 3D 生成产品也更容易被整合进开发者的长期工作流。

美国 AI 公司 Unlikely Labs 创始人、高级人工智能总监 Eric Gradman 评论道：“我看过上千个 ARKit 演示，无一例外都是‘嘿，看，我可以绕着这个静态 3D 物体移动’。我从来没见过这样的。太棒了！”

二、从黑客松到工程化生产管线

随着 AI 原生创作、AR 场景表达和新一代内容工具的发展，越来越多顶尖 builder 在真实创造场景中把 Hyper3D 纳入工作流。

除 OpenAI 黑客松项目外，Hyper3D Rodin 也出现在另一个更 “工程化” 的高规格场景里：在今年 CES 大会上，英伟达创始人黄仁勋主题演讲的 keynote 制作工作流被公开讨论，其中提到了包含Hyper3D Rodin在内的工具链路线索。

根据英伟达公开的演讲制作流程，团队需要实现 12K 超清画面、多个主体同框的细节保持，以及一条能够快速迭代、无需反复重建场景的灵活 workflow。在这个流程中，Hyper3D Rodin 承担了 3D 模型生成任务，并需要在多个制作阶段保持角度与光照一致性，同时维持细节还原度。

最终，NVIDIA 团队制作出了专为巨型演讲屏幕设计的 12K 高精度环境画面。英伟达作为全球 AI 基础设施的重要制定者，其公开的内部工作流在某种程度上代表了行业标准。能够被纳入这类工程化管线的产品，意味着在精度、稳定性、工程适配能力上通过了更严格的验证。

从 OpenAI 黑客松的 “极限速度” 到英伟达的 “工程标准”，这两类场景共同指向同一个判断：当 3D 生成被当作生产组件使用时，稳定性、可控性与可复用性会成为第一优先级

三、从 “生成” 到 “编辑”：

3D 可控成为生产级流程基础范式

Hyper3D 是一支平均年龄 24 岁的国人团队，已获得奇绩创坛、红杉中国、字节跳动、美团龙珠、蓝驰创投的多轮投资。

从技术积累看，团队在 2024 年发布了原生 3D 大模型框架 CLAY（提名 SIGGRAPH 最佳论文），并基于此推出全球第一个原生 3D 大模型产品 Hyper3D.AI 。2025 年，团队的单张图生成场景研究 CAST 获得 SIGGRAPH 2025 最佳论文，向 “世界模型” 的关键一步推进。

今年 1 月，Hyper3D 发布了 Rodin Gen-2 Edit，推出基于自然语言的 3D 模型局部编辑功能，率先实现 3D Nano Banana—— 这是业内首个将 “3D 生成” 与 “3D 编辑” 整合为完整工作流的商用产品，3D 生成正式进入可编辑时代。

与传统 “抽卡” 逻辑不同，Rodin Gen-2 Edit 支持两种核心路径：

在 Hyper3D 内文 / 图生 3D 后，直接对结果进行局部修改导入任意现有模型（包括第三方 AI 生成模型或历史资产），在原模型基础上进行编辑

操作逻辑简单直接：框选需要修改的区域，输入文字指令，即可完成局部调整。

这一功能的适用范围不限于 Hyper3D 平台生成的模型 —— 任何第三方 3D 资产（包括历史存量模型或其他 AI 工具生成的模型）都可以导入平台进行编辑。这使得 Rodin 的编辑能力定位为平台级基础设施，而非单点功能。

Edit 的 API 集成也被 Varick Lim 在线催更。这正是 Hyper3D 被顶级开发者选择的原因之一：当 3D 工具不仅能在关键环节快速产出高质量资产，还能在后续迭代中支持局部修改与资产复用时，它才更接近 “生产组件” 的形态，也更容易长期留在一流开发者与生产级管线的工作流里。

四、多模态技术演进路径：

从生成到可控

观察生成式 AI 的发展路径，可以看到一条清晰的演进逻辑：先生成 → 再增强可控性 → 最终支持编辑。不论是图像、视频，还是 3D，多模态生成在发展早期，往往难以逃避 “抽卡”：通过更换随机种子得到不同结果，再去碰运气匹配需求。

随着 ControlNet 等技术的发展，用户逐渐可以在生成前，通过多种信号的引导补充，来更好地让生成结果满足用户需求，减少抽卡次数。

Hyper3D 从初代 Rodin 开始，就率先引入了 3D ControlNet，把可控性作为模型底层能力来设计 —— 用户可以自由设定模型的长宽高、内部结构和表面轮廓，精准控形。

但因为生成式 AI 输入信息的有限和特性，即永远是从少量信息去生成更多信息，决定了哪怕生成能力再强，二次调整都会成为高频需求。

在图像领域，Nano Banana 等工具的发布推动了 AI 编辑和可控性的发展。但在 3D 生成由于产品化起步更晚、生态更分散、工具链更长，行业整体在 “可控生成” 积累得不够久，多数团队还停留在这一阶段。

Hyper3D 团队从 Rodin 的第一个版本起，就引入了 3D ControlNet，此后每个版本都在更新相关能力。去年，随着 Rodin Gen-2 上线，Hyper3D 交出了业内唯一的递归分件技术 ——BANG，一步步验证了这一路线的可行性。3D 生成也一步步从 “抽卡游戏” 进化为了 “可控设计”。

艺术家 @豆芽 AI 笔记本使用 Hyper3D 的分件架构 BANG，一键让 3D 模型 "爆炸式拆解" 成多个部件，还能反复拆分重组。

Edit 功能将这一需求进一步转化为产品能力：通过 “选中局部 + 文本指令” 的方式，让修改变成明确的路径，而非一次次推倒重来。

这使得 AI 建模的工作流得以闭环：无论是刚出炉的新模型还是压箱底的旧资产，都能随便改、反复调、持续迭代。

「创作者 @建筑学长，利用 Hyper3D 快速补齐了建筑周边的空白场地，表示明显大大提升了建模效率：就算是手绘草图，也能精准识别并还原，生成立体模型，无缝融入包含绿化，围栏的场地中，实现建筑场地的完美融合。」

「创作者 @大琢磨使用 Hyper3D.AI Rodin 省去了前期建模的专业难度以及繁琐过程，顺利做出了小巧精致的车头吉祥物。」

AI 创作者 @数字生命卡兹克通过 Hyper3D 把金毛跟《怪奇物语》融合，创作了独特的 “怪奇生物”

五、行业焦点的转移：

下一代 3D 生产基础设施

AI 3D 的焦点正在从 “能不能生成” 转向 “可编辑、可复用”，并逐步沉淀为创作与生产链路中的工作流组件。

对开发者而言，这意味着 3D 不再只是最终交付的结果文件，而是能被反复调用、持续迭代的生产要素。对 3D 大模型公司而言，能否在关键环节稳定产出、并在编辑与复用环节补齐能力缺口，将越来越影响其在全球创作链路中的定位。

从 OpenAI 黑客松到 NVIDIA CES 演讲，从独立开发者到企业级制作管线，Hyper3D Rodin 被顶级开发者持续选择，展示了国际领先的 3D 生成技术从实验室走向工程化与生产化应用的路径。

技术的价值最终体现在具体应用场景中。当 3D 生成技术能够满足黑客松的快速开发需求、企业级演讲的制作标准，以及日常创作者的迭代修改需求时，一款 AI 产品才真正完成了从技术演示到生产工具的转变。

StoryWorld：https://x.com/OpenAIDevs/status/2028588630206472337?s=20