OpenAI点赞转发的冠军项目,背后藏着一个国人3D生成团队
时间: 2026-03-06 14:54作者: Viviana机器之心编辑部
近日,一款名为StoryWorld的 iOS 产品 Demo 在海外开发者与 3D 创作者社区引发关注:用户只需用手机摄像头对准真实空间,通过语音输入描述,即可生成 3D 角色与物体,通过移动手机完成取景与运镜,像导演一样调度站位与镜头。
该项目获得了 OpenAI Codex Hackathon 冠军,OpenAI 官方 OpenAI Developers 也在 X 平台转发推荐了这款创建 3D 场景的应用。据开发者 Varick Lim 介绍,他在 24 小时的开发时间内完成了这款应用,其中核心的 3D 资产生成环节使用了DeemosTech(影眸科技)的 Hyper3D Rodin
一、3D 生成从演示工具到生产工具
与常见的 AR 叠加效果不同,StoryWorld 中的 3D 对象是完整的三维资产,可以在空间中定位、缩放和多角度观察。这些资产被放置进场景后,用户只需移动 iPhone 摄像头,就能完成取景与运镜,实现类似电影摄影机的 “走位拍摄”,包括角色站位、拍摄角度与景别(近景 / 远景)控制。
视频链接:https://mp.weixin.qq.com/s/C-vIHqb4RQyRlVP7BdMqzg
在 AI 应用开发社区,工具的选择通常以结果和效率为导向:能否在极短时间内稳定产出可用资产、并撑起完整体验,是比 “表面参数” 更直接的标准。Hyper3D Rodin 在实时文 / 图生 3D 中呈现出的稳定性与可控性,使其成为 StoryWorld 在黑客松环境下的关键技术选项之一。
Varick Lim 在 X 上兴奋地表示:(StoryWorld)没有 Rodin 就无法实现!他的这个项目也启发了更多顶级 AI builder 跟随。3D 生成技术正在从单纯的内容展示工具,转变为开发者构建产品时的底层技术组件。
过去的生成式内容更多聚焦于 “生成一个画面 / 一个结果”,而 StoryWorld 这种形态把创作重心转向 “场景构建与镜头语言”。这种转变让 3D 生成从 “演示型技术” 走向 “生产型组件”,从而对 3D 生成提出更高要求,高稳定性和可控性的 3D 生成产品也更容易被整合进开发者的长期工作流。
美国 AI 公司 Unlikely Labs 创始人、高级人工智能总监 Eric Gradman 评论道:“我看过上千个 ARKit 演示,无一例外都是‘嘿,看,我可以绕着这个静态 3D 物体移动’。我从来没见过这样的。太棒了!”
二、从黑客松到工程化生产管线
随着 AI 原生创作、AR 场景表达和新一代内容工具的发展,越来越多顶尖 builder 在真实创造场景中把 Hyper3D 纳入工作流。
除 OpenAI 黑客松项目外,Hyper3D Rodin 也出现在另一个更 “工程化” 的高规格场景里:在今年 CES 大会上,英伟达创始人黄仁勋主题演讲的 keynote 制作工作流被公开讨论,其中提到了包含Hyper3D Rodin在内的工具链路线索。
根据英伟达公开的演讲制作流程,团队需要实现 12K 超清画面、多个主体同框的细节保持,以及一条能够快速迭代、无需反复重建场景的灵活 workflow。在这个流程中,Hyper3D Rodin 承担了 3D 模型生成任务,并需要在多个制作阶段保持角度与光照一致性,同时维持细节还原度。
最终,NVIDIA 团队制作出了专为巨型演讲屏幕设计的 12K 高精度环境画面。英伟达作为全球 AI 基础设施的重要制定者,其公开的内部工作流在某种程度上代表了行业标准。能够被纳入这类工程化管线的产品,意味着在精度、稳定性、工程适配能力上通过了更严格的验证。
从 OpenAI 黑客松的 “极限速度” 到 英伟达的 “工程标准”,这两类场景共同指向同一个判断:当 3D 生成被当作生产组件使用时,稳定性、可控性与可复用性会成为第一优先级
三、从 “生成” 到 “编辑”:
3D 可控成为生产级流程基础范式
Hyper3D 是一支平均年龄 24 岁的国人团队,已获得奇绩创坛、红杉中国、字节跳动、美团龙珠、蓝驰创投的多轮投资。
从技术积累看,团队在 2024 年发布了原生 3D 大模型框架 CLAY(提名 SIGGRAPH 最佳论文),并基于此推出全球第一个原生 3D 大模型产品 Hyper3D.AI 。2025 年,团队的单张图生成场景研究 CAST 获得 SIGGRAPH 2025 最佳论文,向 “世界模型” 的关键一步推进。
今年 1 月,Hyper3D 发布了 Rodin Gen-2 Edit,推出基于自然语言的 3D 模型局部编辑功能,率先实现 3D Nano Banana—— 这是业内首个将 “3D 生成” 与 “3D 编辑” 整合为完整工作流的商用产品,3D 生成正式进入可编辑时代。
与传统 “抽卡” 逻辑不同,Rodin Gen-2 Edit 支持两种核心路径:
-
在 Hyper3D 内文 / 图生 3D 后,直接对结果进行局部修改
导入任意现有模型(包括第三方 AI 生成模型或历史资产),在原模型基础上进行编辑
操作逻辑简单直接:框选需要修改的区域,输入文字指令,即可完成局部调整。
这一功能的适用范围不限于 Hyper3D 平台生成的模型 —— 任何第三方 3D 资产(包括历史存量模型或其他 AI 工具生成的模型)都可以导入平台进行编辑。这使得 Rodin 的编辑能力定位为平台级基础设施,而非单点功能。
Edit 的 API 集成也被 Varick Lim 在线催更。这正是 Hyper3D 被顶级开发者选择的原因之一:当 3D 工具不仅能在关键环节快速产出高质量资产,还能在后续迭代中支持局部修改与资产复用时,它才更接近 “生产组件” 的形态,也更容易长期留在一流开发者与生产级管线的工作流里。
四、多模态技术演进路径:
从生成到可控
观察生成式 AI 的发展路径,可以看到一条清晰的演进逻辑:先生成 → 再增强可控性 → 最终支持编辑。不论是图像、视频,还是 3D,多模态生成在发展早期,往往难以逃避 “抽卡”:通过更换随机种子得到不同结果,再去碰运气匹配需求。
随着 ControlNet 等技术的发展,用户逐渐可以在生成前,通过多种信号的引导补充,来更好地让生成结果满足用户需求,减少抽卡次数。
Hyper3D 从初代 Rodin 开始,就率先引入了 3D ControlNet,把可控性作为模型底层能力来设计 —— 用户可以自由设定模型的长宽高、内部结构和表面轮廓,精准控形。
但因为生成式 AI 输入信息的有限和特性,即永远是从少量信息去生成更多信息,决定了哪怕生成能力再强,二次调整都会成为高频需求。
在图像领域,Nano Banana 等工具的发布推动了 AI 编辑和可控性的发展。但在 3D 生成由于产品化起步更晚、生态更分散、工具链更长,行业整体在 “可控生成” 积累得不够久,多数团队还停留在这一阶段。
Hyper3D 团队从 Rodin 的第一个版本起,就引入了 3D ControlNet,此后每个版本都在更新相关能力。去年,随着 Rodin Gen-2 上线,Hyper3D 交出了业内唯一的递归分件技术 ——BANG,一步步验证了这一路线的可行性。3D 生成也一步步从 “抽卡游戏” 进化为了 “可控设计”。
艺术家 @豆芽 AI 笔记本 使用 Hyper3D 的分件架构 BANG,一键让 3D 模型 "爆炸式拆解" 成多个部件,还能反复拆分重组。
Edit 功能将这一需求进一步转化为产品能力:通过 “选中局部 + 文本指令” 的方式,让修改变成明确的路径,而非一次次推倒重来。
这使得 AI 建模的工作流得以闭环:无论是刚出炉的新模型还是压箱底的旧资产,都能随便改、反复调、持续迭代。
「创作者 @建筑学长,利用 Hyper3D 快速补齐了建筑周边的空白场地,表示明显大大提升了建模效率:就算是手绘草图,也能精准识别并还原,生成立体模型,无缝融入包含绿化,围栏的场地中,实现建筑场地的完美融合。」
「创作者 @大琢磨使用 Hyper3D.AI Rodin 省去了前期建模的专业难度以及繁琐过程,顺利做出了小巧精致的车头吉祥物。」
AI 创作者 @数字生命卡兹克 通过 Hyper3D 把金毛跟《怪奇物语》融合,创作了独特的 “怪奇生物”
五、行业焦点的转移:
下一代 3D 生产基础设施
AI 3D 的焦点正在从 “能不能生成” 转向 “可编辑、可复用”,并逐步沉淀为创作与生产链路中的工作流组件。
对开发者而言,这意味着 3D 不再只是最终交付的结果文件,而是能被反复调用、持续迭代的生产要素。对 3D 大模型公司而言,能否在关键环节稳定产出、并在编辑与复用环节补齐能力缺口,将越来越影响其在全球创作链路中的定位。
从 OpenAI 黑客松到 NVIDIA CES 演讲,从独立开发者到企业级制作管线,Hyper3D Rodin 被顶级开发者持续选择,展示了国际领先的 3D 生成技术从实验室走向工程化与生产化应用的路径。
技术的价值最终体现在具体应用场景中。当 3D 生成技术能够满足黑客松的快速开发需求、企业级演讲的制作标准,以及日常创作者的迭代修改需求时,一款 AI 产品才真正完成了从技术演示到生产工具的转变。
StoryWorld:https://x.com/OpenAIDevs/status/2028588630206472337?s=20