清华大学等顶尖高校联手打造"沉浸式世界模拟器",沉浸模拟体验游戏

这项由清华大学、华中科技大学、快手科技（旗下Kling团队）、香港科技大学和武汉大学联合完成的研究，发表于2026年6月，论文编号为arXiv:2606.07326。有兴趣深入了解的读者可以通过该编号在arXiv平台查阅完整论文。

当你戴上VR头显，在虚拟世界里举起手臂、转过身去打量一间陌生的房间，你期待看到什么？你当然希望那个世界像真实的一样，随着你的身体动作实时响应——你迈步向前，脚下的地板就应该缓缓逼近；你侧过头，墙角的书柜就该从视野边缘慢慢滑入画面。更进一步，如果这个世界里有另一个人正站在你看不见的角落里，你的大脑会下意识预期：等我转过去，他应该还在那里，而且可能已经从椅子上站了起来，就像现实中的人一样。

然而，现有的AI视频生成技术在这件事上长期表现不佳。它们或者只能用键盘方向键来控制视角移动，或者只能用文字描述来触发场景变化，根本没法模拟一个真实的人是如何用整个身体去感知和互动世界的。而且这些系统生成出来的世界，像一块随用随生的泡沫——走到哪，生成到哪，对于那些你还没走到但理应存在的角落，它完全没有概念。

这正是AnchorWorld想要解决的核心问题。这套系统的名字里有个"锚"字，恰如其分——它的设计思路就是在虚拟世界里提前打下几个"锚点"，让整个世界在你动来动去的时候不至于随机漂移，而是稳稳扎在那里，等你走过去、看到它时，一切都如你所预期。

一、现有技术卡在哪里？

要理解AnchorWorld的价值，先得弄清楚现有技术踩了哪些坑。

大多数"交互式世界模型"，本质上是一个能接受指令然后生成连续视频的系统。你给它一张起始图片，再给它一段指令，它就一帧一帧地往后生成画面。问题在于，这个"指令"往往非常粗糙——要么是键盘上的方向键（向前、向后、左转、右转），要么是一句文字描述（"往厨房走"）。这类控制方式就像用口头命令指挥一个不懂空间感的机器人，它能做到大方向正确，但对于身体和环境之间那种复杂的空间关系，它完全抓不住。

更接近真实情况的一些新研究开始引入手部姿态甚至全身动作作为控制信号，这方向是对的。但随即暴露出另一个问题：第一人称视频里大多数时候根本看不到完整的人体！你戴着头显向前走，摄像头拍到的是你面前的世界，你的腿、你的躯干，统统不在画面里。这就导致AI想从第一人称视频里学习"身体动作和视觉画面之间的关系"，就像只能看到水面波纹却看不到石头的学生，要靠水纹推断投入了多大的石头——信号太稀疏了，学不扎实。

与此同时，"世界状态"的问题同样棘手。现有方法通常只靠一张初始图和历史画面来维持场景的连贯性，走到新地方时那片区域就是凭感觉生成，没有任何提前约束。这意味着你绕一圈回来，墙上的画可能换了颜色，房间里的人可能凭空消失。这对真正意义上的世界模拟来说，是不能接受的。

AnchorWorld的设计就是针对这两个缺口：第一，让系统更好地理解全身动作和视觉画面的关系；第二，为世界中的特定位置提前"预设状态"，让系统知道那里有什么、会发生什么。

二、第一视角的困境怎么破？混合视角训练法

AnchorWorld解决第一个问题的方式，有点像培养一个优秀的演员：先在第三人称视角下大量观察真实的人体动作，再把这些知识迁移到第一人称视角。

具体来说，研究团队采用了一种叫做"混合视角训练"的策略。系统首先在大量普通第三人称视频（也就是传统的、能看到整个人的那种视频）上训练，在这个阶段，AI可以清楚地看到整个人体是如何运动的——脚怎么迈、手怎么摆、身体重心如何转移。更重要的是，它能看到这些动作和周围环境的关系：这个人走过去，脚踩到了地毯，手伸向了桌子，身体旋转之后视线落在了窗户上。

在这个阶段，研究团队用了自家内部整理的20万条单人动作视频，加上一个基于虚幻引擎（Unreal Engine）生成的合成数据集MultiCamVideo里的10.1万条视频，规模相当可观。

完成第三人称阶段的训练之后，系统再迁移到第一人称视频的训练。这时候，AI虽然在屏幕上看不到完整的人体，但它已经在第三人称阶段建立起了"身体动作→视觉变化"的空间映射能力，可以把这套经验应用到第一人称场景里——哪怕现在只看得到双手，它依然能猜到身体其他部分在做什么，并据此生成合理的画面变化。

这套训练方法用到的真实第一人称数据主要来自两个公开数据集：Ego-Exo4D和LEMMA。这两个数据集的特别之处在于，它们同时录制了同一场景的第一人称和第三人称画面，就像电影拍摄时主摄像机和监控摄像机同步录制一样。这让系统可以把"我看到的世界"和"别人看到的我"对应起来学习，弥补了单纯用第一人称数据学习时的信息缺失。

为了描述人体动作，AnchorWorld使用了一个叫SMPL-X的标准人体参数模型，把人体拆解成22个主要关节，每个关节用六个数字描述（三个描述空间位置，三个描述旋转方向）。之所以不用手部关节，是因为研究团队发现现有的第一人称视频数据集在手部估计上质量不够可靠——手太常被遮挡或跑出画面了。

三、身体姿态怎么"注入"到视频生成里？空间姿态注意力机制

有了人体动作数据，下一步是把它真正地"告诉"AI视频生成系统。这里有个技术上的精妙设计。

AnchorWorld把视频生成底层模型选定为Wan（一个基于"流匹配"技术的扩散模型），然后在其中加入了一个叫做"空间姿态注意力"的模块。这个模块的工作方式可以理解为：把人体动作信息和摄像机运动信息，在每一帧上都紧挨着视频画面的信息摆放，让三者在同一个"会议室"里同时讨论——画面里的每一块区域，都能直接参考对应时刻的人体姿态和摄像机角度，从而生成在空间上完全匹配的视觉内容。

更关键的设计细节在于：系统用同一套"投影"逻辑来处理第三人称和第一人称两种情况。不管摄像机是架在旁边看全身，还是就装在头顶往前看，系统处理的方式是一样的——把三维空间里的人体动作，按照当前摄像机的位置和角度，投影到二维画面上。这样一来，第三人称和第一人称的训练就可以在同一个框架下进行，知识可以流通。

四、"锚点"是什么？给世界打上坐标的关键设计

现在来到AnchorWorld最有特色的部分：锚视图（Anchor View）系统。

假设你正在体验一个虚拟客厅场景。客厅里有一个沙发，沙发上坐着一个人。你从厨房走进来，初始视角只看到桌子和电视。那个坐在沙发上的人，此刻完全不在你的视线里。但是当你转过身走近沙发区域，你当然期望他还在那里。更进一步，如果那个人在你看不见的时候已经从沙发上站起来走向了电视，等你走到那个区域时，你应该看到他已经站着而不是坐着。

传统系统对这个"期望"完全没有约束能力，因为沙发区域在你走过去之前根本不存在于任何参考帧里。AnchorWorld的锚点机制就是为了解决这个问题。

一个"锚视图"由三样东西组成。第一样是一张RGB图片，拍摄的是那个位置的场景——比如沙发区域的照片，照片里有沙发和坐在上面的人。第二样是这张照片在三维世界坐标系中的位置和角度，用一套六维数字描述（三个数描述位置，三个数描述朝向），专业上叫做6-DoF位姿。第三样是一段文字描述，告诉系统这个区域会发生什么变化——比如"那个人从沙发上站起来，走向电视"。

系统在工作时，会把这些锚视图的图片信息和正在生成的视频帧信息放在一起，通过特殊的位置编码（3D RoPE）告诉系统哪些是"锚点画面"、哪些是"正在生成的当前帧"。同时，每个锚点的三维位姿信息也被注入进去，让系统知道这些锚点在三维空间中分别位于什么地方，和当前视角的相对位置关系是什么。

至于那段文字描述的"动态变化"，系统通过一种叫做"遮蔽交叉注意力"的方式来处理：每段文字描述只和它对应的那个锚点画面以及当前生成的视频帧"对话"，不会干扰其他锚点。这就保证了不同位置的变化可以相互独立地发生，互不串扰。

五、四个阶段循序渐进的训练流程

AnchorWorld的训练分四个阶段进行，每个阶段建立在前一个阶段的能力基础之上，就像盖楼一样先打地基再建上层。

第一阶段是"第三人称动作训练"。系统在大量的第三人称视频上，学习全身动作和视觉画面之间的对应关系，建立基本的投影能力和空间感。这一阶段用了30000步训练，总计消耗600个GPU小时（相当于25张高端显卡连续运行整整一天）。

第二阶段是"第一人称动作训练"。系统切换到第一人称数据，把第一阶段学到的空间感迁移到头戴式视角下，学习第一人称下的画面生成规律。这一阶段用了15000步训练和300个GPU小时。

第三阶段是"静态锚视图定制训练"。系统学习如何利用提前提供的锚点图片和位姿，在生成视频的过程中保持对场景的空间一致性。这一阶段重点是"走到哪，锚点所在位置的场景应该是什么样"这类静态场景的一致性，同样是10000步和253个GPU小时。

第四阶段是"动态锚视图演化训练"。在第三阶段的基础上加入"动态数据"——那些锚视图里有人在做事情的视频，加上对应的文字描述。系统学习在保持空间一致性的同时，让锚点所对应的区域按照文字描述中规定的方式发生变化。同样是10000步和253个GPU小时，但同时混合了静态数据和10000条筛选出的动态场景数据。

整个训练过程均在16块NVIDIA 80G显卡上进行，学习率固定为0.0001，使用AdamW优化器。推理时，每次生成77帧的视频，分辨率为480p，需要50个去噪步骤，引导强度设为5。

六、实验结果：AnchorWorld在各项测试中表现如何？

研究团队构建了四套测试集来全面评估AnchorWorld，与多个基线方法进行了比较。

参与比较的基线方法包括PlayerOne（一个专门做第一人称世界模拟的方法，把人体分部位分别学习控制）、PlayerOne-Scene（PlayerOne加上了AnchorWorld的锚点注入机制）、CaM-UE（在虚幻引擎数据上训练的场景一致性模型，官方版本），以及CaM-Ego（把CaM模型在第一人称数据上重新训练的版本）。

第一套测试是在第一人称数据源中留出的100个测试序列上，场景是静态的，主要测动作控制和场景一致性。评估指标涵盖了很多维度：场景一致性用GIM匹配像素数（像素级匹配程度，数字越高说明生成的画面和真实画面越接近）、CLIP-V（语义相似度）、PSNR、SSIM（像素精度）和LPIPS（感知相似度）来衡量；动作控制则通过MegaSaM工具从生成视频中估计出摄像机轨迹，再和真实轨迹比对来评估。AnchorWorld在全部这些指标上都达到了最优。具体来说，GIM匹配像素数为4493.4，CLIP-V为0.885，PSNR为16.06，SSIM为0.578，LPIPS为0.470，摄像机绝对平移误差（ATE）为0.112，相对平移误差（RTE）为0.029，相对旋转误差（RRE）为3.145，均好于各基线。

第二套测试是在虚幻引擎生成的CineScene数据集上，涵盖100个序列，场景依然静态。这套数据更接近"合成影视场景"风格，视觉质量高、场景变化丰富。由于摄像机内参不一致，这里只评估GIM像素匹配和CLIP-V，以及旋转误差RRE。AnchorWorld的GIM达到4555.1，RRE为1.656，是所有方法中旋转误差最小的，说明它在大幅视角变化下维持了最好的方向准确性。

第三套测试是动态场景：100个包含明显人物活动的第一人称测试序列，除了场景一致性和动作准确度之外，还额外测了文字引导的演化效果，使用的是一个叫VideoAlign-TA的指标（衡量生成视频和文字描述的语义匹配程度）。AnchorWorld在这里的优势最为突出：GIM为4634.6，CLIP-V为0.899，PSNR为16.37，SSIM为0.555，LPIPS为0.486，ATE为0.048，RTE为0.013，VideoAlign-TA高达0.717，远高于第二名CaM-Ego的0.385和PlayerOne-Scene的0.449。这说明AnchorWorld在"按照文字描述让场景中的人物做出对应变化"这件事上，有了质的提升。

视觉化的对比同样鲜明。在对照图中，PlayerOne生成的画面里，人物动作常常不准确，比如文字要求往左走，结果画面里的人可能往右偏；CaM-Ego只能控制视角，没法控制身体动作；PlayerOne-Scene虽然加入了锚点，但由于动作控制本身不够精准，场景一致性也打了折扣。AnchorWorld的结果则在动作准确性和场景稳定性两方面同时保持了最高水准。

七、视野外的世界，AI也能推算出来吗？

AnchorWorld最令人印象深刻的能力验证之一，是对"视野之外场景演化"的处理。

研究团队设计了这样一组测试：锚视图里有一个人，他一开始不在玩家的视野范围内，只有当玩家进行了某个方向的转头动作之后才会出现在画面里。文字描述设定他"从沙发上站起来"。

关键是：玩家什么时候转头，会看到他处于什么状态？如果早点转头（比如在第25帧），那个人应该还坐着或者刚开始起身；如果晚点转头（比如在第60帧），那个人应该已经站起来了。这不是简单的"等你看他，他才开始行动"，而是整个世界在持续流动，锚点所在区域的时间状态要和视频的整体时间进度保持一致。

实验结果显示，AnchorWorld确实做到了这一点——改变玩家的转头时机（通过修改人体动作序列来实现），生成的视频里那个人物所处的状态就会相应变化，早看到他还坐着，晚看到他已经站起来。这意味着系统在生成视频时，内部维持着一个对整个世界状态随时间演化的推断，而不只是被动地"看到什么生成什么"。

八、翻转世界来测空间感

另一个有趣的测试叫做"空间位姿感知测试"。研究团队把人体姿态和锚点位姿同时做了水平翻转（就像照镜子一样），但保持锚点图片本身不变。

当翻转后的位姿导致人的行走方向和锚点位置"出现视野重叠"时，生成的视频会自然地包含锚点图片里的场景细节；当翻转后导致二者"视野不重叠"时，生成的视频里就不会出现那些细节，而是自然地生成另一侧的场景内容。

这说明系统真的在用空间位姿来判断"我走到哪里、能看到什么"，而不是简单地把锚点图片内容粘贴进去。

九、有哪些做不好的地方？

研究团队对于系统的局限性保持了坦率的态度。

现阶段AnchorWorld只能处理较短的视频片段（77帧），对于长时间的世界探索还无法支持。长时间的探索需要更强的"长期记忆机制"，让系统能记住很久以前走过的地方是什么样的，这在技术上还有待突破。

训练数据的覆盖范围也限制了系统的泛化能力。目前的训练数据主要集中在少数几种室内场景，对于户外、大型开放空间等情况，泛化效果不可预知。

动态场景的多样性同样受限。由于第一人称数据集通常只从固定几个第三人称视角来录制同一段活动，文字描述只能做到对所有锚点用同一段描述（不能让不同锚点演化出不同的故事），而且主要集中于人物活动，环境中的自然动态（比如窗外飘落的树叶、窗帘被风吹动）还没有被纳入训练。

技术细节上，系统使用的VAE（一种把图像压缩成内部表示的工具）的空间压缩比例是16倍，这导致精细纹理信息会有一定损失——比如自行车辐条、书架上的文字等细密结构，在生成视频中可能保持不够精准。快速头部转动时画面模糊的问题，也是因为训练数据里本身就有大量运动模糊帧，系统不可避免地学到了这种模式。

归根结底，AnchorWorld是一套在有限资源和有限数据下，尽可能把"具身世界模拟"这件事做得更完整、更可控的尝试。它的核心贡献在于提出了一套可行的架构，把"人体动作控制"和"世界状态定制"这两条线同时纳入一个统一框架，并通过扎实的实验证明了这条路确实走得通。对于正在研究虚拟现实、具身智能和视频生成的研究者来说，这套思路提供了相当清晰的参考。而对于未来有一天真正走进那个AI构建的沉浸式世界的普通用户来说，这项工作让那个世界又往"活得像真的"这个目标近了一步。

有兴趣进一步探索的读者可以通过arXiv:2606.07326查阅完整论文。一个值得继续追问的问题是：当AI能够持续、稳定地模拟一个"活的世界"，而不只是生成几秒钟的短片段时，我们是否就走到了虚拟与现实难以分辨的边界？那个边界，可能比我们以为的要近得多。

Q&A

Q1：AnchorWorld是什么技术，和普通的AI视频生成有什么区别？

A：AnchorWorld是一套专门用于第一人称视角世界模拟的框架。普通AI视频生成只是根据文字或图片生成一段视频，而AnchorWorld可以接受完整的人体三维动作作为控制信号，同时在世界中预设"锚点"——提前指定某个位置的场景内容和变化规律。当用户的视角转过去时，那个位置会按照预设的内容和演化规律呈现，而不是随机生成。

Q2：AnchorWorld的"锚点"训练数据从哪里来，普通的视频能不能用？

A：锚点数据主要来自Ego-Exo4D和LEMMA两个数据集，这两个数据集的特点是同时录制了同一场景的第一人称和多个第三人称画面，可以让系统把不同视角的内容对应起来学习。普通的单视角视频缺乏这种同步的多视角配对，无法直接用于锚点系统的训练。文字演化描述则由Qwen3-VL-32B-Instruct大语言模型自动标注生成。

Q3：AnchorWorld可以用来做什么实际应用？

A：短期来看，AnchorWorld对VR体验制作、具身AI训练环境构建和影视预览制作有直接价值——可以在不真实拍摄的情况下，生成有完整人物动作和稳定场景的第一人称视频。长期来看，如果这套技术进一步发展到支持长时间实时交互，它将是构建沉浸式虚拟现实世界和训练智能机器人的重要基础工具。