只用一张图 + 相机走位，AI 就可以脑补周围环境

发布时间：2022-03-21 23:18:17 所属栏目：动态来源：互联网

导读：站在门口看一眼，AI 就能脑补出房间里面长什么样：是不是有线上 VR 看房那味儿了？不只是室内效果，来个远景长镜头航拍也是 so easy：这一次的新进展，则是将视角进一步延伸，更侧重让 AI 预测出远距离的画面。目前，该研究的相关论文已被 CVPR2022 接

站在门口看一眼，AI 就能脑补出房间里面长什么样：

是不是有线上 VR 看房那味儿了？不只是室内效果，来个远景长镜头航拍也是 so easy：

这一次的新进展，则是将视角进一步延伸，更侧重让 AI 预测出远距离的画面。

目前，该研究的相关论文已被 CVPR2022 接收。

整个过程可以分为两个阶段。

第一阶段先预训练了一个 VQ-GAN，可以把输入图像映射到 token 上。VQ-GAN 是一个基于 Transformer 的图像生成模型，其最大特点就是生成的图像非常高清。在这部分，编码器会将图像编码为离散表示，解码器将表示映射为高保真输出。

第二阶段，在将图像处理成 token 后，研究人员用了类似 GPT 的架构来做自回归。具体训练过程中，要将输入图像和起始相机轨迹位置编码为特定模态的 token，同时添加一个解耦的位置输入 P.E.。然后，token 被喂给自回归 Transformer 来预测图像。模型从输入的单个图像开始推理，并通过预测前后帧来不断增加输入。

研究人员发现，并非每个轨迹时刻生成的帧都同样重要。因此，他们还利用了一个局部性约束来引导模型更专注于关键帧的输出。这个局部性约束是通过摄像机轨迹来引入的。基于两帧画面所对应的摄像机轨迹位置，研究人员可以定位重叠帧，并能确定下一帧在哪。

为了结合以上内容，他们利用 MLP 计算了一个“相机感知偏差”。这种方法会使得在优化时更加容易，而且对保证生成画面的一致性上，起到了至关重要的作用。

本项研究在 RealEstate10K、Matterport3D 数据集上进行实验。结果显示，相较于不规定相机轨迹的模型，该方法生成图像的质量更好。

（编辑：温州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

美光发布强劲业绩展望	小米智能猫眼1S推出 5
网站收录，网站收录方	为满足客户，消息称台