打打字就能指挥算法视频抠图 Transformer把握跨模态新技能

发布时间：2022-03-08 03:33:34 所属栏目：动态来源：互联网

导读：都说 Transformer 适合处理多模态任务。这不，在视频目标分割领域，就有人用它同时处理文本和视帧，提出了一个结构更简单、处理速度更快（每秒 76 帧）的视频实例分割框架。这个框架只需一串文本描述，就可以轻松将视频中的动态目标抠出来：可以实现端到

都说 Transformer 适合处理多模态任务。这不，在视频目标分割领域，就有人用它同时处理文本和视帧，提出了一个结构更简单、处理速度更快（每秒 76 帧）的视频实例分割框架。

这个框架只需一串文本描述，就可以轻松将视频中的动态目标“抠”出来：可以实现端到端训练的它，在基准测试中的多个指标上表现全部优于现有模型。目前，相关论文已被 CVPR 2022 接收，研究人员来自以色列理工学院。

首先，输入的文本和视频帧被传递给特征编码器进行特征提取，然后将两者连接成多模态序列（每帧一个）。接着，通过多模态 Transformer 对两者之间的特征关系进行编码，并将实例级（instance-level ）特征解码为一组预测序列。

接下来，生成相应的 mask 和参考预测序列。最后，将预测序列与基准（ground truth，在有监督学习中通常指代样本集中的标签）序列进行匹配，以供训练过程中的监督或用于在推理过程中生成最终预测。

具体来说，对于 Transformer 输出的每个实例序列，系统会生成一个对应的 mask 序列。

为了实现这一点，作者采用了类似 FPN（特征金字塔网络）的空间解码器和动态生成的条件卷积核。

而通过一个新颖的文本参考分数函数，该函数基于 mask 和文本关联，就可以确定哪个查询序列与文本描述的对象具有最强的关联，然后返回其分割序列作为模型的预测。

前两个数据集的衡量指标包括 IoU（交并比，1 表示预测框与真实边框完全重合）、平均 IoU 和 precision@K（预测正确的相关结果占所有结果的比例）。

（编辑：温州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

美光发布强劲业绩展望	小米智能猫眼1S推出 5
网站收录，网站收录方	为满足客户，消息称台