加入收藏 | 设为首页 | 会员中心 | 我要投稿 温州站长网 (https://www.0577zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 动态 > 正文

打打字就能指挥算法视频抠图 Transformer把握跨模态新技能

发布时间:2022-03-08 03:33:34 所属栏目:动态 来源:互联网
导读:都说 Transformer 适合处理多模态任务。这不,在视频目标分割领域,就有人用它同时处理文本和视帧,提出了一个结构更简单、处理速度更快(每秒 76 帧)的视频实例分割框架。 这个框架只需一串文本描述,就可以轻松将视频中的动态目标抠出来:可以实现端到
       都说 Transformer 适合处理多模态任务。这不,在视频目标分割领域,就有人用它同时处理文本和视帧,提出了一个结构更简单、处理速度更快(每秒 76 帧)的视频实例分割框架。
 
      这个框架只需一串文本描述,就可以轻松将视频中的动态目标“抠”出来:可以实现端到端训练的它,在基准测试中的多个指标上表现全部优于现有模型。目前,相关论文已被 CVPR 2022 接收,研究人员来自以色列理工学院。
 
      首先,输入的文本和视频帧被传递给特征编码器进行特征提取,然后将两者连接成多模态序列(每帧一个)。接着,通过多模态 Transformer 对两者之间的特征关系进行编码,并将实例级(instance-level )特征解码为一组预测序列。
 
      接下来,生成相应的 mask 和参考预测序列。最后,将预测序列与基准(ground truth,在有监督学习中通常指代样本集中的标签)序列进行匹配,以供训练过程中的监督或用于在推理过程中生成最终预测。
 
      具体来说,对于 Transformer 输出的每个实例序列,系统会生成一个对应的 mask 序列。
 
为了实现这一点,作者采用了类似 FPN(特征金字塔网络)的空间解码器和动态生成的条件卷积核。
 
而通过一个新颖的文本参考分数函数,该函数基于 mask 和文本关联,就可以确定哪个查询序列与文本描述的对象具有最强的关联,然后返回其分割序列作为模型的预测。
  
前两个数据集的衡量指标包括 IoU(交并比,1 表示预测框与真实边框完全重合)、平均 IoU 和 precision@K(预测正确的相关结果占所有结果的比例)。

(编辑:温州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读