加入收藏 | 设为首页 | 会员中心 | 我要投稿 温州站长网 (https://www.0577zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

Facebook 家用摄像头“Portal”:向好莱坞学习

发布时间:2019-03-11 19:21:25 所属栏目:教程 来源:36氪
导读:编者按:Facebook的Portal系列从好莱坞最好的摄影师那里学了很多拍摄技巧,虽然Portal最终可能没那么火,但其背后的AI技术和与艺术结合的方式,必将引领一股潮流。本文译自Fastcompany原标题为" Facebook’s Portal learned its video skills from some of

编者按:Facebook的Portal系列从好莱坞最好的摄影师那里学了很多拍摄技巧,虽然Portal最终可能没那么火,但其背后的AI技术和与艺术结合的方式,必将引领一股潮流。本文译自Fastcompany原标题为" Facebook’s Portal learned its video skills from some of Hollywood’s best cameramen"的文章,希望对您有所启发。

Facebook 家用摄像头“Portal”:向好莱坞学习

Facebook的Portal系列家用摄像头虽然隐私问题饱受诟病,但不可否认,它有一个功能确实炫酷:它能够实现画面的智能拍摄,并在视频通话时跟踪房间内的动作。与智能手机视频通话相比,这是一个巨大的进步。在智能手机视频通话中,摄像头的位置完全由两端的人来决定,所以画面经常会不停地抖动、有时不得不看着对方的鼻孔或者大脑门儿,有时画面里还会突然就找不到人了。而Portal更像是一个独立的人像摄影师,精心地构图,流畅的切换场景,可以对镜头前的人们进行追踪,使画面看起来相当自然。

Portal运用了很多先进的计算机视觉AI技术来才创造出这种体验,其中很多都是在最近几年开发出来的。很多以往的经验和专业知识都被用于训练运行Portal摄像头的人工智能,其神经网络层中嵌入了大量的电影行业知识。例如,它知道什么是“牛仔镜头”(从大腿中部向上的镜头,不仅能看到拍摄对象的脸,还能看到他在枪套里装的东西),它知道何时以及如何关注镜头前的人们,并且忽略他们周围的环境。我与Facebook的三位工程师进行了交谈,这三个人都密切参与了Portal的开发,这是Facebook作为一个社交网络公司首次涉足硬件领域。

不仅仅是面部识别

Portal的关键创新是一种轻量级的计算机视觉模型,它不仅能识别人脸,还能识别人体行为。

在消费者技术中,头部和面部检测司空见惯。例如,消费级相机使用计算机视觉来检测人脸或头部以实现自动对焦,但是这些简单的系统并不能收集到很多关于人的身体姿势的信息。

Portal系列的工程师埃里克·黄(Eric Hwang)说:“如果我们只知道你在哪里,而不知道你的身体方向,比方说,如果你躺在沙发上,我们几乎不可能找到一个好的镜头或者特写位置。”工程师们需要一种计算机视觉模型,能够可靠地识别人的头部、身体和四肢,能够将在厨房做饭的人和另一群围坐在桌前的人加以区分,以不同的方式构图并进行跟踪拍摄。

Facebook的人工智能研究团队已经在2017年4月开发出了一种名为Mask R-CNN(简称“区域卷积神经网络”)的计算机视觉模型,可以识别人体运动的二维图像。但该模型是为在桌面视觉处理器(GPU)上运行而设计的,而Facebook希望能在设备内的一个较小的移动芯片上运行Portal的计算机视觉模型。有想法认为,这种方式必须不断地调用运行该模型的云服务器,肯定会造成视频通话中的延时状况。

Facebook 家用摄像头“Portal”:向好莱坞学习

在Portal系列两年关键的开发周期中,大幅度缩小R-CNN模型成为工程师们必须克服的最大挑战。来自Facebook的人工智能团队也参与进来,最终找到了一个解决方案。整个过程经过了不断地精简、优化和权衡。最终的成果是一个叫做Mask R-CNN2Go的新模型。它只有几兆字节大小,小到足以在高通的骁龙神经处理引擎上运行。Facebook的工程师说,为了优化R-CNN2Go的处理器,他们将与高通进行密切的合作。

在实践中,Portal的微型计算机视觉模型不断地分析摄像机每秒拍摄的30帧中的镜头,以寻找任何可能成为视频拍摄对象的内容。它输出头部、身体和四肢的点数据,然后报告视频镜头的构图。这个模型最主要的工作之一是知道什么时候该忽略无关紧要的对象,例如挂在墙上的相框里的一张人脸。它必须知道如何忽略一个突然离开房间的人,或者把注意力集中在前方说话的人身上,而忽略那个从后面路过的人。

所有这些细节都会让你的照片看起来更加自然直观。“所以当你在视频电话中四处走动时,对方会觉得你就在他们身边,”工程师埃里克·黄(Eric Hwang)说。

Portal摄像头背后的计算机视觉模型经过了数百万个开放源代码图像的训练,以教会它识别各种人和姿势。Facebook还提供了一些自己的培训数据,因为开放源代码材料中没有足够的家庭(视频通话经常发生的地方)场景图像。

请好莱坞大师来帮忙

但即使是Facebook工程师教会Portal根据2D姿势数据进行缩放、平移和跟踪相关主题,它仍然不太正确。在谈到早期原型时,他们表示,这款相机可以以一种合乎逻辑的方式拍摄周围的人,但它的动作仍然感觉“又僵硬又机械”。工程师们知道他们必须在科学中加入一些艺术,于是打电话给好莱坞。

Facebook 家用摄像头“Portal”:向好莱坞学习

Facebook的工程师请来了摄像师、电影摄影师和纪录片制片人,学习专业人士在拍摄和跟踪动作时使用的可靠技术。除了这些咨询,Facebook的工程师们还做了一系列实验,来了解摄像头操作者将如何应对Portal在家庭环境中实时拍摄时面临的一些特殊挑战。他们要求操作者从奇怪或尴尬的位置随机拍摄一些场景,看看他们是如何处理的——他们关注的是什么,以及他们是如何移动相机的。Facebook的工作人员随后将他们看到的摄像方法归结为一系列可以引入Portal算法的技术。

“人们倾向于在传统的一对一的头部和躯干拍摄的基础上构建大量的框架。” Facebook硬件副总裁拉法·卡马戈(Rafa Camargo)说,“我认为团队能够让相机以复杂的方式运行,这需要大量的技术,以及理解人类跟踪拍摄时的行为方式,并在同一时间进行平移和缩放……”卡马戈是谷歌ATAP集团的工程主管,2016年8月,他被招募接管 Facebook 的Portal团队。

这些技术可能是合理的,也是更复杂的,但它们之所以赏心悦目,部分原因可能是它们产生了一种似曾相识的效果。“这感觉很自然,因为你习惯在电视或电影中看到的框架实际上就是这样做的,随着时间的推移,我们已经知道,这对人类大脑的影响很大,”卡马戈告诉我。

Facebook提供了一个基本的款的Portal(199美元),只能在横向模式下拍摄,而更昂贵的Portal Plus(349美元)可以在横向和纵向模式下拍摄。Portal Plus的竖屏模式旨在用于更紧密的一对一视频对话。工程师们意识到,这是一种与景观截然不同的体验,需要一套不同的摄像技术。照相馆的工作人员通常采用室内模式拍摄,电影摄影师通常采用景观模式,但Facebook要求他们拍摄各种人像模式的场景,看看他们做出了什么样的选择。例如,他们发现在人像模式下,操作者的构图是基于镜头前的人,而不是背景。这些经验教训也被整合到Portal Plus的纵向模式操作算法中。

Facebook 家用摄像头“Portal”:向好莱坞学习

(编辑:温州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读