为什么AI感知与人类感知无法直接比较?
副标题[/!--empirenews.page--]
人类级别的表现、人类级别的精度……在开发AI系统的企业中,我们经常会听到这类表述,其指向范围则涵盖人脸识别、物体检测,乃至问题解答等各个方面。随着机器学习与深度学习的不断进步,近年来越来越多卓越的产品也开始将AI算法作为自身的实现基础。 但是,这种比较往往只考虑到在有限数据集上对深度学习算法进行的测试结果。一旦贸然将关键性任务交付给AI模型,这种草率的考核标准往往会导致AI系统的错误期望,甚至可能产生危险的后果。 最近一项来自德国各组织及高校的研究,强调了对深度技术在视觉数据处理领域进行性能评估时所面临的实际挑战。研究人员们在这篇题为《人与机器的感知比较:众所周知的难题》的论文中,着重指出了当前深度神经网络与人类视觉系统的识别能力比较方法存在的几个重要问题。 在这项研究中,科学家们进行了一系列实验,包括深入挖掘深度学习结果的深层内容,并将其与人类视觉系统的功能做出比较。他们的发现提醒我们,即使AI看似拥有与人类相近甚至已经超越人类的视觉识别能力,我们仍然需要以谨慎的态度看待这方面结果。 人类与计算机视觉的复杂性 对于人类感知能力的基本原理,特别是重现这种感知效果的无休止探索当中,以深度学习为基础的计算机视觉技术带来了最令人称道的表现。卷积神经网络(CNN)是计算机视觉深度学习算法中所常用的架构,能够完成种种传统软件根本无法实现的高难度任务。 然而,将神经网络与人类感知进行比较,仍是一项巨大的挑战。一方面是因为我们对人类的视觉系统乃至整个人类大脑还不够了解,另一方面则是因为深度学习系统本身的复杂运作机制同样令人难以捉摸。事实上,深度神经网络的复杂度之高,往往令创造者也对其感到困惑。 近年来,大量研究试图评估神经网络的内部工作原理,及其在处理现实情况中表现出的健壮性。德国研究人员们在论文中写道,“尽管进行了大量研究,但对人类感知与机器感知能力进行比较,仍然极度困难。” 在此次研究中,科学家们主要关注三个核心领域,借此评估人类与深度神经网络究竟如何处理视觉数据。 神经网络如何感知轮廓? 第一项测试为轮廓检测。在此项实验中,人类与AI参与者需要说出所面对的图像中是否包含闭合轮廓。其目标在于了解深度学习算法是否掌握了闭合与开放形状的概念,以及其能够在各类条件下都顺利检测出符合概念定义的目标。 ▲你能判断出,以上哪幅图像中包含闭合图形吗? 研究人员们写道,“对于人类来说,图中所示为一个闭合轮廓,其周边则分布着大量开放轮廓。相比之下,DNN则可能很难检测到闭合轮廓,因为神经网络可能会把闭合轮廓与其他图形视为统一的整体。” 在实验当中,科学家们使用了ResNet-50,即由微软公司AI研究人员们开发的一套流行卷积神经网络。他们使用迁移学习技术,使用14000个闭合与开放轮廓图像对该AI模型进行了微调。 接下来,他们又通过其他类似的训练数据(使用不同指向的图形)进行AI测试。初步发现表明,经过训练的神经网络似乎掌握了闭合轮廓的基本概念。即使训练数据集中仅包含直线图形,模型也能够在处理曲线图形时带来良好表现。 科学家们写道,“这些结果表明,我们的模型确实掌握了开放轮廓与闭合轮廓的概念,而且其判断过程与人类非常相似。” ▲即使训练数据集中仅包含直线图形,模型也能够在处理曲线图形时带来良好表现。 但进一步调查显示,某些不会影响到人类判断的因素却有可能降低AI模型的判断准确率。例如,调整线条的颜色与宽度会导致深度学习模型的准确率骤然下降。而当形状的尺寸超过特定大小时,模型似乎也难以正确对形状作出判断。 ▲当图形中包含不同的颜色与粗细线条,且总体尺寸远大于训练集图像时,ResNet-50神经网络将很难做出准确判断。 此外,神经网络对于对抗性干扰也显得非常敏感。所谓对抗性干扰,属于一类精心设计的变化。人眼虽然无法察觉这些变化,但却会给机器学习系统的行为带来巨大影响。 ▲右侧图像已经进行过对抗性干扰处理。 在人眼看来,两张图像没有任何区别;但对于神经网络,二者却已经截然不同。 为了进一步研究AI的决策过程,科学家们使用了特征袋(Bag-of-Feature)网络,这项技术旨在对深度学习模型决策中所使用的数据位进行定位。分析结果证明,“神经网络在进行分类标记时,确实会使用某些局部特征,例如具有端点与短边,作为强依据。” 机器学习能够对图像做出推理吗? 第二项实验旨在测试深度学习算法在抽象视觉推理中的表现。用于实验的数据基于合成视觉推理测试(SVRT),AI需要在其中回答一系列关于图像中不同形状间关系的问题。测试问题分为找不同(例如,图像中的两个形状是否相同?)以及空间判断(例如,较小的形状是否位于较大形状的中心?)等。人类观察者能够轻松解决这些问题。 ▲SVRT挑战,要求AI模型解决找不同与空间判断类型的任务。 在实验当中,研究人员们使用RESNet-50测试了其在不同大小的训练数据集中的表现。结果表明,通过28000个样本进行微调训练之后的模型,在找不同与空间判断任务上均表现良好。(之前的实验,使用的是一套小型神经网络并配合100万张样本图像)随着研究人员减少训练示例的数量,AI的性能也开始下滑,而且在找不同任务中的下滑速度更快。 (编辑:温州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |