青年科学家

首页 > 青年科学家 > 正文

《认知启发的视觉语义理解》

2021年05月20日来源:中国人工智能学会

9917

2021年4月10日-12日，吴文俊人工智能科学技术奖十周年颁奖盛典暨2020中国人工智能产业年会在北京和苏州同期圆满成功举办。中山大学数据科学与计算机学院副教授李冠彬受邀在苏州工业园区希尔顿酒店，2020中国人工智能产业年会—青年科学家前沿论坛上发表主题报告《认知启发的视觉语义理解》。

以下为演讲实录：

我给大家报告的题目是《认知启发的视觉语义理解》。伴随着智慧城市和智能机器人新的应用和需求，涌现出来海量多元异构，并且随着时间快速增加的图像视频数据，如何从这些图像视频数据里面挖掘主要的视觉内容，已经成为了当前计算机视觉领域研究新的挑战。随着深度学习在计算机视觉领域的成功应用，计算机视觉领域取得的长足的进步，但是也存在着很多的问题。现有的深度学习模型依赖于大规模数据标注的监督学习，每一个任务取得的成功，背后都依赖于大规模的算力和数据标注，因此存在着非常大的瓶颈。第一方面是资源消耗巨大，包括标注数据的资源以及算力资源。第二是缺乏解释性和泛化能力的问题。但是人类在解决这个问题的时候，我们的认知机制很好的克服了这两方面的瓶颈，因此我们研究的出发点怎么借鉴人类的认知机理，实现认知启发的视觉语义理解。

图灵奖得主1956年达特茅斯会议的发起者，纽厄尔和西蒙提出对人类认知过程的模拟，是解构智能行为，实现人工智能的基础。我们在研究过程中围绕认知过程的三个层次开展研究工作，分别包括复杂视觉内容的快速过滤和获取，跨领域知识的迁移和泛化，以及跨模态概念的对齐及关联推理，我们围绕这三个层次开展系列的研究，取得了相应的成果。

复杂视觉内容的快速过滤和获取

人类具有非常能够适应不同环境的注意力机制，我们在观察周围场景的时候，周围每一个像素对我们来说不是等同重要的，我们会本能的把我们的注意力集中到我们所感兴趣的目标上面，对这种注意力机制进行模拟，应用到计算机视觉就可以实现针对复杂视觉内容的快速过滤和获取。这里面一个重要的研究课题就是视觉显著性分析。

给定一张图像，希望预测人类可能最感兴趣的图像的区域，这个是计算机视觉一个重要的研究课题，具有非常重要的应用，比如说图像编辑里面做图片拼贴，希望把重要的区域露出来，更多的背景区域重叠遮挡。第二基于内容感知的图像缩放，等比例图像缩放会使得前景和背景发生形变，如果把前景检测出来，背景做压缩就可以实现图像的自适应缩放（保持重要的内容）。还有背景虚化也使用了图像显著性分析的技术。同时图像显著性分析还是各种更高层的视觉语义理解任务的基础，比如说图像到语义的生成，我们通常来说讲一句话的时候，通常是讲图像里面重要的东西。其次可以实现弱监督语义分割，给定图像类别级别的标注，如果检测出重要的区域相结合，可以结合得到像素级别的标注。还有行人重识别里面，我们在跨摄像头中定位一个人，通常需要找出人身上显著的特性。

我们在2015年的时候，是国际上最早提出将深度学习技术应用到显著物体检测，我们提出要检测图像的显著区域，最主要的是捕捉图像里面区域和背景之间的对比度，既包含低级别的对比度，例如颜色纹理形成的对比度，也包含语义对比度，在语义差异较大的时候也可以引起我们视觉的注意，在隐身物体检测的应用中也需要用到语义的对比度建模。

我们2015年提出了基于区域的对比度学习算法框架，该算法框架已经成为视觉显著物体检测领域的经典评测基准方法，论文被引用了800多次。

2017年提出定义一个新问题，研究实例级别的显著物体检测，我们提出在检测实例分割的同时，需要区分不同物理的实例，可以进一步的把视觉显著性检测和更高层的语义理解两个任务进行很好的桥接过渡。2018到2020年我们把视觉显著性检测的算法推广应用到视频。另一方面，为了使得视觉显著性算法在实际应用中能更好的被应用，我们围绕着怎么去减少图像的标注，怎么减少视频的标注，怎么提升算法的鲁棒性，以及怎么提升算法效率也做了系列的研究工作。

第一，怎么减少图像像素级别的标注。传统的基于生成式的显著性检测方法不依赖于数据标注也可以得到粗糙的标注，如图第二列、第三列所示，大致的显著区域是准的。基于类别的分类学习，可以得到大致的类别响应映射图，如第四列所示，这两个结果相结合，得到伪标注，虽然说不是很干净，即标签是带噪声的。但是我们发现深度学习算法更容易的拟合分布内的特征，对于分布外的噪声是比较困难的，所以我们提出深度卷积神经网络直接回归拟合标签，结合由粗到细的迭代训练EM算法框架，得到一个可以比最初给定的的噪声伪标签更好的结果，这个算法应用于多数无监督的显著性检测方法，都可以使得相关的性能得到很大程度的提升。

第二，围绕鲁棒性，基于深度学习的显著性检测算法，虽然取得很好的结果，但很不稳定，容易受到对抗样本的攻击。例如第一张和第三张图看上去视觉效果没有什么区别，但是实际上加了对抗噪声，使得检测的性能发生退化。第二列是没有受到攻击的图像的分割结果，是比较准确的，但是添加了对抗攻击之后，虽然视觉上看不出什么变化，检测效果却很差。我们猜测现有的卷积神经网络的范式，是不是记住了它的语义，记住了什么语义跟什么语义在一起的时候，什么前景是显著的。但是我们对于这个问题的分析不能说是靠记住语义对比性，我们的感知系统看显著物体的时候不是记住语义，是看真正的对比度。

我们为了验证这一猜想，我们实验发现在基于大量的数据训练出来的模型，对于比较复杂的测试数据做的很好，但是迁移到一个更简单的，例如下面右边这两张度，红色的苹果在绿色的苹果里面，或者绿色的苹果在红色的苹果里面，这么简单的问题，其实反而是检测不准的。所以我们在怀疑它并不是在真正的学习对比度，过分的拟合了类别，就是高层语义特征的类别信息。

基于此我们提出来怎么样提升鲁棒性的方法，去破坏它，加深对比度学习的难度，怎么加深呢？给定一张输入图，我们将其分成上千个超像素，随机做像素的扰动，扰动完之后再送入神经卷积网络学习，因为引入随机性已经很难捕捉语义信息，每一次都是随机的。而答案要求他很好的检测显著区域，就强迫其学习对比度，因为加了随机的噪声，使得显著性分割的结果不是很准确，我们就要加上上下文的建模进行修复，这样一个端到端的框架就能得到鲁棒的结果。

前面讲的是视觉显著性检测，是直接的视觉感知建模，但是视觉检测性检测可以作为一种视觉感知的隐式机制，用到的视觉语义理解，接下来我们看怎么样隐式建模视觉感知机制。解决的问题是多标签物体分类，跟单标签分类不一样，给定一张图，需要检测出多个不同的类别，难度就是多个不同类别的物体，大小是不一样的，我们要怎么解决这个问题呢？传统的方法就是从每张图中检测出上百个候选窗口，对每一个侯选窗口实施单标签分类，再把多个单标签分类合在一起，就能得到图像的多标签分类，这是不符合人的认知机制的，我们人不可能在脑海里产生上百个可能的侯选窗口再逐一进行排除，我们通过仔细思考人的感知机制，我们要看一个场景，是如何实现对它的精准分类？首先我们将视觉注意力关注到最感兴趣的主要区域上面，再看看这个区域跟上下文的关系，决定把注意力转移到哪一个区域，看完那个区域再转到另一个区域，这应该是一个感知序列决策优化的问题。

怎么做呢？首先给定一张图输入空间转换网络，这个空间变换网络学习一个空间转换的系数，作用到图像上，就可以得到一个感知的区域，然后我们对这个感知的区域进行分类。这样我们再把当前的空间变化系数送入一个LSTM，是一个循环神经网络，会记住前一阶段已经看了哪一个区域了，再由它决策下一个旋转变换的参数，也就是决定下一个该看的区域，通过多步迭代，每一个旋转变换的参数对应一个感知的区域，对不同的感知区域分类进行综合，就能得到一个很好的结果。我们提出的这个算法只需要经过四五步感知序列的决策优化，就可以得到一个分类的结果，我们可以用五个侯选区域的窗口可以媲美基于四五百个侯选窗口的传统方法的性能。

我们还把这种感知序列决策优化的算法应用到视频的语句生成，传统的视频语句生成方法，主要是获取视频全局信息，这样会有一个问题，一个厨房里面的场景生成一个语句，就会说一个人正在cooking，事实上他在厨房里面并不是在cooking，可能在吃东西，这是没有很好的捕捉细粒度的细节信息。我们提出了一个基于注意力机制的视频语句描述的方法，在一个视频里面先去提取轨迹簇，把这些轨迹簇加到一个池子里面，得到一个可以用于感知序列选择的轨迹特征池。另外，我们在执行视频语句生成的时候，是利用了语句的结构信息的，我们去看当前每一个阶段该生成什么样的语句单词的时候，我们应用语法依赖树，即语句结构的生成包含三个部分，shift、left和right操作，在shift操作时，执行下一个单词的预测，left和right就是要构建一个语法树的边，如果是shift单词，我们就看从感知特征池里面执行特征加权，实现单词的预测。遇到语法树的边的时候，如果是left或者right的操作，就构建一个边，同时对特征池的特征进行改变，把多个简单的特征合并成一个更高级的或者更宽区域的特征加到特征池里面，通过不断的从特征池里面做特征的加权，通过不断的迭代改进特征池，就可以实现在预测语句的时候能够生成很细粒度语句描述。我们把这个算法用到的小区监控卡口，对车辆和行人进行描述。

跨领域知识的迁移和泛化

在计算机视觉里面，我们研究图像分类问题，通常需要要求标注的数据和我们测试的数据是要同分布的，如果数据分布不同，性能会出现大幅度的退化，所以就有一个很经典的研究问题，叫做领域自适应。我们也是受启发于人的认知机制，人具有很好的跨领域的迁移学习能力，跨领域迁移研究的是，有一个领域的数据标注了，并利用该标注数据训练一个模型，迁移到目标领域，通常在目标领域引入一个对抗学习的机制，要进行分类的同时使得它的特征分不清楚来源于源领域还是目标领域。这种算法训练的过程比较不稳定，而且很可能在领域差异较大的迁移导致失效。我们提出的研究思路很简单，我们去去观察，用一个源领域的数据训练，训练完之后在目标领域直接测试，到底是什么原因导致性能退化的，就去对两个域的特征进行可视化分析，我们把所有的源领域和目标领域特征最后两层降成两维，可视化这个特征，我们发现源领域的特征其实在整个特征可视化上是分布在外围的，目标领域是分布在里面。所以我们觉得这种使得目标领域发生性能退化的原因可能在于数据的特征范数过小的问题，所以我们就提出了一个假想，我们在训练的时候，源领域训练，目标领域测试，我们在训练的时候，是不是逐步的加大目标领域的特征范数就可以？我们发现这样是比较work的，整个训练过程就很简单了，只需要五行代码，整个训练的时候，直接在源领域训练，目标领域加上去，训练过程中，每一次迭代过程中，逐步的加大特征范数，在特征层面上就往外移，加大区分能力，就取得了很好性能的提升。也是因为这个算法框架具有很好的创新性和启发性，也获得了计算机视觉顶级会议ICCV2019最佳论文提名奖。同时还把算法进一步应用到领域自适应的语义分割，领域适配的物体检测，也发了两篇文章。

跨模态概念的对齐和关联推理

我们人在实际场景中生活，其实是具备本能的或者通过后天的学习，是可以实现语言和视觉概念的对齐，我们看这个图，“前面有一个女孩骑着摩托”车，我讲了这句话，大家都知道我讲了什么东西，但是对于计算机视觉来说，要实现这两个模态的对齐是非常困难的，可能会涉及到物体的检测，物体间的关系以及物体间的高阶关系。比如说在这个场景里面，现在想告诉大家，现在定位一个“穿着红色衣服的女孩前面的中年男子前面的男子，左边的桌子位置上的那瓶矿泉水”，我指的是什么？这里有很多，我指是哪个矿泉水？我们人在讲这句话的时候，已经自动的在某一个节点关注到某一个位置了，再通过节点与节点之间的关系，语义上的关系跟图像上的关系做多模态的自然的推理上的对齐，之后我们就拿到了这个物体。

我们研究的就是这么一个问题，怎么实现基于语言描述的视觉目标的定位，总的来说要找到语句里面的每一个物体语句的节点跟图像里面的节点一一对应关系，这一块我们也做了很多的工作。这是我们2019的工作，我们提出的算法，给定一张输入图，要找到一个穿着绿衣服裙子手上拿着的雨伞，怎么做呢？首先把这幅图像变成一个图结构，先做一个图像上的物体检测，把物体检测出来的每一个窗口抽象成图里面的每一个节点，节点与节点之间连一条边，这条边是一个语义边或者空间关系上的边，这样就形成了一个图像上的关系图谱。对于语句，又可以做一个语法解析，解析成很多的节点，对每一个节点先做一个特征的融合，在融合之前，每一个节点其实是一个融合后的特征，这个时候是没有多阶关系，他只知道当前是雨伞，但是不知道是绿衣服裙子拿着的雨伞。所以我们在构建了这个多模态的图之后，需要进行一个图神经网络传播，经过多次传播之后，每一个节点就知道了相邻节点的信息，通过多次的迭代，就知道了更高层语义的关系，通过图的建模，再加上多模态的关系的增强，再在多模态的关系节点上进行图的传播，实现多阶关系的推理，很好的实现了多阶关系语义对齐。

在这个例子中，我们要找到女士头上的，中间的桌子上面的绿色的植物，一开始的时候注意力就是上面三个绿色植物都是比较大的匹配分数的，因为这个时候还没有知道物体之间的相关关系，通过图网络匹配传播之后，最终的匹配分数可以使得中间的绿色植物凸显出来。我们还用到行人的检索上，我们标注了一个具有20000多个标注行人的，还要再加上语句描述，我们构建了这么一个大的数据集，实现语句的行人检索。

同时我们还把算法跟医学影像结合，这是高老师和王老师的专业了，我们只是把我们的视觉的算法落地应用到医学影像的分析。我们也做了一些用到医学影像的分割，我们做了X光的小儿肺部分割，因为小朋友照肺部跟成人不一样，是躺着拍的，所以我们要很好的捕捉形状轮廓变化。我们还做了息肉的分割，就是把我们的视觉显著性检测的算法应用到医学影像。我们还把视觉显著性检测的算法应用到胶囊内镜，这是视频的分析，在胶囊内镜里面这个也是蛮有意思的，我们的检测小肠病变，我们通常直接照肠镜比较痛苦，会直接吃一个胶囊内镜进去，从吃进去到排出来拍摄了十几个小时的视频，从十几个小时视频里面医生慢慢看，看完之后诊断它有没有小肠的病变。这里面视觉的算法就可以用到这里面很多的问题，比如说怎么让医生少看十几个小时，怎么缩短，是不是只看几分钟或者多少秒就可以了。还有我们这视频里面怎么自动的检测病变的区域，怎么去做诊断。还有直肠超声也是，超声的视频，要去里面做一些病变区域的检测以及后期的诊断，都要用到相关视觉的算法。

我们还把算法去跟智能交通赋能，怎么跟智能交通有关系呢？我们在智能交通里面，如果要检测出车辆流量的变化，可以把整个地图网格化，每一个格子可以抽象出某一个时间段进来的车出去的车，这样我们就可以把它构建成一个类似于视频的模态的数据，我们可以把视频预测用到这个上面来，就可以实现视频在交通上的轨迹流量的分析。还可以做出租车的需求预测，还可以做图像的超分辨率模型用过来，用在地图里面，有一些大城市的地图比较精细化，小城市的地图比较粗糙，怎么实现视频的超分辨率在落后地方的应用得到更高清的流量的分析。我们还参加了国际的智慧城市挑战赛里面的交通异常检测，也获得冠军。

组织机构

主管单位
中华人民共和国科学技术部
国家科学技术奖励工作办公室
主办单位
中国人工智能学会

《认知启发的视觉语义理解》

组织机构

奖励资质

下载中心

推荐资讯

热门标签