基于深度学习的机器学习方法已经在语音、文本、图像等单一模态领域取得了巨大的成功,而同时涉及到多种输入模态的多模态机器学习...

邓力,以下为正文内容解读,虽然多模态智能研究已经取得了重大进展(图1)

基于深度学习的机器学习方法已经在语音、文本、图像等单一模态领域取得了巨大的成功,而同时涉及到多种输入模态的多模态机器学习研究有巨大的应用前景和广泛的研究价值,成为了近年来的研究热点。

邓力,以下为正文内容解读,虽然多模态智能研究已经取得了重大进展(图2)

近期,京东AI研究院的何晓冬博士、京东及英国剑桥大学的张超博士、和美国著名对冲基金Citadel的邓力博士和杨子超博士就这一前沿研究主题发表了题目为“Multimodal Intelligence: RepresentationLearning, Information Fusion, and Applications”的综述论文,对主要基于文本和图像处理的多模态研究,如图像字幕生成、基于文本的图像生成、视觉问答、视觉推理等方向的相关研究,从表征学习、信息融合和具体应用三个角度进行了综述和回顾,并对未来可能的研究热点进行了分析和展望。

本文对多模态视觉与语言信息处理及相关领域有深入研究,近年来提出过包括Image Captioning based on Deep MultimodalSimilarity Model (DMSM, 2015)Stacked Attention Networks (SAN, 2016)Bottom-Up and Top-Down Attention (BUTD, 2018)及Deep Structured Semantic Models (DSSM, 2013)Hierarchical Attention Networks (HAN, 2016) 等多个重要的模型,引用量均在一千次左右。

此次解读的这篇综述论文将于近期发表在信号处理和模式识别领域内的顶级刊物IEEE Journal of Selected Topics in SignalProcessing的最新特刊:跨语音、语言、视觉和异构信号的多模态智能深度学习 (Deep Learning for Multimodal Intelligenceacross Speech, Language, Vision, and Heterogeneous Signals) 上。这本特刊从五十多篇中精选汇集了10篇高水平论文,涉及跨文本、图像、语音等多模态的各种多元互补的深度学习算法。

以下为正文内容解读:

学习输入特征的更好的表征是深度学习的核心内容。对于多模态学习,由于收集同时具有所有所需模态的数据往往并不容易,利用模型预训练技术实现例如零样本学习(zero-shot learning)或少样本学习(few-shot learning)是常用的有效策略。论文还介绍了利用有或无学习的方式来学习多模态表征的内容。

对不同模态表征的融合也是任何多模态任务的关键内容。与早先的综述工作不同,文章没有将算法按照融合阶段的不同分为早期、中期和后期融合,而是按照具体的融合操作来进行了分类,比如基于注意力机制(attention mechanism)或双线性汇总(bilinear pooling)的方法。这是因为近来流行的基于深度学习的多模态方法,几乎都可以粗略的归类为中期融合,但它们具体使用的融合操作却往往多样而且复杂。

在具体应用方面,论文主要综述了三种不同任务,包括:图像字幕生成、基于文字的图像生成,以及VQA。这些任务一方面作为例证来说明表征学习和信息融合如何应用于具体的多模态任务,另一方面也阐述了文字和图像多模态研究的发展过程和趋势。最后,作为VQA任务的延伸,文章还包括了对视觉推理(visual reasoning)相关工作的介绍。

论文的第二章聚焦表征学习的相关内容。首先对单模态领域表征学习的发展历程和常用方法做了简单的回顾,简介了包括AlexNet、VGG、ResNet、R-CNN、Word2Vec、Glove、GPT、BERT、i-vector、d-vector、x-vector等多种常用的视觉、文本和声纹单模态表征提取方法。介绍了词向量可以习得句法和语义规律的性质,即用向量代数运算可以表示词汇语义间的相关性。其中一个著名的例子是vector(国王)-vector(男人)+vector(女人)可以近似得到vector(王后)类似的还有在图像表征中发现的例子,vector(男人戴眼镜)-vector(男人)+vector(女人)=vector(女人戴眼镜)这些都说明了表征学习具有强大的威力。

论文的第四章主要综述了图像字幕生成、基于文本的图像生成,以及VQA三个不同的任务。图像字幕生成要求生成一副图像对应的文本描述。传统的方法可以使用CNN检测图像内容生成对应词汇,再利用语言模型将词汇转换为完整语句。使用单一模型实现端到端字幕生成的方法,如Show and Tell、Show,Attend, and Tell等通常基于编码器-解码器(Encoder-Decoder)结构,利用编码器提取图像特征,再利用解码器从中解码生成描述文本。图像中包含的先验知识也是字幕生成需要考虑的重要因素,例如名人外貌等等,都可以作为外部知识库整合到中。此外,相关研究还涉及到对生成字幕的文风、内容、以及文本多样性等进行显式控制。

第四章的第二部分讨论与图像字幕生成具有相反输入输出的应用:基于文本的图像生成。在这一任务中,除早期常使用长短时记忆模型或变分自编码器外,最近的方法已普遍基于生成式对抗网络(Generative Adversarial Networks, GAN)在这种方法中,生成器读取输入文本等控制信息作为初始信号生成图像,区分器作为模型式的判定准则判定生成的图像是否足够真实。较早的方法在生成器和区分器中引入类别作为控制信息,不久之后研究发现可以将更一般的使用自然语言书写的语句转换为文本表征来取代类别控制图像生成。为了生成更真实、分辨率更高的图像,StackGAN方法使用了串行堆叠多个GAN,并通过每个GAN逐渐提高图像分辨率的策略。Progressive GAN则引入了类似课程学习(Curriculum learning)的思路,从训练一层的低分辨率生成器和区分器开始,逐渐增加两个模型的层数,从而逐步提高生成图像的精度。除生成图像的分辨率外,AttnGAN在GAN的基础上设计引入了注意力机制,以精细控制生成图片的局部细节,使之与文字描述在语义上相吻合。最后,基于这些模型,可以进一步使用语义布局等额外输入控制GAN生成更复杂的场景构图,例如Obj-GAN方法。

第四章的最后两部分综述VQA及视觉推理任务。文章首先总结了VQA任务常用的不同定义和数据集,包含不同的问题和答案类型等。例如给定输入图像,以及用自然语言描述的关于图像内容的问题后,VQA可以定义为根据输入给出词表内某个词汇作为答案的分类任务。文章前述的信息融合方法,例如基于注意力机制或双线性汇总的方法,很多都是在VQA任务中提出的。文章也涉及了其它一些VQA研究中遇到的重要问题,如利用外部的知识库、避免训练数据中问题和答案可能存在的先验偏差、对问题和答案进行同义改写、以及让VQA能够识别图像中包含的文字等。视觉推理是在包含了复杂空间、位置、逻辑关系等问题的VQA基础上发展出来的,SAN方法一般被认为是较早的包含视觉推理的方法。在神经模块网络( Neural Module Network, NMN)中包含若干模块化的子网络,分别对应基本操作或逻辑关系,这些子网络按照输入问题被解析器解析的结果动态组织成一个新的模型,通过在新模型上进行前向传播来实现端到端的逻辑推理。NMN方法被广泛使用并不断改进作为其他方法的基础。文章还简介了其它一些端到端的视觉推理方法,如基于门控记忆单元和注意力机制来构造逻辑推理单元的方法,以及在视觉表征空间上通过确定性形式化推理程序进行推理的方法等。

论文的最后分别对多模态知识学习、多模态情感智能以及任务导向的大规模复杂多模态人机交互等前沿方向的发展进行了展望。当前已经出现了一些具有多模态信息的数据库,比如MS-Celeb-1M,其中包含了百万级世界知名人物的面部视觉信息及人物实体对应的诸如职业、生平等相关知识信息,可用来支持跨模态的知识学习并强化图像字幕生成等应用。未来,多模态知识学习可定位于从海量的等多模态数据中学习获得实体、行为、属性、关系等信息来构建结构化的常识知识库,从而进行一般的常识推理。这一方向涉及到的难点包括:

如何定义常识。

如何构建多模态数据库并从中有效的学习常识。

如何设计应用的任务,使得能够在体现常识重要性的前提下容易验证新算法的有效性。

如何接收和对齐匹配不同模态间的微妙情感。

如何保证不同模态间数据的一致性和合理性。

如何获得与特定模态无关的关于情感类型和强度的核心表征。

如何推进多模态人机交互的开源和开放许可框架的构建。

如何构建大规模的数据集和算法验证平台。

如何开展对多模态智能的基础研究。

最后,论文的认为,虽然多模态智能研究已经取得了重大进展,并成为了人工智能发展的一个重要分支,但如果以构建能够感知多模态信息并利用不同模态之间的来提高其认知能力的智能体为最终目标,关于多模态智能的研究仍处于起步阶段,其中既面临着巨大的,也存在着巨大的机遇。

本文相关词条概念解析:

模态

模态分析是研究结构动力特性一种近代方法,是系统辨别方法在工程振动领域中的应用。模态是机械结构的固有振动特性,每一个模态具有特定的固有频率、阻尼比和模态振型。这些模态参数可以由计算或试验分析取得,这样一个计算或试验分析过程称为模态分析。模态试验时,一般希望将悬挂点选择在振幅较小的位置,最佳悬挂点应该是某阶振型的节点。模态分析技术从20世纪60年代后期发展至今已趋成熟,它和有限元分析技术一起成为结构动力学的两大支柱模态分析作为一种“逆问题”分析方法,是建立在实验基础上的,采用实验与理论相结合的方法来处理工程中的振动问题。

网友评论