AI研习丨 跨媒体内容理解技术

来源:世展网 分类:AI人工智能行业资讯 2024-04-28 19:26 阅读:*****
分享:

2026年深圳高交会人工智能与机器人产业链展CHTF

2026-11-13-11-15

距离332

收录于话题

#AI研习

文/ 彭宇新,何相腾,叶钊达

0 引言

随着多媒体和计算机网络技术的不断发展,信息传播的载体逐渐由文本为主的形式发展为包含图像、视频、文本、音频等跨媒体形式。国务院印发的《新一代人工智能发展规划》指出,需要研发视频图像信息分析识别等相关技术并建立智能化监测平台,以满足社会综合治理、新型犯罪侦查、反恐等迫切需求。Google、OpenAI 等著名企业也高度重视跨媒体内容理解,投入大量资源研发了 CLIP、DALL-E 等跨媒体大模型,引起了学术界与工业界的密切关注。由此可见,跨媒体内容理解不仅是国家的战略需求,也符合企业的市场需求,具有重要的研究和应用价值。

然而跨媒体数据具有语义抽象、复杂多变、多源异构等特点,使得跨媒体内容理解面临“异构鸿沟”和“语义鸿沟”两大难题。“异构鸿沟”是指跨媒体数据的表征不一致,难以直接度量数据的相似度,导致跨媒体数据难以综合利用;“语义鸿沟”是指跨媒体数据的表征形式与人类认知之间存在巨大差异,导致计算机难以理解跨媒体数据的语义信息。因此如何克服“异构鸿沟”和“语义鸿沟”,使计算机正确理解跨媒体内容,实现跨媒体检索、推理和生成,是综合利用跨媒体数据并发挥其价值的关键,已经成为了研究人员关注和研究的热点。

跨媒体内容理解技术旨在对图像、视频、文本等跨媒体数据进行综合分析与关联建模,实现跨媒体检索、推理和生成,在网络空间安全和媒体融合等领域有着广阔的应用前景。本文主要介绍近年来跨媒体内容理解技术的研究现状和进展,主要包括四个方面:① 跨媒体表征学习,其关键在于突破由于跨媒体数据表征不一致导致的“异构鸿沟”问题,为检索、推理和生成等跨媒体任务提供表征基础;②跨媒体检索,其关键在于让计算机理解跨媒体数据的语义信息,实现基于语义的内容检索;③ 跨媒体推理,其关键在于使计算机在理解跨媒体数据语义信息的基础上,推理跨媒体数据中隐含的结论与事实;④ 跨媒体生成,其关键在于让计算机突破已有规则进行联想与创造,实现跨媒体内容的互相生成。

1跨媒体表征学习

在现实生活中,图像、视频、文本等跨媒体数据通常是同时出现的,例如在网页中,既有文字描述,也有与文字相关的图像、视频等,它们彼此之间存在着隐含的关联关系。因此不同于对单一媒体数据的表征学习,跨媒体表征学习往往通过学习跨媒体数据间的关联关系来提升其表征能力。

基 于 上 述 思 想,Peng 等(IEEE TMM 2018)提出了一种基于多粒度层级网络的跨模态关联学习方法 (Cross-modal Correlation Learning),如图 1 所示,采用层级网络结构建模模态内和模态间的关联关系,并分为单模态特征表示学习和跨模态统一表征学习两个阶段。在单模态特征表示学习过程中,通过融合不同模态数据细粒度和粗粒度的多粒度特征表示联合优化模态内和模态间的关联学习;在跨模态统一表征学习过程中,提出多任务耦合关联学习,动态平衡模态内语义类别约束和模态间成对关联约束的学习过程,从而提高了跨模态检索的准确率。Chi 等(IEEE TCSVT 2020)提出了对偶对抗分布网络(Dual Adversarial Distribution Network),通过跨媒体对偶生成对抗结构,实现跨媒体数据特征与统一表征的互相转换,挖掘跨媒体数据的语义信息和潜在结构信息,加强模型对不同类别数据的泛化能力;其次提出分布匹配策略和对抗媒体间度量约束,建模已知类别和未知类别间的语义关联,加强对未知类别数据的语义表征能力,提高了统一表征的媒体间关联和语义排序能力。Peng 等(IEEE TMM 2019)认为,图像和文本之间的信息转换应该被视作一个完整的环路,可以通过闭环中视觉和语言信息的相互作用加强图像和文本之间的潜在关联。因此,提出了跨媒体循环关联学习方法(Cross-modal Circular Learning),如图 2 所示,通过循环地进行图像到文本,以及文本到图像的相互生成学习统一表征。通过这种循环训练方式,使得不同跨媒体任务相互促进,在提升模型生成能力的同时进一步提升了跨媒体表征学习的效果,在跨媒体检索、图像描述生成,以及文本到图像生成等多个跨媒体任务上均取得了性能提升。针对表征学习的媒体可扩展性,Wang 等(IEEE TCSVT 2021)提出了一种媒体类型无关的表征学习方法,支持每种媒体数据独立学习判别性表征。该方法将标签信息视为一种特殊的媒体信息,引入标签解析模块得到标签语义表征以关联不同的媒体数据;同时,构建特定媒体的表征学习模块获取其语义共享表征。当新增媒体类型时,以已经学习到的标签语义表征来引导新增媒体数据的表征学习。此外,该方法还设计了一个统一的分类器被用于不同媒体数据的表征学习模块,以促进不同媒体数据共享表征的语义对齐,提高了表征学习的有效性和灵活性。考虑到文本描述往往指出了图像中的辨识性信息,He 等(CVPR 2017)将文本信息引入到细粒度图像分类中,提出了视觉语言联合学习(Combining Vision and Language),通过显著协同优化的视觉分支和卷积序列编码的文本分支,挖掘图像文本的语义关联和嵌入表示学习,突破单源信息表示的局限性,获取更好的细粒度表征。

2跨媒体检索

跨媒体检索是指将任意媒体数据作为查询,自动检索出与之具有相同语义的各种媒体类型的数据,实现图像、视频、文本等不同媒体数据之间的交叉检索。其面临着相似性度量、数据标注缺失、数据跨域、检索速度慢等问题。

针对跨媒体相似性度量问题,Peng 等(IJCAI2018)提出了一种基于特定媒体语义空间建模的跨媒体相似性学习方法 (Modality-specific Cross-modal Similarity Measurement)。该方法首先为每种媒体数据分别构造特定媒体的语义空间,并通过循环注意力网络建模媒体内部的细粒度信息,以及空间上下文信息;然后通过基于注意力机制的联合关联学习将其他媒体数据投射到该媒体的语义空间,计算在该媒体语义空间中数据间的相似度得分;最后通过动态融合的方法对上述相似度得分进行融合,充分学习不同媒体间不平衡的关联信息并挖掘不同媒体语义空间的互补性,提高了跨媒体检索的准确率。

针对数据标注缺失的问题,Zhang 等(IEEE TCYB 2020)提出了基于生成式对抗网络的半监督跨媒体检索方法 (Semi-supervised Cross-modal Hashing by Generative Adversarial Network),利用生成模型解决无标注数据难以利用的问题。其主要思想是通过对抗式训练,生成模型能够从无标注数据中筛选并构建伪标签样本,进而利用生成的伪标签样本促进判别模型的性能,提高了跨媒体检索的准确率。进一步,Peng 等(IEEE TCYB 2022)提出了基于无监督视觉 - 文本关联学习的跨媒体检索方法(Unsupervised Visual-textual Correlation Learning),通过目标检测、实体抽取等方法获取图像和文本中的语义概念以代替传统的标注信息;同时通过全局和局部两级注意力机制进一步挖掘图像 - 文本中细粒度语义信息,建立图像中的实体与文本片段的关联关系,提高无监督条件下跨媒体检索的准确率。

针对跨媒体数据跨域问题,Peng 等(IJCV 2021)提出了基于多层次视觉 - 文本知识蒸馏的终身 学 习 方 法(Visual-textual Life-long Knowledge Distillation),在解决跨媒体检索跨模态问题的同时,还能够克服跨域的挑战。针对跨媒体检索的跨模态问题,提出了多层次的视觉 - 文本循环神经网络,能够挖掘图像和文本中全局和局部的细粒度上下文信息,为跨媒体检索提供多层级的语义信息。针对跨媒体检索跨域的问题,提出了基于终生学习的模型训练策略,设计了可扩展的模型结构,不同于现有方法需要对跨域数据训练多个模型,该方法仅需要训练域相关的少量参数,大大提高了模型的复用率,实现了单个模型支持多个域数据的跨媒体检索。

针对跨媒体检索速度慢的问题,研究人员提出通过学习跨媒体数据的哈希码,实现快速跨媒体检索。Ye 等(ACM TOMM 2019)提出了一种基于多尺度关联挖掘的序列化跨媒体哈希(Multi-Scale Correlation for Sequential Cross-modal Hashing) 方法,能够同时学习 5 种媒体数据的哈希码,实现了快速准确的跨媒体检索。如图 3 所示,该方法首先提出了多尺度特征指导的序列化哈希函数学习,能够利用跨媒体数据的不同尺度特征共同指导哈希函数的学习,充分利用了不同尺度特征间的互补性,避免了单一特征异常导致的哈希码错误;其次,通过多尺度特征间关联挖掘策略建模不同尺度特征之间的关联关系,为哈希函数学习补充了大量跨媒体数据间的关联信息,有效提高了哈希码的检索准确率。Cao 等(ICMR 2016)提出了一种基于深度自编码器结构的跨媒体哈希方法(Cross Autoencoder Hashing),通过最大化具有相似标签的跨媒体数据的特征关联与语义关联,学习跨媒体哈希码用于检索。

近 年 来, 受 自 然 语 言 处 理 领 域 BERT、GPT等预训练模型的启发,一些工作开始研究使用Transformer 等网络结构,利用基于大规模图像文本训练得到的预训练模型,在跨媒体检索上取得了显著的进展。主要包括单塔模型和双塔模型两类,单塔模型是指将不同媒体数据和特征输入到单个模型中以学习数据和特征间的关联;双塔模型是指将不同媒体数据和特征分别输入到不同模型,然后通过度量模型输出的相似性得分实现跨媒体检索。例如,Radford 等(ICML 2021)提出了对比式语言图像预训练模型(Contrastive Language-Image Pre-training,CLIP),利用约 4 亿图像与文本对的跨媒体数据进行对比学习,在零样本跨媒体检索任务上取得了准确率的大幅提升。

3跨媒体推理

跨媒体推理是一类涉及高层语义分析的任务,要求计算机能够综合分析不同媒体类型的信息和线索,实现基于图像、文本等跨媒体内容的逻辑推理。在研究与应用中衍生出许多不同的任务,包括视觉常识推理、跨媒体蕴涵推理等。

在视觉常识推理上,Wen 等 (IEEE TCSVT 2021)提出了基于常识知识的推理模型(Commonsense Knowledge based Reasoning Model),将源域任务中的知识迁移到目标域的视觉常识推理任务中,建立了源域编码器与目标域编码器之间的单元级别、层级别和注意力级别的多级知识迁移机制,提高了目标域任务中编码器的表征映射能力。该方法借助源域知识有效融合目标域中的细粒度和全局推理线索,提升了视觉常识推理的准确率。此外,Su 等(ICLR 2020)提出了预训练视觉语言 VL-BERT 模型,通过文本语义与视觉线索对齐提升了在视觉常识推理的准确率。

在跨媒体蕴含推理上,Huang 等(IEEE TCYB 2021)提出了基于图文混合序列匹配的跨媒体蕴 含 推 理 方 法(Visual-textual Hybrid Sequence Matching),首先通过基于记忆注意力的上下文编码方法,根据内容对蕴涵推理的重要程度为跨媒体数据进行上下文编码;然后通过跨任务和跨媒体的知识迁移方法,将跨媒体检索任务中的关联知识迁移至跨媒体推理任务网络,使得网络能够克服“异构鸿沟”,综合利用多种媒体信息进行蕴涵推理,提升了跨媒体蕴涵推理的准确率。进一步,Huang等(ACM TOMM 2020)还提出异构交互学习方法(Heterogeneous Interactive Learning),通过使用跨媒体交互注意力实现图像 - 文本、文本 - 文本的细粒度语义对齐,将图像和文本建模在同一张量空间中,提升了跨媒体蕴涵推理的准确率。

4跨媒体生成

跨媒体生成是指将特定内容从一种媒体形式转化为另一种媒体形式,需要计算机不仅能够理解跨媒体数据,还能够通过联想与创造生成跨媒体数据,是计算机从“感知智能”迈向“认知智能”的一项极具挑战的任务。常见的任务包括视频描述生成、文本生成图像、文本生成视频等。

在视频描述生成上,Zhang 等(MMM 2019)提出了层次性视觉 - 语言对齐方法(Attention GuidedHierarchical Alignment)。该方法学习视觉内容和文本描述之间不同层次的隐含对齐信息,包括视觉对象 - 单词、视觉关系 - 短语、视觉区域 - 语句三种对齐信息;然后构建基于二元记忆循环网络的编码器 - 解码器模型,通过二元记忆循环网络同时编码全局语义信息和多层次对齐信息,并通过注意力机制利用多层次的视觉 - 语言对齐信息指导深度解码器生成准确的文本描述语句。针对长视频的文本描述生成问题,Wang 等(CVPR 2018)提出了一种非局部神经网络(Non-local Neural Network),通过建模当前位置信号与全局信息的关系,获取视频长时序关系,以弥补卷积神经网络局部连接计算的不足,支持视频长时间尺度信息建模。

在文本生成图像上,Yuan 等(IEEE TCSVT 2020)提出了基于类桥结构生成式对抗网络(Bridge-GAN) 的文本生成图像方法,如图 4 所示,通过学习一个具备可解释性特征的过渡空间作为桥梁来提升生成图像与文本的内容一致性;同时通过一组三元互信息目标函数,对过渡空间的求解进行优化,从而增强视觉真实性与内容一致性。此外,Yuan 等(IEEE TMM 2020)还提出基于跨任务知识蒸馏 (Cross-task Knowledge Distillation) 的文本生成图像方法,将知识从多个图像语义理解任务迁移到文本生成图像任务,采用多阶段的蒸馏过程:以图像分类模型为源域的蒸馏指导生成模型学习物体的基础形状和颜色;以图像描述生成模型为源域的蒸馏指导生成模型学习物体的细节属性信息。通过多阶段的蒸馏学习能够帮助文本生成图像模型有效拟合真实数据的分布,更准确地理解输入文本中蕴含的语义信息,最终生成具备良好语义一致性与生成质量的图像。此外,Zhu 等(CVPR 2019)将记忆力机制引入到生成过程中,提出动态记忆对抗生成网络(Dynamic Memory Generative Adversarial Networks),能够对生成图像进行动态调整,有效提高了生成图像的质量。

在文本生成视频上,Deng(IJCAI 2019)提出了一种内省递归卷积生成式对抗网络 (Introspective Recurrent Convolutional GAN)。针对视频帧的连续性,提出递归卷积生成器将 2D 反卷积层与 LSTM记忆单元相结合,提高了视频清晰度和连续性。针对视频与文本的语义一致性,提出利用互信息计算视频和文本之间的语义相似度,并通过设计相应的语义约束函数提高生成视频与文本语义的一致性。此 外,Wu 等(arXiv 2021)提出了一个基于 3D Transformer 的编码器 - 解码器框架,通过 3D 注意力机制同时考虑空间和时间上的局部特征,提高了生成视频的质量。

五、结束语

本文介绍了跨媒体内容理解在表征学习、检索、推理、生成等方面的相关研究现状与进展,然而上述研究方向仍然具有许多值得进一步研究的问题,主要有四个方面。

(1)在跨媒体表征学习上,如何实现跨媒体数据融合自监督、弱监督等表征学习方法,建立通用的跨媒体的表征学习方法?

(2)在跨媒体检索上,如何解决现有大规模预训练模型的资源消耗大的问题,在小模型上得到近似大规模预训练模型的性能?

(3)在跨媒体推理上,如何结合大规模的常识知识和领域知识图谱提高推理模型的通用性和专业性,并在特定领域中达到人类推理水平?

(4)在跨媒体生成上,如何应对 DALL-E 2 等大模型所带来的冲击,并提高在精细化、专业化等需求情况下的视觉生成内容的质量?

(参考文献略)

选自《中国人工智能学会通讯》

2022年第12卷第7期

人工智能青年学者学术分享

阅读原文

会务组联系方式  

展会咨询

相关AI人工智能行业展会

2026年中国郑州国际人工智能产业博览会ICBDT

2026-04-28~04-30 距离133
91968展会热度 评论(0)

2025年上海世界人工智能大会WAIC

2025-07-26~07-29 展会结束
289263展会热度 评论(0)

2025年郑州世界数字产业博览会WDIE

2025-03-21~03-23 展会结束
68396展会热度 评论(0)

2025年北京全球数字经济大会Global Digital Economy Conference

2025-07-02~07-05 展会结束
80757展会热度 评论(0)

2025年苏州人工智能展AIExpo

2025-07-28~07-30 展会结束
93320展会热度 评论(0)

2026年深圳高交会人工智能与机器人产业链展CHTF

2026-11-13~11-15 距离332
60871展会热度 评论(0)
X
客服
电话
内展咨询:13924230066;外展咨询: 李经理-18612890093

服务热线

扫一扫

世展网公众号

微信小程序

销售客服

门票客服

TOP
X