基于跨模态检索和模型自适应的跨域图像字幕

Scidown文献预览系统！

作者：scidown 发布时间：2021-06-13 17:10:04 文章标题：

基于跨模态检索和模型自适应的跨域图像字幕( Cross-Domain Image Captioning via Cross-Modal Retrieval and Model Adaptation )

文章作者：

W Zhao X Wu J Luo

文章简述：

近年来，大规模的成对图像和句子数据集使得自动生成图像描述（即图像字幕）取得了显著的成功。然而，在每个域中收集足够数量的成对图像和句子是劳动密集型和耗时的。将在具有成对图像和句子的现有域（即源域）中训练的图像字幕模型转移到仅具有未成对数据的新域（即目标域）可能是有益的。本文提出了一种跨模态检索辅助的跨域图像字幕检索方法，利用跨模态检索模型在目标域生成伪图像和句子对，以利于字幕模型的自适应。为了学习目标域中图像和句子之间的相关性，我们提出了一种迭代跨模态检索过程，该过程首先使用源域数据预训练跨模态检索模型，然后应用于目标域数据以获得初始的伪图像-句子对集。通过使用伪图像-句子对迭代微调检索模型和使用检索模型更新伪图像-句子对，进一步细化伪图像-句子对。为了使在源域学习的句子的语言模式更好地适应目标域，我们提出了一种自适应的图像字幕模型，该模型利用改进的伪图像-句子对微调了自我注意机制。在MSCOCO作为源域和五个不同的数据集(Flickr30k、TGIF、CUB-200、Oxford-102和Conceptal）作为目标域的几种环境下的实验结果表明，与现有的方法相比，我们的方法获得了更好的性能。我们还将我们的方法扩展到跨域视频字幕，其中MSR-VTT作为源域，另外两个数据集（MSVD和Charades字幕）作为目标域，进一步验证了我们的方法的有效性。

文章下载地址（开放版）：

SciDown文献求助系统（解决99%问题）

Public Download

ResearchGate

IEEEXplore

『Sci-Hub|Scidown』怎么用？来看看教程吧！

支持模式 1.支持DOI号 2.支持英文文献全名搜索 3.支持参考文献搜索 4.知网文献（暂时关闭）

安卓手机、电脑用户，您可以在QQ浏览器里输入 www.scidown.cn 打开scidown解析，就可以解析、下载了！（注意是文献的DOI号）

苹果手机用户，您需要先在App Store里搜索并下载 Documents by Readdle 这个APP，在APP首页，左划右下角的指南针图标打开APP内置浏览器，在浏览器里输入 www.scidown.cn 打开scidown解析，就可以解析、下载了！

如出现BUG？赶快加入【Scidown互助交流群】反馈吧：729083885【点击一键加群】

『Sci-Hub|Scidown』相关参考文献

scidown 用于有限标记数据机电系统故障诊断的半监督图卷积深度置信网络下载
scidown 用于有限标记数据机电系统故障诊断的半监督图卷积深度置信网络下载