Scidown文献预览系统!
基于跨模态检索和模型自适应的跨域图像字幕( Cross-Domain Image Captioning via Cross-Modal Retrieval and Model Adaptation )
W Zhao X Wu J Luo
近年来,大规模的成对图像和句子数据集使得自动生成图像描述(即图像字幕)取得了显著的成功。然而,在每个域中收集足够数量的成对图像和句子是劳动密集型和耗时的。将在具有成对图像和句子的现有域(即源域)中训练的图像字幕模型转移到仅具有未成对数据的新域(即目标域)可能是有益的。本文提出了一种跨模态检索辅助的跨域图像字幕检索方法,利用跨模态检索模型在目标域生成伪图像和句子对,以利于字幕模型的自适应。为了学习目标域中图像和句子之间的相关性,我们提出了一种迭代跨模态检索过程,该过程首先使用源域数据预训练跨模态检索模型,然后应用于目标域数据以获得初始的伪图像-句子对集。通过使用伪图像-句子对迭代微调检索模型和使用检索模型更新伪图像-句子对,进一步细化伪图像-句子对。为了使在源域学习的句子的语言模式更好地适应目标域,我们提出了一种自适应的图像字幕模型,该模型利用改进的伪图像-句子对微调了自我注意机制。在MSCOCO作为源域和五个不同的数据集(Flickr30k、TGIF、CUB-200、Oxford-102和Conceptal)作为目标域的几种环境下的实验结果表明,与现有的方法相比,我们的方法获得了更好的性能。我们还将我们的方法扩展到跨域视频字幕,其中MSR-VTT作为源域,另外两个数据集(MSVD和Charades字幕)作为目标域,进一步验证了我们的方法的有效性。
『Sci-Hub|Scidown』怎么用?来看看教程吧!

支持模式 1.支持DOI号 2.支持英文文献全名搜索 3.支持参考文献搜索 4.知网文献(暂时关闭)


安卓手机、电脑用户,您可以在QQ浏览器里输入 www.scidown.cn 打开scidown解析,就可以解析、下载了!(注意是文献的DOI号)


苹果手机用户,您需要先在App Store里搜索并下载 Documents by Readdle 这个APP,在APP首页,左划右下角的指南针图标打开APP内置浏览器,在浏览器里输入 www.scidown.cn 打开scidown解析,就可以解析、下载了!


如出现BUG?赶快加入【Scidown互助交流群】反馈吧:729083885【点击一键加群】