
机器之心发布作者:香港大学、腾讯ARCLab论文地址:代码地址:1.背景2.启发3.方法4.预训练流程如下图所示,该研究预训练流程包含三个部分,来分别优化三个统一的对比学习(contrastivele......
机器之心发布
作者:香港大学、腾讯ARCLab
论文地址:
代码地址:
1.背景
2.启发
3.方法
4.预训练流程
如下图所示,该研究预训练流程包含三个部分,来分别优化三个统一的对比学习(contrastivelearning)形式的预训练目标:
2.训练BridgeFormer回答名词问题,也就是拉近BridgeFormer输出的名词回答特征和TextFormer输出的正确答案的名词特征间的距离,并拉远名词回答特征和其他名词特征间的距离。
3.训练BridgeFormer回答动词问题,也就是拉近BridgeFormer输出的动词回答特征和TextFormer输出的正确答案的动词特征间的距离,并拉远动词回答特征和其他动词特征间的距离。
这里该研究使用对比学习来优化多项选择题形式的预训练目标,而不是采用传统的“maskedwordprediction”,也就是随机mask一句话里的一些单词,训练模型预测出被mask的单词。采用本文的这种做法有如下三个优势:
传统的“maskedwordprediction”约束模型预测出被mask的单词,会使得模型专注于解码low-level的单词本身,破坏了对模态间high-level的特征表达的学习。相比之下,该研究的MCQ以对比学习的形式拉近BridgeFormer输出的回答特征和TextFormer输出的答案特征间的距离,从而使模型专注于学习模态间high-level的语义信息。
该研究抹除文本里包含明确语义信息的动词和名词短语来构造有意义的问题,而传统的方法只是随机mask一些可能没有任何语义信息的单词。
由于问题的特征和答案的特征都是由TextFormer得到,这一做法可以视为对文本的dataaugmentation,从而增强TextFormer对自然语言的语义理解能力。
消融实验也显示,相比于传统的“maskedwordprediction”,该研究的对比学习形式的借口任务MCQ在下游测评取得了更好的实验结果。
5.模型结构
6.可视化
6.1BridgeFormer如何回答名词问题
6.2BridgeFormer如何回答动词问题
7.实验
7.1预训练数据
7.2下游任务
该研究在MSR-VTT、MSVD、LSMDC、DiDeMo和HowTo100M上进行测评。采用两种测评准则,包括zero-shot和fine-tune。
动作识别
7.3实验结果
更多的实验结果和消融实验,参见论文。
8.总结