Save you from anything

0%

论文阅读:A Study of Neural Matching Models for Cross-lingual IR

目前已经有许多使用跨语言词向量(CLWE)实现的跨语言检索(CLIR)模型,但是没有人尝试过在CLWE上直接使用经典的单语言检索模型。本论文论证了可行性,并进行了实验。结果表明基于匹配的单语言检索模型可以不加修改的在CLWE上进行CLIR任务。

(转向做CLIR后读的第一篇论文,也是我后续工作的基础)

论文阅读:A Study of Neural Matching Models for Cross-lingual IR

目前已经有许多使用跨语言词向量(CLWE)实现的跨语言检索(CLIR)模型,但是没有人尝试过在CLWE上直接使用经典的单语言检索模型。本论文论证了可行性,并进行了实验。结果表明基于匹配的单语言检索模型可以不加修改的在CLWE上进行CLIR任务。

(转向做CLIR后读的第一篇论文,也是我后续工作的基础)

引入

一些前人对于基于CLWE的CLIR模型的实验表明,CLWE可能有当作翻译资源使用的潜力。而基于翻译的CLIR模型通常侧重于翻译系统的构建,对于检索任务本身则直接使用现有的检索模型。因而本文的作者尝试借助CLWE和单语的神经检索模型构建CLIR模型。

单语言的神经IR模型成功的原因可以分为两类:

  • 模式学习:单词级查询文档交互的构建可以通过不同的神经网络体系结构学习各种匹配模式(词级别、句级别、段级别匹配)。
  • 表征学习:可以从大规模训练数据进行端到端学习来定制化的学习词嵌入。

但在CLIR中,每个可用语言对的数据集通常少于200个查询,只能支持容量较小的训练神经模型。因此,本论文侧重于模式学习方面。

本论文提出以下两个研究问题:

Q1:单语言检索的神经模型应如何适应CLIR?

Q2:神经模型如何与CLIR的无监督模型进行比较?

研究进展

(不是废话的那种研究进展)

基于CLWE的无监督CLIR模型

作者举了两个模型:

  • BWE-Agg使用查询和文档嵌入的余弦相似性,对查询对文档的匹配程度进行排名。
    • BWE-Agg-Add使用查询和文档的所有单词的平均嵌入
    • BWE-Agg-IDF通过对TF-IDF加权来构建文档嵌入。
  • TbT-QT把CLWE当作翻译资源使用,采用查询词的top-1转换,并使用查询似然模型进行检索。

神经IR模型

这里作者举了三个模型:

  • MatchPyramid(MP):通过计算查询和文档的每个单词的余弦相似度,构建一个交互图,然后在这个交互图上进行卷积获得最终输出。
  • DRMM:使用匹配直方图捕捉查询和文档的交互,匹配直方图的捕捉长度设定为一系列不同的bin值,以完成对不同匹配粒度的捕捉,最后加权不同bin值的直方图捕捉到的特征。
  • KNRM:使用类似MP的操作生成交互图,但是使用具有不同µ的高斯核将交互“分类”为不同级别的余弦相似度。KNRM的独特优势在于它允许梯度穿过高斯内核,因此其支持端到端的嵌入学习。

从单语言到跨语言

是否需要调整神经IR模型

在单语言任务上,上文提到的三个模型的性能排行为KNRM> DRMM> MP,但即使冻结词向量的学习(即KNRM会丢失一大优势),三个模型在IR任务上的性能排行仍然为KNRM> DRMM> MP,即无需特意的调整模型,不会影响结论。

但将单语言IR模型应用到CLIR任务中仍然有以下几个问题需要解决:

精确匹配信号

相比单语言IR,CLIR可能很难有不同语言中的的单词完全匹配的情况,这对于基于余弦相似度的IR模型(例如MP)可会有巨大的影响。因此作者设计了一个改版的MP模型:MP-Hybrid。

这个模型把从指示函数的精确匹配信号和余弦相似性函数构建的交互矩阵中提取的软匹配信号结合在一起,串联这两个双通道的排名特征以用于MLP以预测排名得分。

词对相似度分布

词向量有一个重要的假设:不同语言中的同义词的分布是接近的。并且这个假设获得了很多工程上的证明,但是不同语言间的词分布仍然是有一定的差距的。如图所示,英语嵌入式空间1中五个与“电话”最接近的词的余弦相似度范围为0.818至0.669,而英语-西班牙语对齐的嵌入式空间2的余弦相似度范围为0.535至0.520。相似度分布会影响DRMM的直方图构造,并且对于KNRM的内核池也类似。

词汇不匹配和翻译错误

基于翻译的CLIR方法常常受以上两个问题的影响,对于在CLIR任务中使用IR模型,如果使用基于翻译的方法,以上两个问题会被放大的更明显(因为单语IR模型往往不侧重于考虑这些问题)。为了证明迁移单语言IR模型到CLIR任务中使用CLWE的重要性,作者设计了一组称为{MP,DRMM,K-NRM} -TbT-QT的模型,这些模型使用TbT-QT对查询进行Top-1翻译,然后使用这三个单语言检索模型进行检索。

实验

数据集及超参数

数据集:CLEF 2000-2003广告系列评估模型。使用四种语言对:英语(EN)查询-{荷兰语(NL),意大利语(IT),芬兰语(FI),西班牙语(ES}文档。截断保留前500个单词。

跨语言单词嵌入:在Wikipedia语料库上使用相应的语言训练单语言的FastText嵌入,并使用来自小型双语词典的弱监督进行对齐,并以RCSLS损失作为优化目标。

MP模型:采用一层卷积,其内核大小设置为3×3,动态池大小设置为5×1,内核计数设置为64。

DRMM模型,我们采用基于对数计数的直方图,其中bin大小设置为30。

KNRM模型,内核数设置为20,每个高斯内核的标准偏差设置为0.1。

实验结果和结论

通常我不提及实验结果(实验结果差谁会发?)

不过这篇论文的可以提一下:本文使用的三种IR模型,在CLWE空间中,都是原版效果最好。即整花活儿没有意义。

总结

这论文吧,工作量其实没多大,就是拎了几个单语IR模型到CLWE空间里跑,但是文笔好,论证了一大堆,尤其是对于Q1的讨论,论证了一大堆,最后结论是不需要修改单语IR模型就可以直接适应。

但是确实有一定的意义,本论文证明了在CLWE上使用IR模型执行CLIR任务的可行性。