Save you from anything

0%

跨语言检索综述

简单的介绍了一下跨语言信息检索的发展状况。

(因为换到个新方向所以做了这个)

(其实是拿来开题用的)

概述

这个时代,互联网大大加强了全球间的信息交流,从而导致了信息爆炸,各个领域的数据都出现了大规模增长[1],大量的有效信息被掩盖在更大量的无效信息中,信息的形式也多种多样。这使得信息本身已经变得不再重要,重要的是如何寻找到自己想要的信息。信息检索技术的在各行各业都有着广泛的应用,尤其随着全球信息化进程的推进,信息检索覆盖的广度和技术运用的深度都将大大增加。因此信息检索(Information Retrieval: IR)相关的技术的重要性不言而喻。而随着全球经济文化的联系逐渐紧密,人们对于信息检索的范围也不再局限于自己熟悉的语言,对于其他种类的语言的信息的获取的需求也逐渐增加[2],如推特、ins等国际社交平台上汇集了来自世界各个地方的人,这些用户有着直接和其他人交流信息的需求[2]。在学术领域通过一种语言检索其他语言的资料、文献的需求日渐强烈,有许多数据、文献没有翻译后的版本,也不以英文等主流语言的形式存在。而在经济方面,驱动力则更加直接,买卖双方都需要检索查找全球的商品信息,寻找自己需要的产品与服务,因而针对不同语言的跨语言检索(Cross-Language Information Retrieval: CLIR)也逐渐成为了研究热点。

除了需要解决传统IR需要解决的问题之外,CLIR还面临着跨语言问题[3],跨近年来,学者们为了解决这些问题,围绕CLIR进行了大量的研究,根据解决跨语言问题的手段,现有的模型可分为两类[4]:使用翻译手段对查询或文档进行翻译后再进行检索,或是使用语义模型对语义进行统一后再进行检索。前者按翻译对象可以分为三类:对查询进行翻译[5-7]、对文档进行翻译[8-10]、对查询和文档进行翻译[11,12],基于翻译的CLIR是最主要的CLIR技术;而基于语义的CLIR模型目前通常使用跨语言词向量[13,14]、跨语言主题模型[16,17]或是直接训练跨语言模型[18,19]。另外,除了这两类方法,还有一些从检索任务本身出发的对CLIR模型进行增强的研究[20-22]。

CLIR技术方法

CLIR技术首先要解决的是如何将不同语言统一的问题,根据解决这个问题的方法,可以将CLIR技术分为两类[4],一类是基于翻译的,另一类是基于语义的。这两类方法的本质都是对文本进行一定的转换,要么是将其中一种语言映射到另一种语言的空间中,或是同时对两个语言进行转换,将其统一到同一个空间中。本节将会介绍这两类技术的一些最新的进展。由于CLIR任务的本质是一个检索任务,另外还有一些CLIR技术的研究的着力点是检索任务本身,这些改进对于CLIR任务的性能也有一定的增强效果。

基于翻译的CLIR技术

这类技术是借助翻译手段将查询序列或被搜索文本进行翻译后再进行检索。基于翻译的CLIR技术是最主要的CLIR技术,尤其是得益于近年来深度学习和机器翻译技术上的突破,基于翻译的CLIR的检索精度获得了极大的提升。基于翻译的CLIR技术最显著的问题在于,无法解决词的多义性问题,尤其是不同语种间的词的多义性严重的影响了检索结果的准确性,而研究表明,翻译的质量对检索结果有极大的影响[5]。得益于近些年机器翻译领域的突破,基于翻译的CLIR模型已经逐渐转向使用机器翻译,例如He等人仅仅尝试了在IR模型中引入了谷歌翻译[23],就极大的改善了检索的结果。目前,用于CLIR任务的翻译系统的主要有主要分为三类:查询翻译、文档翻译、查询和文档翻译。

查询翻译

查询翻译是指对输入的查询文本进行翻译,将其转换为文档的语种,查询翻译是最主要的翻译的CLIR技术。由于用户输入的查询通常是简短而模糊的,翻译准确度也较低,这对于检索任务是不利的。因而查询翻译需要提高对于查询的翻译效果,例如Elayeb等人构建了一个提取出查询中的实体单词进行辅助翻译的模型[6],这个模型提取出查询中的实体单词,利用外部词典对实体单词进行翻译,再利用翻译后的实体辅助整个查询进行翻译,提高了查询翻译的精度。而Chandra等人建立了一个双向翻译系统来执行查询翻译[7],这个双向翻译将文本翻译之后再反向翻译成原来的语种,通过反向翻译的结果对翻译系统的效果进行评估以改善翻译系统的质量,结果表明,反向翻译对提升了查询翻译的质量,使得CLIR任务的效果有了明显的提升。

文档翻译

由于查询翻译的效果受到了查询输入本身的性质的限制,因而另一类翻译系统是选择对于文档进行翻译,相比简单的查询信息,被查询文档的信息量更大,文本内容也更加连贯,翻译的效果相对较好。例如Yarmohammadi等人提出了一个使用多模态信息进行检索的模型[8],首先将文档通过翻译工具以及文字转语音工具转换成多模态数据,然后通过多模态信息进行检索,取得了较好的成果。Ture, F等人构建出了一个用于CLIR的分层翻译系统[9],将翻译任务分为短语、语法、语义三个级别,最后利用这三个层级的翻译信息执行CLIR任务,相比直接翻译整个句子的平面化的翻译模型,这个立体的翻译模型翻译效果更好,计算效率也更高,同时产生了更好的检索效果。Azarbonyad等人提出了一种通过Learn to ranking技术将多种翻译资源进行结合的方法[10],简单来说,这个模型使用了多个独立的翻译资源,并通过LTR技术结合不同的翻译资源的结果以提高CLIR任务的性能,结果表明,LTR可用于成功地组合不同的翻译资源以提高CLIR性能。

查询和文档翻译

由于翻译资源的限制,两种语言之间的直接翻译并不总是可行的。如果在这种情况下仍然要使用基于翻译的检索,就需要借助第三方语言,通常称其为枢纽语言。这种方法的例子之一是Oard, D等开发的一个借助预定义词表进行双重翻译的模型[11]。由于需要对查询和文档都进行转换,导致这种方案检索的精度相对较低,但在一些特定情况下,这种方法有着其独特的优势[12]。

基于语义的CLIR技术

基于语义的CLIR技术是指通过语义模型,将两种不同的语言在语义上进行统一后再执行IR任务,得益于深度学习和自然语言处理技术的发展,基于语义的CLIR技术近些年获得了较大的发展。目前,基于语义的CLIR技术主要分为三类,基于跨语言词向量、基于主题模型、基于语言模型。

基于跨语言词向量

基于跨语言词向量的CLIR是最主要的基于语义的CLIR技术。词向量基于一个假说,即一个词可以由它的上下文表示,即一个词可以通过词-上下文矩阵表示。而上下文相似的词,其语义也相似[25]。在这种假设下,两个词的语义相似度可以直接转化为两个向量的空间距离。词向量最早由Bengio 等人提出[26],但词向量的正式成型是在2013年,在2013年,由Mikolov提出了著名的word2vec模型 [27],词向量通过对one-hot表示的词进行低维表示,获得了更高的信息密度,提高了的表示性能。词向量有一个重要的假设,不同语言的同义词在各自的向量空间中有着类似的表示[28],而跨语言词向量本质是在一个联合向量空间中对不同的语言进行表示。随着单语词向量在许多NLP任务中的成功应用[32],词向量在跨语言自然语言处理任务中的潜力自然引起了人们的广泛关注[29]。Yu等[13]人,利用跨语言词向量模型,将查询词和文本映射到同一个空间中,再使用KNRM、DRMM等基于词向量的单语言检索模型进行执行检索任务,跨语言词向量在这些模型上表现出了明显的优势,这表明跨语言词向量在不同的语言间进行词义建模的有效性。

和基于翻译的CLIR一样,有监督的跨语言词向量的训练常需要平行/可比语料库,这类数据的资源数量相对较少,尤其是对于一些稀缺的语言,数据集的获取难度和成本较高。为了减少对于这类特殊语料的需求,无监督的跨语言词向量也被运用于CLIR中。例如Litschko仅使用多个单语言语料库,通过GAN进行无监督学习[14],通过GAN诱导两个单语词向量进行对齐,弥合了不同语言间的语义鸿沟,对不同语言的特征进行了有效的约束,最终生成了统一的多语词向量空间,后续的试验表明,这个多语词向量空间能有效的进行跨语言检索任务。

目前基于跨语言词向量的CLIR技术仍然是CLIR的重要组成部分,并将持续发展下去,一方面是因为数据量和算力的提升,使得使用大量的数据训练出更高精度的跨语言词向量成为了可能。另一方面是因为近几年深度模型在跨语言词向量方面的发展大大的增加了跨语言词向量的训练手段。

基于跨语言主题词

另一类基于语义的CLIR模型是基于跨语言主题词进行IR任务。相比使用整段文本进行检索,利用主题词检索有着其独特的优势。主题词可以有效的对文本内容进行概括,主题词对被检索内容是一对多的关系,因而利用主题词进行检索的速度更快,资源消耗更少[15]。目前,主题词检索在文献检索、图书检索等领域有着广泛的应用。早期的主题词检索依赖于人工筛选编制的主题词表的方式,耗时且成本昂贵。目前的绝大部分的跨语言主题词模型都使用模型生成主题词,大部分的工作也集中在如何生成更精确的主题词上。

例如Glavaš提出了一个称为BiLDA的跨语言LDA模型[16],该模型通过双语文本直接学习跨语言主题词,并且仅通过BiLDA生成的跨语言主题词执行CLIR任务就取得了较好的效果。另外,传统的主题模型在跨语言检索领域也有着一定的应用,Huo等人创建了一个结合了多种主题模型的跨语言检索模型[17],模型使用了概率潜在语义分析技术提取文档的主题,还使用了TF-IDF提取文档的关键词,然后基于单词共现提取了词对相关性,再通过词对相关性结合了不同语种的主题词和关键词,生成了跨语言主题词并将其用于CLIR任务。

基于深度语言模型

得益于NLP和深度学习的发展,目前还有一类基于语义的CLIR模型是直接使用深度模型进行语义建模。例如Glavas等人,构建了一个基于BiLSTM语言模型[18],该模型将BiLSTM作为跨语言编码器,同时对两种不同的语言进行编码,然后结合attention机制利用BiLSTM输出的隐藏状态计算出的文本编码向量,在利用编码向量计算出检索序列和被检索文档的相关性得分,最后基于相关性得分完成检索任务。Robert Litschko等提出了一个微调BERT模型的方法[19],并且使用这个微调后的BERT模型构建了一个跨语言模型,从而直接生成两种不同语言的跨语言映射,执行检索任务。相比传统模型,深度模型对信息捕捉的效果更好,尤其是传统模型无法捕捉的更深层次的信息,这些信息使得模型有着更好的泛化性能。

一些其他的CLIR技术

虽然对于CLIR任务来说,解决跨语言问题很重要,但由于CLIR的本质是检索任务,所以也有一些学者从检索任务本身的角度着手对CLIR进行了改良,并且这些尝试也取得了一定的成果。

查询扩展:对于跨语言检索任务,由于用户的知识有限,用户提供的查询信息很可能是不足的,这使得检索的有效性结果受到了一定的影响。Warrier等人尝试在CLIR任务中引入了查询扩展技术[20],通过多语言词典和单语言模型对查询序列进行扩展,一方面增加了查询信息,同时一定程度上实现了用户的个性化查询。

在线学习排名(online learning to rank): CLIR模型返回的结果的噪声较大,排名的精确度不如单语言检索。Rahimi等人在CLIR模型中引入了在线学习排名模型[21],这个模型基于用户交互的结果进行在线学习,相比普通的CLIR模型,这个模型返回的检索的结果的排名的精确度有明显提升,同时向用户提供了个性化检索。

对翻译的排名模型:前已述及,翻译质量对于基于翻译的CLIR模型的质量有相当大的影响,Hieber等创建了一个适用于机器翻译的Ranking模型[22]。这个模型使用了一些成熟的机器翻译模型,根据输入的查询文本和机器翻译模型返回的翻译结果,对翻译结果进行排序,选择出最优的翻译结果后用于检索任务,相比单独使用成熟的机器翻译模型,这个对于翻译结果进行排序的模型展现出了积极的作用。

结论和展望

综上所述,在解决跨语言问题的方面,基于翻译和基于语义的方法表现出了各自的优势,得益于近几年机器翻译技术的突破,基于翻译的CLIR技术是准确度最高的。而随着深度学习的发展,基于语义的CLIR技术也有着巨大的发展潜力。但无论哪种CLIR技术都面临着用户输入的查询短且模糊的问题,查询信息的不足限制了CLIR模型的性能的进一步提升。而多任务学习对多个相关的任务进行共同学习,通过共享参数、模块在任务间共享信息[30,31]。通过在CLIR任务中引入多任务学习,可以利用辅助任务提供的信息对查询进行补充,从而提高检索的精度,因而在CLIR任务中引入多任务学习有其积极意义。

参考文献

[1]. Zwolenski, M., & Weatherill, L. (2014). The digital universe: Rich data and the increasing value of the internet of things. Australian Journal of Telecommunications and the Digital Economy, 2, 47.

[2]. Abusalah, M., Tait, J., & Oakes, M. (2009). Cross language information retrieval using multilingual ontology as translation and query expansion base. Polibits, (40), 13-16.

[3]. Nie, J. Y., Simard, M., Isabelle, P., & Durand, R. (1999, August). Cross-language information retrieval based on parallel texts and automatic mining of parallel texts from the Web. In Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval (pp. 74-81).

[4]. Liu, P., Zheng, Z., & Su, Q. (2018, December). Cross-Language Information Retrieval Based on Multiple Information. In 2018 IEEE/WIC/ACM International Conference on Web Intelligence (WI) (pp. 623-626). IEEE.

[5]. Oard, D. W., He, D., & Wang, J. (2008). User-assisted query translation for interactive cross-language information retrieval. Information Processing & Management, 44(1), 181-211.

[6]. Elayeb, B., Romdhane, W. B., & Saoud, N. B. B. (2018). Towards a new possibilistic query translation tool for cross-language information retrieval. Multimedia Tools and Applications, 77(2), 2423-2465.

[7]. Chandra, G., & Dwivedi, S. K. (2017). Assessing Query Translation Quality Using Back Translation in Hindi-English CLIR. International Journal of Intelligent Systems & Applications, 9(3).

[8]. Yarmohammadi, M., Ma, X., Hisamoto, S., Rahman, M., Wang, Y., Xu, H., … & Duh, K. (2019). Robust Document Representations for Cross-Lingual Information Retrieval in Low-Resource Settings. In Proceedings of Machine Translation Summit XVII Volume 1: Research Track (pp. 12-20).

[9]. Ture, F., & Lin, J. (2013, July). Flat vs. hierarchical phrase-based translation models for cross-language information retrieval. In Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval (pp. 813-816).

[10]. Azarbonyad, H., Shakery, A., & Faili, H. (2019). A learning to rank approach for cross-language information retrieval exploiting multiple translation resources. Natural Language Engineering, 25(3), 363-384.

[11]. Oard, D. W., & Dorr, B. J. (1998). A survey of multilingual text retrieval.

[12]. Sujatha, P., & Dhavachelvan, P. (2011). A review on the cross and multilingual information retrieval. International Journal of Web & Semantic Technology, 2(4), 115.

[13]. Yu, P., & Allan, J. (2020). A Study of Neural Matching Models for Cross-lingual IR. arXiv preprint arXiv:2005.12994.

[14]. Litschko, R., Glavaš, G., Ponzetto, S. P., & Vulić, I. (2018, June). Unsupervised cross-lingual information retrieval using monolingual data only. In The 41st International ACM SIGIR Conference on Research & Development in Information Retrieval (pp. 1253-1256).

[15]. Sun, Y., Zhao, Q., & Yuan, W. (2018). Tibetan-Chinese Cross-language Topic Extraction and Alignment. 2018 International Conference on Big Data and Artificial Intelligence (BDAI), 67-71.

[16]. Vulić, I., De Smet, W., & Moens, M. F. (2013). Cross-language information retrieval models based on latent topic models trained with document-aligned comparable corpora. Information Retrieval, 16(3), 331-368.

[17]. Huo, Z. L., Wu, J. F., Lu, Y., & Li, C. Z. (2018, March). A topic-based cross-language retrieval model with PLSA and TF-IDF. In 2018 IEEE 3rd International Conference on Big Data Analysis (ICBDA) (pp. 340-344). IEEE.

[18]. Glavaš, G., & Vulić, I. (2019, April). Zero-Shot Language Transfer for Cross-Lingual Sentence Retrieval Using Bidirectional Attention Model. In European Conference on Information Retrieval (pp. 523-538). Springer, Cham.

[19]. Jiang, Z., El-Jaroudi, A., Hartmann, W., Karakos, D., & Zhao, L. (2020). Cross-lingual Information Retrieval with BERT. arXiv preprint arXiv:2004.13005.

[20]. Abusalah, M., Tait, J., & Oakes, M. (2009). Cross language information retrieval using multilingual ontology as translation and query expansion base. Polibits, (40), 13-16.

[21]. Rahimi, R., & Shakery, A. (2017). Online Learning to Rank for Cross-Language Information Retrieval. Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval.

[22]. Hieber, F. (2015). Translation-based ranking in cross-language information retrieval (Doctoral dissertation).

[23]. Xiaoning, H., Peidong, W., Haoliang, Q., Muyun, Y., Guohua, L., & Yong, X. (2008). Using Google Translation in Cross-Lingual Information Retrieval. In Proceedings of NTCIR-7 Workshop Meeting (pp. 16-19).

[24]. Chen, G., Chen, C., Xing, Z., & Xu, B. (2016, September). Learning a dual-language vector space for domain-specific cross-lingual question retrieval. In 2016 31st IEEE/ACM International Conference on Automated Software Engineering (ASE) (pp. 744-755). IEEE.

[25]. Harris, Z. S. (1954). Distributional structure. Word, 10(2-3), 146-162.

[26]. Bengio, Y. (2008). Neural net language models. Scholarpedia, 3(1), 3881.

[27]. Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.

[28]. Pennington, J., Socher, R., & Manning, C. D. (2014, October). Glove: Global vectors for word representation. In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP) (pp. 1532-1543).

[29]. Ruder, S., Vulić, I., & Søgaard, A. (2019). A survey of cross-lingual word embedding models. Journal of Artificial Intelligence Research, 65, 569-631.

[30]. Zhang, Y., & Yang, Q. (2017). A survey on multi-task learning. arXiv preprint arXiv:1707.08114.

[31]. Balikas, G., Moura, S., & Amini, M. R. (2017, August). Multitask learning for fine-grained twitter sentiment analysis. In Proceedings of the 40th international ACM SIGIR conference on research and development in information retrieval (pp. 1005-1008).

[32]. 彭晓娅, & 周栋. (2020). 跨语言词向量研究综述. 中文信息学报, 34(2), 1-15.