目前的NLP任务中,我们对于词汇表的处理通常是直接按词频截断,但这种方法并不一定科学,理论上,词的重要程度应该是遵循某种分布的(自然界的东西大都遵循某种分布),使用变分估计可以估计出样本的分布。本文提出了一个称为变分dropout的方法,使用变分法估计词的重要性分布,并选择性的划分词表,结果表明,相比直接对词表按阈值划分,这种划分方法效果更好。
(这篇论文阅读于2020年5月,GCN的几个方向被否后,导师让我自己找别的方向,因为疫情的原因并没有开学,所以只能在家自己摸索一下,我看了一下倒腾了一下这篇论文。本论文发表于ACL 2019)