[ReadNotes]A Simple Regularization-based Algorithm for Learning Cross-Domain Word Embeddings

论文链接: http://aclweb.org/anthology/D17-1312

这一篇论文, 主要想解决的问题是在一个新的领域, 当现有的语料不足够大的时候, 如何充分利用之前已经有的一些语料增强当前领域的词向量模型。

具体算法并不复杂, 不过感觉距离实用还是有一些距离:

  • 首先需要原始语料,而不是原始语料训练出来的模型
    因为需要得到一个词在原始语料的概率分布
  • 还需要一个词同时在两个语料之中同时出现

可是目前的情况是, 我们只有Google / Facebook / Stanford 等发布的大规模训练出来的结果, 并没有原始语料。离我们最理想的情况还是有一些距离~

希望在2018年能有学者对这个问题有更好的解决方案。

期待!

2018年1月8日

本文原创, 转载需注明原文地址:
https://www.flyml.net/2018/01/08/readnotes-2018-01-08/

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注