论文链接: http://aclweb.org/anthology/D17-1312
这一篇论文, 主要想解决的问题是在一个新的领域, 当现有的语料不足够大的时候, 如何充分利用之前已经有的一些语料增强当前领域的词向量模型。
具体算法并不复杂, 不过感觉距离实用还是有一些距离:
- 首先需要原始语料,而不是原始语料训练出来的模型
因为需要得到一个词在原始语料的概率分布 - 还需要一个词同时在两个语料之中同时出现。
可是目前的情况是, 我们只有Google / Facebook / Stanford 等发布的大规模训练出来的结果, 并没有原始语料。离我们最理想的情况还是有一些距离~
希望在2018年能有学者对这个问题有更好的解决方案。
期待!
2018年1月8日
本文原创, 转载需注明原文地址:
https://www.flyml.net/2018/01/08/readnotes-2018-01-08/
文章评论