作为萌新, 感觉这次读的论文在业界影响力还蛮大的样子。 Google显示引用数200+, 同时还有一些大神已经做了翻译。 太感谢他们了! 原文Paper: PDF: Practical Lessons from Predicting Clicks on Ads at Facebook 翻译文章: https://note.youdao.com/ynoteshare1/index.html?id=866cda0a11142307c27b6c072a79d3eb&type=note#/ 自我总结的要点: Fea…

2019年02月05日 0条评论 3836点热度 3人点赞 阅读全文

想解决的问题 一个通用的模型, 希望能适用所有的日志. 比如常见的System Event Log. 尝试从这些大量的日志之中找到异常\不规则的地方 主要架构 分为3个模型: Log Key Anomaly Detection model 主要是根据生成的Log Key, 使用LSTM进行判断下一个Log Key是否是异常信息. 主要是使用了NLP的思想. 个人感觉这一块是DeepLog最有启发的一个模型. Workflows 主要是能识别出并行的日志. 但是具体怎么用, 没有(在Youtube视频上面)详细说明 …

2018年08月06日 2条评论 9339点热度 1人点赞 阅读全文

论文标题: From Word Embeddings to Item Recommendation 论文地址: https://arxiv.org/pdf/1601.01356 核心思想 这一篇论文的思想相比起其他的论文来说, 思想非常简单,就是把Item 当成一句话之中的Word。 使用训练Word2Vec模型的方法来训练一个Item2Vec 这种方法我还是比较认同的, 因为需要的数据比较简单, 是实际生产之中的应用场景会多不少. 训练数据 论文之中提到的数据集太老了(2011年), 没找到. 因为论文之中提到的…

2018年03月05日 0条评论 8890点热度 0人点赞 阅读全文

论文链接: http://aclweb.org/anthology/D17-1312 这一篇论文, 主要想解决的问题是在一个新的领域, 当现有的语料不足够大的时候, 如何充分利用之前已经有的一些语料增强当前领域的词向量模型。 具体算法并不复杂, 不过感觉距离实用还是有一些距离: 首先需要原始语料,而不是原始语料训练出来的模型 因为需要得到一个词在原始语料的概率分布 还需要一个词同时在两个语料之中同时出现。 可是目前的情况是, 我们只有Google / Facebook / Stanford 等发布的大规模训练出来的…

2018年01月08日 0条评论 4173点热度 0人点赞 阅读全文