前言 LibFFM 在之前的好几界CTR比赛之中都取得了非常不错的成绩。但是在使用上, 最大的问题莫过于其特殊的libffm格式了。下面会覆盖两个问题: * 简述libffm数据格式 * 单机将pandas DataFrame 转成libffm 的实现(已优化) 什么是libffm格式 这部分内容主要参考: https://www.jianshu.com/p/9c2c2421ef2e 假设有下面数据: 其中: User / Movie / Genre 是类别, 可以进行One Hot Encoder Price是连…

2019年02月19日 0条评论 8001点热度 0人点赞 阅读全文

作为萌新, 感觉这次读的论文在业界影响力还蛮大的样子。 Google显示引用数200+, 同时还有一些大神已经做了翻译。 太感谢他们了! 原文Paper: PDF: Practical Lessons from Predicting Clicks on Ads at Facebook 翻译文章: https://note.youdao.com/ynoteshare1/index.html?id=866cda0a11142307c27b6c072a79d3eb&type=note#/ 自我总结的要点: Fea…

2019年02月05日 0条评论 8062点热度 4人点赞 阅读全文

一直做智能客服这么久, 也测试过很多其他家的智能客服。 比如阿里小蜜,小i机器人,微软小冰等等。 不过那都是抱着试试看的角度, 有时候也想不起以前自己的实际使用场景, 并没有尝试真正需要解决问题。 这次正巧, 在招行上面找在线客服的时候, 就无意中体验了一把智能客服, 而且感觉效果还不错。 几个觉得做得不错的地方: 首先我也担心是不是有客服在线, 就问了是否有人, 秒回一个“嗯嗯, 在呢”。 感觉像真人一样, 其次, 当我正在输入问题的时候, 因为输入有一些时间, 他等了一会就自动蹦出一个: 您好,请详细说明您的问…

2018年09月05日 0条评论 5672点热度 0人点赞 阅读全文

本次命题: 数值预测 上一篇文章我们的小题目是使用LSTM预测字符顺序的下一个字符。 命题虽然简单, 可是实际上应用范围也很广。 比如输入法里面, 就一定会用到相关的技术。 只不过不一定是LSTM, 肯定也不止一维特征。这次这个命题相对来说, 比较实际一些:从历史预测监控数据预测即将来临的监控指标的数值。 比如下图就是本站在友盟上面的监控数据。 最右边的虚线部分就是友盟进行的预测的数值: 本文代码特别鸣谢:https://blog.csdn.net/aliceyangxi1987/article/details/7…

2018年08月13日 1条评论 10475点热度 0人点赞 阅读全文

LSTM 应该是这段时间应用非常广泛也非常火的一个算法了。关于其理论基础, 已经有非常好的文章了。 在这里, 笔者记录一下自己从一些实际例子来学习LSTM的路程。 不太监的话, 应该会有好几篇文章。 这是第一篇, 主要目的: 从一个简单的例子来看看LSTM是如何预测下一个输出的。 从这个简单的例子, 体会一下什么是Seg2Seg。 大概看看, 如何使用Keras来训练一个LSTM的模型。 主要参考文章: 在keras 上实践,通过keras例子来理解lstm循环神经网络 Understanding Stateful…

2018年08月12日 0条评论 10405点热度 2人点赞 阅读全文

前言: 之前曾经有一篇文章, 详细讲述了如何一步步手动的安装配置环境. 包括: 驱动程序 driver cuda cudnn nividia-docker 但是现在安装相比之前已经简化了非常非常多了. 现在前面3个事情, 一个apt命令就可以搞定. 废话不多说, 开始进入正文. 删除\卸载以前跟NVIDIA相关的东西 [crayon-66dfa25113a8d214760726/] 这个会卸载包括驱动以及nvidia-docker命令 安装显卡相关的驱动 写这一篇文章的时候, 当前大版本是390. 相应的命令如下:…

2018年08月10日 0条评论 7784点热度 0人点赞 阅读全文

想解决的问题 一个通用的模型, 希望能适用所有的日志. 比如常见的System Event Log. 尝试从这些大量的日志之中找到异常\不规则的地方 主要架构 分为3个模型: Log Key Anomaly Detection model 主要是根据生成的Log Key, 使用LSTM进行判断下一个Log Key是否是异常信息. 主要是使用了NLP的思想. 个人感觉这一块是DeepLog最有启发的一个模型. Workflows 主要是能识别出并行的日志. 但是具体怎么用, 没有(在Youtube视频上面)详细说明 …

2018年08月06日 2条评论 26928点热度 9人点赞 阅读全文

论文标题: From Word Embeddings to Item Recommendation 论文地址: https://arxiv.org/pdf/1601.01356 核心思想 这一篇论文的思想相比起其他的论文来说, 思想非常简单,就是把Item 当成一句话之中的Word。 使用训练Word2Vec模型的方法来训练一个Item2Vec 这种方法我还是比较认同的, 因为需要的数据比较简单, 是实际生产之中的应用场景会多不少. 训练数据 论文之中提到的数据集太老了(2011年), 没找到. 因为论文之中提到的…

2018年03月05日 0条评论 13272点热度 0人点赞 阅读全文

keywords: docker jupyernotebook pyspark PS: 看起来因为代码高亮插件的影响, 自动高亮的代码的格式有点问题... 后面会来解决这个问题 目前我们系统的整体架构大概是: Spark Standalone Cluster + NFS FileServer. 自然, 这些都是基于Linux系统. Windows在开发PySpark程序的时候, 大部分情况都没有什么问题. 但是有两种情况就比较蛋疼了: 读取NFS文件 Windows底下, 一旦涉及到NFS的文件路径, 就歇菜了: …

2018年02月06日 0条评论 15894点热度 3人点赞 阅读全文

昨天微博上面的爱可可老师转发了一个文章 Google Colab Free GPU Tutorial, 这天下还有免费的GPU可以薅! 这Google真是"业界毒瘤" ... 废话不说, 先撸起再说. Google CoLab 简介 这个就是一个google版本的Jupyter Notebook. 尝试了一下, 很多快捷键都是一样的. 只不过, 它深度集成在Google Drive之中, 数据文件、notebook代码都是放在drive之中。 使用的时候, 首先进入Google Drive, 然后按照下图的方式找到…

2018年01月28日 0条评论 18210点热度 2人点赞 阅读全文