论文标题: From Word Embeddings to Item Recommendation 论文地址: https://arxiv.org/pdf/1601.01356 核心思想 这一篇论文的思想相比起其他的论文来说, 思想非常简单,就是把Item 当成一句话之中的Word。 使用训练Word2Vec模型的方法来训练一个Item2Vec 这种方法我还是比较认同的, 因为需要的数据比较简单, 是实际生产之中的应用场景会多不少. 训练数据 论文之中提到的数据集太老了(2011年), 没找到. 因为论文之中提到的…

2018年03月05日 0条评论 9700点热度 0人点赞 阅读全文

之前一直不是非常理解Spark的缓存应该如何使用. 今天在使用的时候, 为了提高性能, 尝试使用了一下Cache, 并收到了明显的效果. 关于Cache的一些理论介绍, 网上已经很多了. 但是貌似也没有一个简单的例子说明. 注: 因为使用的是内部数据文件, 在这边就不公布出来了. 大家看看测试代码跟测试结果即可. 这次测试是在JupyterNotebook这种交互式的环境下测试的. 如果是直接的submit一个job, 可能结果不太一样. 测试步骤 初始化Spark. [crayon-5f93a742c341546…

2018年02月07日 0条评论 15477点热度 3人点赞 阅读全文

keywords: docker jupyernotebook pyspark PS: 看起来因为代码高亮插件的影响, 自动高亮的代码的格式有点问题... 后面会来解决这个问题 目前我们系统的整体架构大概是: Spark Standalone Cluster + NFS FileServer. 自然, 这些都是基于Linux系统. Windows在开发PySpark程序的时候, 大部分情况都没有什么问题. 但是有两种情况就比较蛋疼了: 读取NFS文件 Windows底下, 一旦涉及到NFS的文件路径, 就歇菜了: …

2018年02月06日 0条评论 11356点热度 3人点赞 阅读全文

坦诚的说, 去年是很忙碌, 但是又不太成功的一年。 个人方面, 1. 在技术上面其实精进很小。 2. 在个人投资方面, 也遭遇滑铁卢。 3. 创业方面, 其实也并没有太明确的前景。 在公司方面, 也并没有太成功的案例。一个还算拿得出手的项目可能就是跟旁边项目组合作的 Mac Virtual Agent. 这其中原因比较多了。 一个是自己的能力不足, 并没有能力把项目做成。 另外一方面, 跨部门背景下的AI落地, 其实还是有很多阻力的。 特别是在忙碌了大半年之后, 发现对方部门自己在外面购买了类似的服务。 (吐槽一下…

2018年02月02日 0条评论 5766点热度 3人点赞 阅读全文

昨天微博上面的爱可可老师转发了一个文章 Google Colab Free GPU Tutorial, 这天下还有免费的GPU可以薅! 这Google真是"业界毒瘤" ... 废话不说, 先撸起再说. Google CoLab 简介 这个就是一个google版本的Jupyter Notebook. 尝试了一下, 很多快捷键都是一样的. 只不过, 它深度集成在Google Drive之中, 数据文件、notebook代码都是放在drive之中。 使用的时候, 首先进入Google Drive, 然后按照下图的方式找到…

2018年01月28日 0条评论 14807点热度 2人点赞 阅读全文

目前很火的芝士超人、百万英雄等等,已经有不少人做了答题辅助。 比如: https://github.com/Skyexu/TopSup https://github.com/rrdssfgcs/wenda-helper 但是个人感觉,他们都缺少了最后一公里: 需要人手工触发。 我们目前做的这个事情,就是尝试把最后一公里简化, 你只需要 调用我们的API 或者基于我们的源码与模型, 在本地搭建一个你自己的API, 之后只需要不停的执行截图并调用API获取结果就可以了。 项目地址:https://github.com/…

2018年01月22日 0条评论 4808点热度 0人点赞 阅读全文

国内pip源列表 本节参考: 让PIP源使用国内镜像 清华:https://pypi.tuna.tsinghua.edu.cn/simple 阿里云:http://mirrors.aliyun.com/pypi/simple/ 中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/ 华中理工大学:http://pypi.hustunique.com/ 山东理工大学:http://pypi.sdutlinux.org/ 豆瓣:http://pypi.douban.com/sim…

2018年01月19日 0条评论 8436点热度 1人点赞 阅读全文

之前项目组之中一位离职的同事给我们搭建的数据平台, 用的是Suse。 后来因为计算平台需要迁移到Spark之上, 我们就需要让Spark能方便的读取到SUSE之中的数据文件。 方案1:SUSE NFS Server 因为之前项目组最常用的文件分享协议就是NFS了。 我们的FreeNas服务器上面, 存储了几十T的数据文件。 因此我们首先尝试的是NFS的方法。 Google之后: 尝试了以下命令: [code lang=shell] yast2 -i nfs-kernel-server # or zypper ins…

2018年01月16日 0条评论 6575点热度 0人点赞 阅读全文

今天全无工作状态, 好在还有兄弟能聊聊天。 可能这几天太失败了, 自己定下的2018年计划, 就没有开一个好头~ 可能这几天家庭太累, 娃娃也不听话~ 可能这几天老婆的身体也不够好, 有一些不对劲的事情~ 可能这几天投资错失了一个极好的机会~ 可能这几天工作上相当不顺利, 前途渺茫的感觉~ 可能,以上都不是, 就是每个月都有那么几天莫名的悲伤。。。 这是一碗毒鸡汤,有谁想来一起喝点? 笑哭。。。 PS: 浮躁的我~

2018年01月08日 0条评论 4226点热度 2人点赞 阅读全文

论文链接: http://aclweb.org/anthology/D17-1312 这一篇论文, 主要想解决的问题是在一个新的领域, 当现有的语料不足够大的时候, 如何充分利用之前已经有的一些语料增强当前领域的词向量模型。 具体算法并不复杂, 不过感觉距离实用还是有一些距离: 首先需要原始语料,而不是原始语料训练出来的模型 因为需要得到一个词在原始语料的概率分布 还需要一个词同时在两个语料之中同时出现。 可是目前的情况是, 我们只有Google / Facebook / Stanford 等发布的大规模训练出来的…

2018年01月08日 0条评论 4461点热度 0人点赞 阅读全文
13456715