之前一直不是非常理解Spark的缓存应该如何使用. 今天在使用的时候, 为了提高性能, 尝试使用了一下Cache, 并收到了明显的效果. 关于Cache的一些理论介绍, 网上已经很多了. 但是貌似也没有一个简单的例子说明. 注: 因为使用的是内部数据文件, 在这边就不公布出来了. 大家看看测试代码跟测试结果即可. 这次测试是在JupyterNotebook这种交互式的环境下测试的. 如果是直接的submit一个job, 可能结果不太一样. 测试步骤 初始化Spark. [crayon-5f7092f60aabc40…

2018年02月07日 0条评论 15301点热度 3人点赞 阅读全文

keywords: docker jupyernotebook pyspark PS: 看起来因为代码高亮插件的影响, 自动高亮的代码的格式有点问题... 后面会来解决这个问题 目前我们系统的整体架构大概是: Spark Standalone Cluster + NFS FileServer. 自然, 这些都是基于Linux系统. Windows在开发PySpark程序的时候, 大部分情况都没有什么问题. 但是有两种情况就比较蛋疼了: 读取NFS文件 Windows底下, 一旦涉及到NFS的文件路径, 就歇菜了: …

2018年02月06日 0条评论 11262点热度 3人点赞 阅读全文

坦诚的说, 去年是很忙碌, 但是又不太成功的一年。 个人方面, 1. 在技术上面其实精进很小。 2. 在个人投资方面, 也遭遇滑铁卢。 3. 创业方面, 其实也并没有太明确的前景。 在公司方面, 也并没有太成功的案例。一个还算拿得出手的项目可能就是跟旁边项目组合作的 Mac Virtual Agent. 这其中原因比较多了。 一个是自己的能力不足, 并没有能力把项目做成。 另外一方面, 跨部门背景下的AI落地, 其实还是有很多阻力的。 特别是在忙碌了大半年之后, 发现对方部门自己在外面购买了类似的服务。 (吐槽一下…

2018年02月02日 0条评论 5662点热度 3人点赞 阅读全文