2 月 - 2018

之前一直不是非常理解Spark的缓存应该如何使用. 今天在使用的时候, 为了提高性能, 尝试使用了一下Cache, 并收到了明显的效果. 关于Cache的一些理论介绍, 网上已经很多了. 但是貌似也没有一个简单的例子说明. 注: 因为使用的是内部数据文件, 在这边就不公布出来了. 大家看看测试代码跟测试结果即可. 这次测试是在JupyterNotebook这种交互式的环境下测试的. 如果是直接的submit一个job, 可能结果不太一样. 测试步骤初始化Spark. [crayon-66a4d722384cd17…

2018年02月07日 0条评论 22121点热度 9人点赞阅读全文

keywords: docker jupyernotebook pyspark PS: 看起来因为代码高亮插件的影响, 自动高亮的代码的格式有点问题... 后面会来解决这个问题目前我们系统的整体架构大概是: Spark Standalone Cluster + NFS FileServer. 自然, 这些都是基于Linux系统. Windows在开发PySpark程序的时候, 大部分情况都没有什么问题. 但是有两种情况就比较蛋疼了: 读取NFS文件 Windows底下, 一旦涉及到NFS的文件路径, 就歇菜了: …

2018年02月06日 0条评论 15844点热度 3人点赞阅读全文

坦诚的说，去年是很忙碌，但是又不太成功的一年。个人方面， 1. 在技术上面其实精进很小。 2. 在个人投资方面，也遭遇滑铁卢。 3. 创业方面，其实也并没有太明确的前景。在公司方面，也并没有太成功的案例。一个还算拿得出手的项目可能就是跟旁边项目组合作的 Mac Virtual Agent. 这其中原因比较多了。一个是自己的能力不足，并没有能力把项目做成。另外一方面，跨部门背景下的AI落地，其实还是有很多阻力的。特别是在忙碌了大半年之后，发现对方部门自己在外面购买了类似的服务。（吐槽一下…

2018年02月02日 0条评论 9966点热度 3人点赞阅读全文

一个Spark缓存的使用示例

使用Jupyter Notebook 加速PySpark开发

不服输！！！