之前一直不是非常理解Spark的缓存应该如何使用. 今天在使用的时候, 为了提高性能, 尝试使用了一下Cache, 并收到了明显的效果. 关于Cache的一些理论介绍, 网上已经很多了. 但是貌似也没有一个简单的例子说明. 注: 因为使用的是内部数据文件, 在这边就不公布出来了. 大家看看测试代码跟测试结果即可. 这次测试是在JupyterNotebook这种交互式的环境下测试的. 如果是直接的submit一个job, 可能结果不太一样. 测试步骤 初始化Spark. [crayon-66df98497972692…