Spark - FlyML

这一篇文章, 主要讲的是如何优化python client的性能, 不是Cassandra本身的性能优化. Cassandra本身的性能优化, 主要是对DB Schema的设计上面的优化. 那python client 为什么需要优化呢? 正在进行的一个项目就遇到这种情况, 无论如何优化, 性能就是无法提升. 一直维持在2000条/s的水平. 这个时候发现: 1. 只使用了单核cpu 2. 这一颗CPU已经100% 官方其实已经有一些关于性能优化的建议与文章, 但是感觉有的并不实用. 作者根据自己的实际操作的经验,…

2018年03月21日 0条评论 13647点热度 1人点赞阅读全文

之前一直不是非常理解Spark的缓存应该如何使用. 今天在使用的时候, 为了提高性能, 尝试使用了一下Cache, 并收到了明显的效果. 关于Cache的一些理论介绍, 网上已经很多了. 但是貌似也没有一个简单的例子说明. 注: 因为使用的是内部数据文件, 在这边就不公布出来了. 大家看看测试代码跟测试结果即可. 这次测试是在JupyterNotebook这种交互式的环境下测试的. 如果是直接的submit一个job, 可能结果不太一样. 测试步骤初始化Spark. [crayon-6a0a88392f6ba20…

2018年02月07日 0条评论 23191点热度 9人点赞阅读全文

keywords: docker jupyernotebook pyspark PS: 看起来因为代码高亮插件的影响, 自动高亮的代码的格式有点问题... 后面会来解决这个问题目前我们系统的整体架构大概是: Spark Standalone Cluster + NFS FileServer. 自然, 这些都是基于Linux系统. Windows在开发PySpark程序的时候, 大部分情况都没有什么问题. 但是有两种情况就比较蛋疼了: 读取NFS文件 Windows底下, 一旦涉及到NFS的文件路径, 就歇菜了: …

2018年02月06日 0条评论 17306点热度 3人点赞阅读全文

之前项目组之中一位离职的同事给我们搭建的数据平台，用的是Suse。后来因为计算平台需要迁移到Spark之上，我们就需要让Spark能方便的读取到SUSE之中的数据文件。方案1：SUSE NFS Server 因为之前项目组最常用的文件分享协议就是NFS了。我们的FreeNas服务器上面，存储了几十T的数据文件。因此我们首先尝试的是NFS的方法。 Google之后：尝试了以下命令： [code lang=shell] yast2 -i nfs-kernel-server # or zypper ins…

2018年01月16日 0条评论 12030点热度 3人点赞阅读全文

之前尝试使用Spark MLlib 做机器学习，发现不是非常方便，也可能是在使用习惯上面不太适应（相对 python sklearn）. 今天尝试使用Spark MLlib 针对Iris数据做一次实践，之后会尝试写一个包装类，将这些步骤简化。 0. 数据准备：原始的数据以及相应的说明可以到[这里] 下载。我在这基础之上，增加了header信息。下载：https://pan.baidu.com/s/1c2d0hpA 如果是可以直接从NFS或者HDFS之类的文件服务里面读csv，会比较方便，参考下…

2017年01月09日 1条评论 18352点热度 7人点赞阅读全文

虽然知道得晚了点，但是还是通过Databricks的邮件知道，新版的2.1.0已经发布。我才刚刚稍微熟悉2.0.X，现在2.1.0已经冒出来~ 官网blog: https://databricks.com/blog/2016/12/29/introducing-apache-spark-2-1.html 那2.1.0 有哪些改进呢？ Structured Streaming 已经可以Production了 SQL 功能增强 Mllib for R 增强原文链接：http://www.flyml.net/2017…

2017年01月05日 2条评论 31335点热度 2人点赞阅读全文

0. 项目背景：我厂开发了一个App，反应还不错，在app store 上面的好几个区都能拿到工具类的1-3名。但是在运营上面，一直貌似不够精细。楼主尝试使用机器学习的方法找到对我们影响比较大的App. 所谓“影响比较大”，是指：有哪些App会①带来新用户、②留住老用户、③导致流失用户。先说说结果：这是一个比较失败的项目，因为最后算法的运算结果跟瞎猜没有区别。免得各位看到最后太过失望。。。源码可以从百度网盘下载：https://pan.baidu.com/s/1gfjzwsj 数据没法奉献出来，抱歉~ …

2017年01月05日 0条评论 13592点热度 0人点赞阅读全文

我们知道，Cassandra这种NoSQL数据库，天生无法执行join的操作。但是如果你手上刚好有一个Spark集群，那么就方便很多了。我们可以在Spark SQL之中进行join的操作。本文基于Spark 2.x 进行操作。2.0以后，我们不再需要单独的定义JavaSparkContext / SparkConf 等对象，只需直接定义一个SparkSession即可。同时我们可以统一使用Dataset来对数据进行操作，在易用性、性能上面都很不错。下面是链接Spark与Cassandra的相关代码: [cra…

2016年12月09日 0条评论 17296点热度 3人点赞阅读全文

原创声明: 本文为原创文章如需转载需要在文章最开始显示本文原始链接为了更好的阅读体验，请回源站查看文章。有任何修改、订正只会在源站体现最后更新时间：2016年08月28日

2016年08月28日 3条评论 17527点热度 10人点赞阅读全文

原创声明: 本文为原创文章如需转载需要在文章最开始显示本文原始链接为了更好的阅读体验，请回源站查看文章。有任何修改、订正只会在源站体现最后更新时间：2016年08月24日

2016年08月26日 5条评论 26997点热度 0人点赞阅读全文

Python + Cassandra的一些性能优化

一个Spark缓存的使用示例

使用Jupyter Notebook 加速PySpark开发

使用Samba替代NFS

Spark 2.0 机器学习实践：Iris 数据分类

Spark 2.1.0 发布

使用Spark RandomForest找出影响比较大的App

使用Spark SQL进行Cassandra Join (Java)

Cassandra 教程 - 开篇

让Spark如虎添翼的Zeppelin – 分享篇