Spark - FlyML

keywords: docker jupyernotebook pyspark PS: 看起来因为代码高亮插件的影响, 自动高亮的代码的格式有点问题... 后面会来解决这个问题目前我们系统的整体架构大概是: Spark Standalone Cluster + NFS FileServer. 自然, 这些都是基于Linux系统. Windows在开发PySpark程序的时候, 大部分情况都没有什么问题. 但是有两种情况就比较蛋疼了: 读取NFS文件 Windows底下, 一旦涉及到NFS的文件路径, 就歇菜了: …

2018年02月06日 0条评论 17382点热度 3人点赞阅读全文

之前项目组之中一位离职的同事给我们搭建的数据平台，用的是Suse。后来因为计算平台需要迁移到Spark之上，我们就需要让Spark能方便的读取到SUSE之中的数据文件。方案1：SUSE NFS Server 因为之前项目组最常用的文件分享协议就是NFS了。我们的FreeNas服务器上面，存储了几十T的数据文件。因此我们首先尝试的是NFS的方法。 Google之后：尝试了以下命令： [code lang=shell] yast2 -i nfs-kernel-server # or zypper ins…

2018年01月16日 0条评论 12076点热度 3人点赞阅读全文

之前尝试使用Spark MLlib 做机器学习，发现不是非常方便，也可能是在使用习惯上面不太适应（相对 python sklearn）. 今天尝试使用Spark MLlib 针对Iris数据做一次实践，之后会尝试写一个包装类，将这些步骤简化。 0. 数据准备：原始的数据以及相应的说明可以到[这里] 下载。我在这基础之上，增加了header信息。下载：https://pan.baidu.com/s/1c2d0hpA 如果是可以直接从NFS或者HDFS之类的文件服务里面读csv，会比较方便，参考下…

2017年01月09日 1条评论 18396点热度 7人点赞阅读全文

我们知道，Cassandra这种NoSQL数据库，天生无法执行join的操作。但是如果你手上刚好有一个Spark集群，那么就方便很多了。我们可以在Spark SQL之中进行join的操作。本文基于Spark 2.x 进行操作。2.0以后，我们不再需要单独的定义JavaSparkContext / SparkConf 等对象，只需直接定义一个SparkSession即可。同时我们可以统一使用Dataset来对数据进行操作，在易用性、性能上面都很不错。下面是链接Spark与Cassandra的相关代码: [cra…

2016年12月09日 0条评论 17344点热度 3人点赞阅读全文

原创声明: 本文为原创文章如需转载需要在文章最开始显示本文原始链接为了更好的阅读体验，请回源站查看文章。有任何修改、订正只会在源站体现最后更新时间：2016年08月28日

2016年08月28日 3条评论 17583点热度 10人点赞阅读全文

原创声明: 本文为原创文章如需转载需要在文章最开始显示本文原始链接为了更好的阅读体验，请回源站查看文章。有任何修改、订正只会在源站体现最后更新时间：2016年08月24日

2016年08月26日 5条评论 27047点热度 0人点赞阅读全文

Spark 在大数据的发展应该是最活跃的一个开源框架了。博主整理了一些Spark Summit 2016的资源，希望对大家有用：主页： https://spark-summit.org/2016/ 主办方还提供了可在线观看但需要穿墙的录像视频。具体可以到这里查看全部的资源博主会将学习这些视频的笔记放出，以供大家学习、参考

2016年08月13日 0条评论 9308点热度 0人点赞阅读全文

使用Jupyter Notebook 加速PySpark开发

使用Samba替代NFS

Spark 2.0 机器学习实践：Iris 数据分类

使用Spark SQL进行Cassandra Join (Java)

Cassandra 教程 - 开篇

让Spark如虎添翼的Zeppelin – 分享篇

Spark Summit 2016