原创声明: 本文为原创文章 如需转载需要在文章最开始显示本文原始链接 为了更好的阅读体验,请回源站查看文章。有任何修改、订正只会在源站体现 最后更新时间:2016年08月24日

2016年08月24日 3条评论 26213点热度 0人点赞 阅读全文

原创声明: 本文为原创文章 如需转载需要在文章最开始显示本文原始链接 为了更好的阅读体验,请回源站查看文章。有任何修改、订正只会在源站体现  

2016年08月22日 2条评论 23558点热度 8人点赞 阅读全文

Spark summit 2016 正式发布了spark 2.0 + Databricks Spark 云套件($_$) Spark 2.0 作为一次重大的版本更新,n多的新feature和性能提升自不必说,推荐大家去官网查看,今儿咱们侃点儿别的 <( ̄︶ ̄)> — — Databricks Spark Cloud。 是个啥: 说白了就是Databricks捞钱的,老是开源spark 也不收你钱,大家也要吃饭不是,干脆搞个 spark on cloud,服务懒人或小公司,你既不用搭建集群也不用维护,交点…

2016年08月19日 0条评论 16006点热度 6人点赞 阅读全文

0. 简介 Spark 是一个非常好的计算平台,支持多种语言,同时基于内存的计算速度也非常快。整个开源社区也很活跃。 但是Spark在易用性上面还是有一些美中不足。 对于刚接触的人来说,上手以及环境搭建还是有一些困难。 另外,如果希望将结果绘制成图表分享给别人,还需要很长一段路程。 目前已经有一些解决方案: 【TBD】Jupyter Notebook 使用很广泛,但是看起来主要还是以前ipython-notebook的增强版。 目前笔者对其了解不多 Spark 母公司DataBricks提供的DataBricks …

2016年08月19日 8条评论 45390点热度 5人点赞 阅读全文

在学习Spark的时候,当然可以搞一个单机的Spark集群。 在写代码的时候,自然没有什么太大的问题了。但是是不是总有一种意犹未尽、隔靴骚扰的感觉? 如果你的答案是否,好吧,你可以关闭此页了。   首先,有一个新人经常遇到的问题: Spark集群是否一定需要Hadoop集群呢? 答案是否。 Spark的集群一共分3种: Standalone Hadoop-Yarn Mesos 今天我们主要涉及的就是Standalone这种模式。在这种模式之下,我们完全可以使用NFS来代替Hadoop / HDFS. 并且…

2016年08月18日 0条评论 10971点热度 2人点赞 阅读全文

本文主要内容参考Spark Summit 2016 & 2015 的油管视频 如果您能直接听懂英语,建议直接观看视频。 视频连接已经添加到文末 如果您无法穿墙,也可以下载Slides: 链接: https://pan.baidu.com/s/1kVllFgj 密码: k4uf 原文作者:Holden Karau  请用She/Her来称呼Ta 请不要小看此人,此人已经出了不少Spark的书啦!   为什么pyspark会慢? 参考上面的图,可以看到, Driver: 需要将对象、内容序列化传递给j…

2016年08月17日 0条评论 22767点热度 5人点赞 阅读全文

当我们学习一门新的语言,HelloWorld通常是我们写的第一个程序。 而WordCount基本上是我们学习MapReduce思想与编程的第一个程序,无论是Hadoop的MR或者是Spark的RDD操作学习 WordCount作为Spark的入门任务,可以很简单,也可以做到比较复杂。 本文从实现功能的角度提出了3种实现方式,至于性能影响,会在后文继续讨论。 注意: 本文使用的Spark版本还是1.6.1.如果读者您已经切换到2.0+版本,请参考GitHub spark的官方例子进行学习。 因为2.0版本的API与1…

2016年08月16日 4条评论 17360点热度 3人点赞 阅读全文

Spark的RDD一直不是非常好理解,但是不理解RDD就没法深入理解Spark 下面是官网的官方解释: Spark revolves around the concept of a resilient distributed dataset (RDD), which is a fault-tolerant collection of elements that can be operated on in parallel. There are two ways to create RDDs: parallelizi…

2016年08月15日 0条评论 8883点热度 1人点赞 阅读全文

Spark 在大数据的发展应该是最活跃的一个开源框架了。 博主整理了一些Spark Summit 2016的资源,希望对大家有用: 主页: https://spark-summit.org/2016/ 主办方还提供了可在线观看但需要穿墙的录像视频。 具体可以到这里查看全部的资源 博主会将学习这些视频的笔记放出,以供大家学习、参考

2016年08月13日 0条评论 7274点热度 0人点赞 阅读全文
12