Spark summit 2016 正式发布了spark 2.0 + Databricks Spark 云套件($_$)
Spark 2.0 作为一次重大的版本更新,n多的新feature和性能提升自不必说,推荐大家去官网查看,今儿咱们侃点儿别的 <( ̄︶ ̄)> — — Databricks Spark Cloud。
- 是个啥: 说白了就是Databricks捞钱的,老是开源spark 也不收你钱,大家也要吃饭不是,干脆搞个 spark on cloud,服务懒人或小公司,你既不用搭建集群也不用维护,交点儿钱直接用他们提供的在线集群。当然还有一个作用,推广普及spark ,所以也就有了Community版,即免费版
- 能干啥: 相当于给你了一个在线spark 集群,即:Spark online(听着怎么这么像网游 (⊙﹏⊙)b),我等尚处spark初级阶段的小白们刚好可以用他们提供的免费版来学习,省去了搭建和维护配置的过程,用来学习或温习Spark API真是完美!
废话不多讲,开始带你飞:
1、 注册
官网直达,进去选择 Try Databricks For Free
,填写信息,注册完毕。
2、 开搞
Tips:登陆时记得要选择社区版,否则默认进商业版,一直让你充值。
登陆之后就是Databricks提供的 控制台界面,一目了然。
- 创建一个新集群:
几秒钟集群即可创建完毕,进入cluster选项卡,可以看到属于你的集群已经跑起来了,而且物理机群常用的Spark UI也一应俱全。
- 上传要分析的文件
New->Table
,即可上传一个自己的文件,这里我们随便上传一个文本文件(上传速度较慢,耐心等待)
上传完成之后,即可看到一个DBFS URL
,记录下这个URL备用。如果继续点击Preview Table,系统会尝试通过你上传的文件生成一个表,可以自己尝试一下,暂时到拿到这个url即可。
- 新建一个notebook
New->Notebook
,输入Notebook名字和使用语言,选择刚刚创建好的集群,Create
,大功告成!
新创建的Notebook界面一片空白,上方是常用操作菜单栏,下面是一个默认创建好的cell
,何谓cell
?其实可以简单理解为你创作的画布,在这儿你可以写你的spark code,可以写md文档,插入图片,同样还可以绘制图表。
用一个经典的word count
作为例子:
1 2 3 4 5 6 7 8 9 10 11 12 |
# 第一步:导入刚才上传的文件,Shift+Enter快捷键执行Spark命令,神奇的地方就在这儿,你可以实时看到我们的代码在后台spark集群执行,而且是基于真实而非虚拟的集群,片刻结果即可呈现。 text_file = sc.textFile("/FileStore/tables/iv5buekt1471534031919/export.csv") #第二步:最熟悉的word count counts = text_file.flatMap(lambda line: line.split(" ")) \ .map(lambda word: (word, 1)) \ .reduceByKey(lambda a, b: a + b) #第三部:来看结果吧!!! counts.collect() |
tab自动提示API,结果绘制图表一应俱全,真乃神器(除了现在稳定性欠佳)。学习或分析结束,还可以将你的Notebook分享出来,点击右上角publish,即可生成分享URL,本文在此。点击别人分享的URL,除了查看完整内容,还可以一键,将文章import到你的workspace,这样你就可以继续交互式的学习或者分析啦!
3、 更多的学习资源
除了自己上传文件作分析,还可以利用官方提供的Learn Lab来交互式的学习
任意打开一篇Trainning Doc,点击,即可将此篇doc Import到你的workspace学习啦!
4 、 参考
https://youtu.be/fn3WeMZZcCk?t=17m19s (油管视频,请自备梯子)
End

文章评论