天下也有免费的午餐 - 带你玩转免安装免配置 还免费的Spark 集群

2016年08月19日 15675点热度 6人点赞 0条评论

Spark summit 2016 正式发布了spark 2.0 + Databricks Spark 云套件($_$)

Spark 2.0 作为一次重大的版本更新,n多的新feature和性能提升自不必说,推荐大家去官网查看,今儿咱们侃点儿别的 <( ̄︶ ̄)> — — Databricks Spark Cloud。

  • 是个啥: 说白了就是Databricks捞钱的,老是开源spark 也不收你钱,大家也要吃饭不是,干脆搞个 spark on cloud,服务懒人或小公司,你既不用搭建集群也不用维护,交点儿钱直接用他们提供的在线集群。当然还有一个作用,推广普及spark ,所以也就有了Community版,即免费版
  • 能干啥: 相当于给你了一个在线spark 集群,即:Spark online(听着怎么这么像网游 (⊙﹏⊙)b),我等尚处spark初级阶段的小白们刚好可以用他们提供的免费版来学习,省去了搭建和维护配置的过程,用来学习或温习Spark API真是完美!

废话不多讲,开始带你飞:

1、 注册

官网直达,进去选择 Try Databricks For Free ,填写信息,注册完毕。

2、 开搞

Tips:登陆时记得要选择社区版,否则默认进商业版,一直让你充值。
Alt textQQ截图20160819220801

登陆之后就是Databricks提供的 控制台界面,一目了然。

  • 创建一个新集群

QQ截图20160819235058Alt text
几秒钟集群即可创建完毕,进入cluster选项卡,可以看到属于你的集群已经跑起来了,而且物理机群常用的Spark UI也一应俱全。

  • 上传要分析的文件

New->Table,即可上传一个自己的文件,这里我们随便上传一个文本文件(上传速度较慢,耐心等待)
QQ截图20160819222700Alt text
上传完成之后,即可看到一个DBFS URL记录下这个URL备用。如果继续点击Preview Table,系统会尝试通过你上传的文件生成一个表,可以自己尝试一下,暂时到拿到这个url即可。

  • 新建一个notebook
    New->Notebook,输入Notebook名字和使用语言,选择刚刚创建好的集群,Create,大功告成!
    新创建的Notebook界面一片空白,上方是常用操作菜单栏,下面是一个默认创建好的cell ,何谓cell?其实可以简单理解为你创作的画布,在这儿你可以写你的spark code,可以写md文档,插入图片,同样还可以绘制图表。
    用一个经典的word count 作为例子:

 

tab自动提示API,结果绘制图表一应俱全,真乃神器(除了现在稳定性欠佳)。学习或分析结束,还可以将你的Notebook分享出来,点击右上角publish,即可生成分享URL,本文在此。点击别人分享的URL,除了查看完整内容,还可以一键Alt textQQ截图20160819231741,将文章import到你的workspace,这样你就可以继续交互式的学习或者分析啦!

3、 更多的学习资源

除了自己上传文件作分析,还可以利用官方提供的Learn Lab来交互式的学习

QQ截图20160819232136Alt text
任意打开一篇Trainning Doc,点击Alt textQQ截图20160819231741,即可将此篇doc Import到你的workspace学习啦!

4 、 参考

https://youtu.be/fn3WeMZZcCk?t=17m19s (油管视频,请自备梯子)
End

RangerWolf

保持饥渴的专注,追求最佳的品质

文章评论