Zeppelin - FlyML

引言最近使用MySQL做一些数据统计比较多。有时候为了省事直接写出了一个略复杂的SQL查询，直接获得最后的结果。但是总是觉得比较慢。下面做了一个改动，简述如下： * 原来：纯粹使用SQL查询，得到最后的结果 * 改进：使用SQL查询原始数据+Pandas进行数据处理 * 结论：改进方案的性能提升了300% 原方案： select t2_id, name, col2 from ( select sum(col1) as col1_sum, col2, t2.name, t2_id FROM t1 l…

2019年03月25日 2条评论 23820点热度 5人点赞阅读全文

Zepplin 前段时间发布了0.7.0新版本，在尝鲜的同时，也在尝试将Zeppelin + Cassandra组合起来使用。根据官方文档， Cassandra Interpreter 还是做了不少事情的，说不定比windows版本自带的DevCenter更加好用。但是在使用之前，首先得解决Guava冲突的问题。因为尝试了很多，具体哪一步起作用也不记得了，下面三部最好都做：将$ZEPPELIN_HOME/lib 里面的guava-15.0.jar 替换成guava-16.0.1.jar 如果$ZE…

2017年03月02日 0条评论 13425点热度 1人点赞阅读全文

原创声明: 本文为原创文章如需转载需要在文章最开始显示本文原始链接为了更好的阅读体验，请回源站查看文章。有任何修改、订正只会在源站体现最后更新时间：2016年08月28日

2016年08月28日 3条评论 17637点热度 10人点赞阅读全文

原创声明: 本文为原创文章如需转载需要在文章最开始显示本文原始链接为了更好的阅读体验，请回源站查看文章。有任何修改、订正只会在源站体现最后更新时间：2016年08月24日

2016年08月26日 5条评论 27087点热度 0人点赞阅读全文

原创声明: 本文为原创文章如需转载需要在文章最开始显示本文原始链接为了更好的阅读体验，请回源站查看文章。有任何修改、订正只会在源站体现

2016年08月22日 2条评论 24932点热度 8人点赞阅读全文

0. 简介 Spark 是一个非常好的计算平台，支持多种语言，同时基于内存的计算速度也非常快。整个开源社区也很活跃。但是Spark在易用性上面还是有一些美中不足。对于刚接触的人来说，上手以及环境搭建还是有一些困难。另外，如果希望将结果绘制成图表分享给别人，还需要很长一段路程。目前已经有一些解决方案：【TBD】Jupyter Notebook 使用很广泛，但是看起来主要还是以前ipython-notebook的增强版。目前笔者对其了解不多 Spark 母公司DataBricks提供的DataBricks …

2016年08月19日 8条评论 50572点热度 5人点赞阅读全文

[Pandas]一个Pandas VS MySQL SQL 的性能对比

Zeppelin + Cassandra组合第一步：解决Guava冲突

Cassandra 教程 - 开篇

让Spark如虎添翼的Zeppelin – 分享篇

Zeppelin 小试牛刀 - 使用Zeppelin展示MySQL的数据

让Spark如虎添翼的Zeppelin - 基础篇