本文主要内容参考Spark Summit 2016 & 2015 的油管视频 如果您能直接听懂英语,建议直接观看视频。 视频连接已经添加到文末 如果您无法穿墙,也可以下载Slides: 链接: https://pan.baidu.com/s/1kVllFgj 密码: k4uf 原文作者:Holden Karau 请用She/Her来称呼Ta 请不要小看此人,此人已经出了不少Spark的书啦! 为什么pyspark会慢? 参考上面的图,可以看到, Driver: 需要将对象、内容序列化传递给j…
本文主要内容参考Spark Summit 2016 & 2015 的油管视频 如果您能直接听懂英语,建议直接观看视频。 视频连接已经添加到文末 如果您无法穿墙,也可以下载Slides: 链接: https://pan.baidu.com/s/1kVllFgj 密码: k4uf 原文作者:Holden Karau 请用She/Her来称呼Ta 请不要小看此人,此人已经出了不少Spark的书啦! 为什么pyspark会慢? 参考上面的图,可以看到, Driver: 需要将对象、内容序列化传递给j…
原文链接: https://imququ.com/post/first-half-of-2016-blog-analytics.html 简单介绍说一下内容,这是一个坚持了8个年头的独立博客,目前流量在2000~5000 IP 不算非常多,但是也难能可贵。 况且还没有任何广告存在。 算是给我的那不安的心一些心灵鸡汤,让我能够继续坚持下去~ 要知道,现在各种专门抓取文章的聚合网站,更容易跑到搜索引擎的排名前头。比如什么tuicool、outofmemory、techhug 等网站,他们没有任何原创的文章,都是各种爬虫…
http://zhihu.com/question/34874564/answer/60828531
当我们学习一门新的语言,HelloWorld通常是我们写的第一个程序。 而WordCount基本上是我们学习MapReduce思想与编程的第一个程序,无论是Hadoop的MR或者是Spark的RDD操作学习 WordCount作为Spark的入门任务,可以很简单,也可以做到比较复杂。 本文从实现功能的角度提出了3种实现方式,至于性能影响,会在后文继续讨论。 注意: 本文使用的Spark版本还是1.6.1.如果读者您已经切换到2.0+版本,请参考GitHub spark的官方例子进行学习。 因为2.0版本的API与1…
Spark的RDD一直不是非常好理解,但是不理解RDD就没法深入理解Spark 下面是官网的官方解释: Spark revolves around the concept of a resilient distributed dataset (RDD), which is a fault-tolerant collection of elements that can be operated on in parallel. There are two ways to create RDDs: parallelizi…
引言: 已奔三,创建自己的品牌、提升个人影响力的变得更重要了。 但是一直没有很好的思路。创建这个博客也算是方法之一。下面转载的这一篇文章,个人觉得还是有一些参考价值的。 原文地址:http://www.jianshu.com/p/abef6f00db90 推荐到原文阅读,体验更佳!
最近在做ChatBot,看了一些很惊艳的论文,比如: A Neural Conversational Model (v3) 根据论文描述,Chatbot甚至能给人debug为什么不能上网之类的技术问题。 OMG! 摘录一些对话: Machine: hi Human: hi Machine: could you please let me know what is the operating system you are using? Human: linux Machine: ok this is the issu…