rangerwolf - FlyML - 第 14 页

原文是知乎的一个热门问题，博主看了大部分的回答，即使很长也基本上看完了。里面有很多很精彩的回答。推荐！原文链接： https://www.zhihu.com/question/31116099 我就说说我自己的看法：如果可以选择的话，请到大公司的小团队理由如下：大公司保证了你的简历的镀金程度以及教会你做事情的标准做法比如如何与不同的部门/团队之间的沟（che）通（dan）看一下大公司的工程经验体验一下大公司才有的数据量级别如果你是刚毕业的学生，强烈推荐到大公司以后换小公司，可以用平台换级别，从大公…

2016年08月17日 0条评论 7738点热度 1人点赞阅读全文

本文主要内容参考Spark Summit 2016 & 2015 的油管视频如果您能直接听懂英语，建议直接观看视频。视频连接已经添加到文末如果您无法穿墙，也可以下载Slides：链接: https://pan.baidu.com/s/1kVllFgj 密码: k4uf 原文作者：Holden Karau 请用She/Her来称呼Ta 请不要小看此人，此人已经出了不少Spark的书啦！为什么pyspark会慢？参考上面的图，可以看到， Driver：需要将对象、内容序列化传递给j…

2016年08月17日 0条评论 24381点热度 5人点赞阅读全文

原文链接： https://imququ.com/post/first-half-of-2016-blog-analytics.html 简单介绍说一下内容，这是一个坚持了8个年头的独立博客，目前流量在2000~5000 IP 不算非常多，但是也难能可贵。况且还没有任何广告存在。算是给我的那不安的心一些心灵鸡汤，让我能够继续坚持下去~ 要知道，现在各种专门抓取文章的聚合网站，更容易跑到搜索引擎的排名前头。比如什么tuicool、outofmemory、techhug 等网站，他们没有任何原创的文章，都是各种爬虫…

2016年08月17日 0条评论 13928点热度 0人点赞阅读全文

http://zhihu.com/question/34874564/answer/60828531

2016年08月16日 0条评论 15273点热度 0人点赞阅读全文

当我们学习一门新的语言，HelloWorld通常是我们写的第一个程序。而WordCount基本上是我们学习MapReduce思想与编程的第一个程序，无论是Hadoop的MR或者是Spark的RDD操作学习 WordCount作为Spark的入门任务，可以很简单，也可以做到比较复杂。本文从实现功能的角度提出了3种实现方式，至于性能影响，会在后文继续讨论。注意：本文使用的Spark版本还是1.6.1.如果读者您已经切换到2.0+版本，请参考GitHub spark的官方例子进行学习。因为2.0版本的API与1…

2016年08月16日 4条评论 19276点热度 3人点赞阅读全文

Spark的RDD一直不是非常好理解，但是不理解RDD就没法深入理解Spark 下面是官网的官方解释： Spark revolves around the concept of a resilient distributed dataset (RDD), which is a fault-tolerant collection of elements that can be operated on in parallel. There are two ways to create RDDs: parallelizi…

2016年08月15日 0条评论 10355点热度 1人点赞阅读全文

引言：已奔三，创建自己的品牌、提升个人影响力的变得更重要了。但是一直没有很好的思路。创建这个博客也算是方法之一。下面转载的这一篇文章，个人觉得还是有一些参考价值的。原文地址：http://www.jianshu.com/p/abef6f00db90 推荐到原文阅读，体验更佳！

2016年08月14日 0条评论 14105点热度 0人点赞阅读全文

最近在做ChatBot，看了一些很惊艳的论文，比如： A Neural Conversational Model (v3) 根据论文描述，Chatbot甚至能给人debug为什么不能上网之类的技术问题。 OMG! 摘录一些对话： Machine: hi Human: hi Machine: could you please let me know what is the operating system you are using? Human: linux Machine: ok this is the issu…

2016年08月14日 0条评论 15776点热度 0人点赞阅读全文

1…10 11 12 1314

我是如何看待大公司与小公司的选择的？

Spark性能篇：提高pyspark的性能

分享一篇对独立博客的鸡汤文

知乎：怎样用python爬新浪微博大V所有数据？

Spark入门：实现WordCount的3种方式

Spark入门： RDD的顾名思义

[转载]程序员如何提高影响力：手把手教你塑造个人品牌

分享一个基于RNN/LSTM的ChatBot代码