追求大而全是创业者最常见的误区之一,做多不如做少,做全不如做专,会减法才是真懂产品,这是今天分享给各位的创业心得。 编者按:本文作者曹政,资深 IT 人。技术大牛、数据控、历史控、考证控。曾参与创建一统统计、cnzz 站长统计,曾主持搭建百度商业分析支撑平台。文章首发于其微信公众号“caoz 的梦呓”(微信号:caozsay) 翻知乎的时候,发现有个旧帖,是关于百度贴吧俱乐部和百度空间app相关的讨论,有个人整段引用了我百度空间的旧文,然后,我发现我都忘了写过这样的文章。再然后,我发现我当时的判断居然又是正确的。 …

2017年01月20日 0条评论 5420点热度 0人点赞 阅读全文

原图:http://photo.weibo.com/2687299131/wbphotos/large/mid/4062958860341438/pid/a02cee3bjw1fbndhoa4obj20ckbduu0x

2017年01月12日 0条评论 6072点热度 3人点赞 阅读全文

之前尝试使用Spark MLlib 做机器学习,发现不是非常方便,也可能是在使用习惯上面不太适应(相对 python sklearn). 今天尝试使用Spark MLlib 针对Iris数据做一次实践,之后会尝试写一个包装类,将这些步骤简化。   0. 数据准备: 原始的数据以及相应的说明可以到[这里] 下载。 我在这基础之上,增加了header信息。 下载:https://pan.baidu.com/s/1c2d0hpA 如果是可以直接从NFS或者HDFS之类的文件服务里面读csv,会比较方便, 参考下…

2017年01月09日 1条评论 13444点热度 2人点赞 阅读全文

在之前的文章《使用nodetool 进行监控之初步使用》我们提到,新版本的Cassandra Nodetool 支持了 --format / -F 这个参数,可以将内容输出成json或者yaml格式。那么具体是如何实现的呢? 本篇文章的目的就是尝试来阅读以下具体实现的源码。 从哪里入手? 首先https://issues.apache.org/jira/browse/CASSANDRA-5977 。在这个issue之中,附带了patch的实现。从path之中,可以看到commitor首先修改了TableStats的…

2017年01月06日 0条评论 19702点热度 1人点赞 阅读全文

文章转自:http://www.jianshu.com/p/21ae5a3037d7 这篇文章写的确实很不错啊,从头到尾把开发一个App的所有环节都讲了,而且讲得基本上还比较清楚。 因为手动转载比较麻烦(图片不能跨域浏览),建议直接到原文去看。  

2017年01月05日 0条评论 5961点热度 1人点赞 阅读全文

虽然知道得晚了点,但是还是通过Databricks的邮件知道,新版的2.1.0已经发布。 我才刚刚稍微熟悉2.0.X,现在2.1.0已经冒出来~ 官网blog: https://databricks.com/blog/2016/12/29/introducing-apache-spark-2-1.html 那2.1.0 有哪些改进呢? Structured Streaming 已经可以Production了 SQL 功能增强 Mllib for R 增强 原文链接:http://www.flyml.net/2017…

2017年01月05日 2条评论 19380点热度 2人点赞 阅读全文

0. 项目背景: 我厂开发了一个App,反应还不错,在app store 上面的好几个区都能拿到工具类的1-3名。 但是在运营上面,一直貌似不够精细。楼主尝试使用机器学习的方法找到对我们影响比较大的App. 所谓“影响比较大”,是指:有哪些App会①带来新用户、②留住老用户、③导致流失用户。 先说说结果: 这是一个比较失败的项目, 因为最后算法的运算结果跟瞎猜没有区别。免得各位看到最后太过失望。。。 源码可以从百度网盘下载:https://pan.baidu.com/s/1gfjzwsj 数据没法奉献出来,抱歉~ …

2017年01月05日 0条评论 10344点热度 0人点赞 阅读全文

之前的文章《Cassandra自带工具》提到了nodetool的使用,不过当时讲得并不够深入。这篇文章针对监控方向进行一些更深入的介绍。 同时,如果你正好跟我一样没法切换到Enterprise Edition,用好nodetool成为做好Cassandra监控的第一步。   nodetool status 这个命令在之前的文章已经有所介绍。这个是最常用的命令,可以非常明了的看到整个集群的状态。 当你的集群节点不是非常大的时候,使用这个命令非常方便。   nodetool info 查看当前节点的…

2017年01月04日 1条评论 21942点热度 1人点赞 阅读全文