引言 最近使用MySQL做一些数据统计比较多。 有时候为了省事直接写出了一个略复杂的SQL查询, 直接获得最后的结果。 但是总是觉得比较慢。 下面做了一个改动,简述如下: * 原来: 纯粹使用SQL查询, 得到最后的结果 * 改进: 使用SQL查询原始数据+Pandas进行数据处理 * 结论: 改进方案的性能提升了300% 原方案: select t2_id, name, col2 from ( select sum(col1) as col1_sum, col2, t2.name, t2_id FROM t1 l…

2019年03月25日 2条评论 6659点热度 0人点赞 阅读全文

前言 这本书的作者真是一位大神啊, 在命令行里面出神入化的完成了数据科学的常见步骤: 数据抽取、清洗、建模, 等等。 不过从目前我自己的角度来看, 主力开发语言应该还是Python, 但是可以使用命令行的方式加速、优化之前简单的数据预览的过程。 举个例子: 之前在命令行之中, 指挥简单的head -n / tail -n / jq 命令。 但是比如预览一个CSV文件, 如何更清晰的进行展示? 下面总结一下书中提到的并且个人觉得比较实用的一些命令行工具 注意: 在这里仅仅只是提一下相应的一些工具, 具体的详细的使用教…

2019年03月25日 0条评论 2425点热度 0人点赞 阅读全文