资料推荐 这里只是学习资料的一个笔记与总结, 更详细、仔细的学习还请各位看官自行看看原始的资料。在此罗列一下参考到的有用的资料。 主要参考资料: Python并行编程 中文版 译者非常的用心, 原著(英文版)的代码译者应该大部分都亲自测试过。 因为原著很多疑似疏漏的地方, 译者都做了特别的标识。在此鄙视一下由张龙翻译并出版成书的版本。 翻译狗屁不通, 上面的代码应该也没跑过。 使用Python进行并发编程-asyncio篇( 一 ) 使用Python进行并发编程-asyncio篇( 二 ) 异步编程讲得还是满详细的…

2019年07月07日 0条评论 8031点热度 1人点赞 阅读全文

引言 最近使用MySQL做一些数据统计比较多。 有时候为了省事直接写出了一个略复杂的SQL查询, 直接获得最后的结果。 但是总是觉得比较慢。 下面做了一个改动,简述如下: * 原来: 纯粹使用SQL查询, 得到最后的结果 * 改进: 使用SQL查询原始数据+Pandas进行数据处理 * 结论: 改进方案的性能提升了300% 原方案: select t2_id, name, col2 from ( select sum(col1) as col1_sum, col2, t2.name, t2_id FROM t1 l…

2019年03月25日 2条评论 19690点热度 5人点赞 阅读全文

前言 这本书的作者真是一位大神啊, 在命令行里面出神入化的完成了数据科学的常见步骤: 数据抽取、清洗、建模, 等等。 不过从目前我自己的角度来看, 主力开发语言应该还是Python, 但是可以使用命令行的方式加速、优化之前简单的数据预览的过程。 举个例子: 之前在命令行之中, 指挥简单的head -n / tail -n / jq 命令。 但是比如预览一个CSV文件, 如何更清晰的进行展示? 下面总结一下书中提到的并且个人觉得比较实用的一些命令行工具 注意: 在这里仅仅只是提一下相应的一些工具, 具体的详细的使用教…

2019年03月25日 0条评论 5601点热度 0人点赞 阅读全文

前天也就是2019年02月26日, 网上冒出一个大新闻“全南京一天成交2596套,创历史新高!!市场即将迎来新一轮上涨” 我的天, 这也太恐怖了吧? 抱着怀疑的态度, 我默默的打开了 南京网上房地产网。 这个网站虽然改版了, 但是数据统计这一块依然是古老的那一套。 最重要的, 看之前的数据很不直观。不过, 好歹能看到真实的成交数据。 2019年02月26日成交统计数据: http://www.njhouse.com.cn/2016/news/tzgg_detail.php?news_id=14569 简单的说: 2…

2019年02月27日 0条评论 5207点热度 0人点赞 阅读全文

前言 笔者主要的后端项目都是使用Flask。 在使用Python写代码的时候, 最喜欢的打印日志方式, 应该就是使用print了吧。 这种方式最简单, 但是也有一些天生无法克服的缺点。 比如: python2 跟 python3 不兼容 只能打印出消息, 相关的附加信息都没有。 在定位问题的时候, 可能缺少关键信息。 特别是在中大型项目里面, 想构建一个稳定的系统, 日志必不可少。 笔者尝试根据自己实践的经验,基于Flask这个框架,讲清楚以下几个问题: 日志在Flask之中的基础使用方法 如何在Flask之中配置…

2018年12月12日 1条评论 41367点热度 28人点赞 阅读全文

前言 所谓的MGR, 全称: MySQL Group Replication, 是一种MySQL的主从架构。 因为之前的MySQL已经没有办法恢复起来, 实在没办法, 采取的方法是完全删除, 并重新安装、加入MGR 首先完整删除之前的MySQL [crayon-67574d76463a5593884019/] 然后安装完整版的MySQL 参考文章Ubuntu 16.04安装MySQL官方最新“非阉割”版 注意: 如果安装的不是完整版的, 在最后安装MGR插件就会遇到绕不过去的坑。 主要步骤: 到 MySQL官方的 …

2018年09月08日 0条评论 8083点热度 2人点赞 阅读全文

一个最简单的折线图 有一个小问题: 不知道为什么, y的值画出来是int类型, 不是float类型 [crayon-67574d76465f4296385350/] 在折线图上面画出阴影背景 (多边形) [crayon-67574d76465f7721059335/] 注意: 貌似在同一个图形之中不支持多个多边形.

2018年08月09日 1条评论 9032点热度 2人点赞 阅读全文

之前项目组之中一位离职的同事给我们搭建的数据平台, 用的是Suse。 后来因为计算平台需要迁移到Spark之上, 我们就需要让Spark能方便的读取到SUSE之中的数据文件。 方案1:SUSE NFS Server 因为之前项目组最常用的文件分享协议就是NFS了。 我们的FreeNas服务器上面, 存储了几十T的数据文件。 因此我们首先尝试的是NFS的方法。 Google之后: 尝试了以下命令: [code lang=shell] yast2 -i nfs-kernel-server # or zypper ins…

2018年01月16日 0条评论 11242点热度 3人点赞 阅读全文

0. 简介 前天(10-14)看到新浪头版之中有一条新闻《政策泼冷水 南京楼市成交量现“断崖式下降”》非常兴奋:我的手里面正好有这样的数据,正好来验证一下新闻的说法是否属实。 数据来源就是南京网上房地产网,相应的爬虫程序在上一篇文章之中已有说明。可以直接到GitHub上来看。 文章来源:http://www.flyml.net/2016/10/16/house-stat-nanjing-policy-impact/ 1. 搭建Zeppelin来做数据展示 笔者之前主要使用Zeppelin来做数据分析的相关工作,对于…

2016年10月16日 0条评论 13181点热度 1人点赞 阅读全文

笔者生活、工作在南京,因此首先想到如何抓取南京相关的数据。 1. 数据来源 百度搜索“南京房产交易数据”,发现查询结果还不错,第一条就是我们想要: 数据地址:http://www.njhouse.com.cn/index_tongji.php 经过不断的尝试,发现这个网站虽然看起来技术不咋地,但是数据还算是靠谱。 看起来下面这些数据值得我们去解释: (1) 准实时交易统计数据   另外我们还可以从其他页面解析出其他的数据。比如: (2)南京各个区的住宅类销售数据: 网页地址:http://www.njho…

2016年10月15日 0条评论 37192点热度 0人点赞 阅读全文
12