0. 简介
前天(10-14)看到新浪头版之中有一条新闻《政策泼冷水 南京楼市成交量现“断崖式下降”》非常兴奋:我的手里面正好有这样的数据,正好来验证一下新闻的说法是否属实。
数据来源就是南京网上房地产网,相应的爬虫程序在上一篇文章之中已有说明。可以直接到GitHub上来看。
文章来源:http://www.flyml.net/2016/10/16/house-stat-nanjing-policy-impact/
1. 搭建Zeppelin来做数据展示
笔者之前主要使用Zeppelin来做数据分析的相关工作,对于一些需求不那么复杂的使用场景,Zeppelin完全足够啦。
关于如何搭建一个Zeppelin平台以及如何关联MySQL,可以查看之前的文章:《Zeppelin 小试牛刀 – 使用Zeppelin展示MySQL的数据》。 在此就不再啰嗦啦~
如果你还没有爬取相关的历史数据,可以到这里下载我爬的数据:【点击下载】
上面的前期准备工作完成之后,我们就可以实际的开展工作啦~
文章来源:http://www.flyml.net/2016/10/16/house-stat-nanjing-policy-impact/
2. 成交量数据显示
因为我们的数据类似Streaming Data (流式数据),并且官网数据是按天累积,因此我们一个比较粗略的方式就是直接计算每天的max值。 同时,因为输入的时间是时间戳(timestamp),此时可以借用MySQL自带的date函数将时间戳转换成日期。
最后的SQL如下:
1 2 3 4 5 6 |
select Date(update_time), max(deal_unit) as final_deal_unit, max(new_pub_2nd_house_unit) from njhouse_simple_summary group by Date(update_time) |
在Zeppelin里面使用折线图显示,效果如下:
颜色稍微粗一些的是房产的真实交易数据,颜色浅一些的是新公布出来的存量房(二手房)数量。
从上面的图我们可以看到:国庆之后,交易数量不断的上升,但是从10号开始,交易数量就不断不断的往下跌啦。
但是在这个图之中,我们其实还没有加入新政的因素。
文章来源:http://www.flyml.net/2016/10/16/house-stat-nanjing-policy-impact/
3. 增加新政元素
我其实不知道新政首先会在哪里发布,同时会不会在发布之前就有内部消息出来。
数据来源还是上面提到的《南京网上房地产网》,具体页面:http://www.njhouse.com.cn/news/news_more_clx.php?c=2
但是这个不光是政策,还包括新闻~
哎,只能手动的添加一些数据啦。
为了简单起见,笔者很low的用了QQ截图工具,直接在上面的图做出了新政发布的标注。
效果如下:
紫红色标注出来的线条就是新政发布的时间。
- 10-03:房屋交易管理与不动产登记有关事项的告示
- 10-05:市政府办公厅关于进一步加大我市房地产市场调控力度的通知
- 10-08:关于开具购房证明的补充规定
可以看到,
(1) 前两次新政,也不知道是不是算是之前房市的利好,成交量跟存量房的供应量都大幅上涨,
(2)但是8号的新政出来之后,成交量跟存量房的供应量在2天之后都应声下落,特别是成交量的数据,下降幅度确实非常厉害。
所以说这次新闻提到的“断崖式下跌”并没有夸张太多。
文章来源:http://www.flyml.net/2016/10/16/house-stat-nanjing-policy-impact/
4. 各区县的情况
如果您有看过这些政策文件,你可能会记得在《市政府办公厅关于进一步加大我市房地产市场调控力度的通知》里面提到的一句非常重要的话:“进一步加大主城区(不含六合区、溧水区、高淳区)房地产市场调控力度”。 也就是说,这一次的调控,实际上是将主城区的资金、投资客往郊区赶。
那我们也通过数据展示的方式来看看这个政策的力度如何吧。
数据来源页面:http://www.njhouse.com.cn/index.php 需要解析下面的表格:
PS:想全部把数据解析出来还真的也是一个体力活啊 T_T 想做一条数据狗也是很不容易的!
因为我们需要根据第二天的数据来减掉第一天的数据,因此纯SQL我感觉已经有点吃力了。 转而采用Python + Pandas 在zeppelin上面操作。
代码如下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 |
%python import MySQLdb import pandas as pd cfg = { 'db_host':'1.2.3.4', 'db_username': 'xxxx', 'db_pass': 'yyyy', 'db_name': 'flyml_house_stat', } conn = MySQLdb.connect(cfg['db_host'], cfg['db_username'], cfg['db_pass'], cfg['db_name']) conn.set_character_set('utf8') sql = 'SELECT date(update_time) as date , district, value from njhouse_yearly_deal_stat where category = "住宅" and type="商品房" and `column` = "成交(套)" and `district` != "全市" group by DATE(update_time), district' df = pd.read_sql(sql, conn) new_row_list = [] step = 11 for i in range(step, df.shape[0]) : data_dict = {} data_dict['date'] = df.iloc[i-step]['date'] data_dict['district'] = df.iloc[i]['district'] data_dict['sold_value'] = int(df.iloc[i]['value']) - int(df.iloc[i-step]['value']) new_row_list.append(data_dict) df = pd.DataFrame(new_row_list) z.show(df) conn.close() |
不想看代码的直接看结果吧:
数据解读:
- 从10-10开始,主城区的成交量都在下跌,特别是玄武区
- 10-11那一天,溧水的成交量也大幅下跌~ 说明之前溧水也是投资热点!
- 到了10-12, 溧水、六合、高淳、栖霞占据了前4
- 有意思的是10-12这一天,江宁的数据是-8! 是不是说反悔在江宁购买的人比较多?
- 在往后面看, 各个区县的成交量都在大幅萎缩,除了溧水!
5. 展望未来
根据上面的数据展示,以及新发布的政策来看,至少在南京主城区投资房产,风险已经极大的增加。最近反而是溧水去买房的资金比较多。
接下来我们其实还有一些问题需要解答,比如:
- 资金是否跑到其他二线还是已经转战三线城市?
- 目前风口向下的情况,房价是否应声而跌?
非常可惜,目前笔者手上还只有成交量的数据,并且还只爬取了南京。目前掌握的数据并不能支撑上面问题的分析。 笔者还会继续想办法,尝试通过数据来解答这两个问题以及其他房市、资金、经济相关问题
敬请关注FlyML.net ^_^
文章来源:http://www.flyml.net/2016/10/16/house-stat-nanjing-policy-impact/
本文为原创文章,转载需注明出处: www.flyml.net

文章评论