引言 最近使用MySQL做一些数据统计比较多。 有时候为了省事直接写出了一个略复杂的SQL查询, 直接获得最后的结果。 但是总是觉得比较慢。 下面做了一个改动,简述如下: * 原来: 纯粹使用SQL查询, 得到最后的结果 * 改进: 使用SQL查询原始数据+Pandas进行数据处理 * 结论: 改进方案的性能提升了300% 原方案: select t2_id, name, col2 from ( select sum(col1) as col1_sum, col2, t2.name, t2_id FROM t1 l…

2019年03月25日 2条评论 18330点热度 5人点赞 阅读全文

前言 LibFFM 在之前的好几界CTR比赛之中都取得了非常不错的成绩。但是在使用上, 最大的问题莫过于其特殊的libffm格式了。下面会覆盖两个问题: * 简述libffm数据格式 * 单机将pandas DataFrame 转成libffm 的实现(已优化) 什么是libffm格式 这部分内容主要参考: https://www.jianshu.com/p/9c2c2421ef2e 假设有下面数据: 其中: User / Movie / Genre 是类别, 可以进行One Hot Encoder Price是连…

2019年02月19日 0条评论 7883点热度 0人点赞 阅读全文