引言 最近使用MySQL做一些数据统计比较多。 有时候为了省事直接写出了一个略复杂的SQL查询, 直接获得最后的结果。 但是总是觉得比较慢。 下面做了一个改动,简述如下: * 原来: 纯粹使用SQL查询, 得到最后的结果…
[广告技术]可能是最快的将dataframe 转为libffm的代码了
前言 LibFFM 在之前的好几界CTR比赛之中都取得了非常不错的成绩。但是在使用上, 最大的问题莫过于其特殊的libffm格式了。下面会覆盖两个问题: * 简述libffm数据格式 * 单机将pandas DataFr…
[Docker] Ubuntu 安装docker
前言 Docker安装的文章很多了, 但是我心中最理想的安装方式并没有记录。 或者说记录了但是搜索引擎没有找出来。 在这里多记录一次, 希望能让更多的人看到 首先卸载之前的版本 以前曾经出现过的版本或者名称: * doc…
重新安装MySQL并加入MGR集群
前言 所谓的MGR, 全称: MySQL Group Replication, 是一种MySQL的主从架构。 因为之前的MySQL已经没有办法恢复起来, 实在没办法, 采取的方法是完全删除, 并重新安装、加入MGR 首先…
[论文阅读]Deep Log 初步小结
想解决的问题 一个通用的模型, 希望能适用所有的日志. 比如常见的System Event Log. 尝试从这些大量的日志之中找到异常\不规则的地方 主要架构 分为3个模型: Log Key Anomaly Detect…
[Cassandra教程] 几个针对数据分析好用的功能
引言 翻了一下以前写的Cassandra相关的教程, 发现最开始是2016年写的博客了. 也没想到坚持了这么久. 经过这么长一段时间使用Cassandra作为基础数据承载的基础架构, 有一些实战获得的经验. 总而言之, …
使用docker的方式部署Cassandra节点
使用docker的方式部署Cassandra节点 优点 使用Docker 可以更快速的解决很多环境配置问题: 不需要实现安装java 不需要配置supervisor (使用docker来管理进程) 不需要去配置ulimi…
Python + Cassandra的一些性能优化
这一篇文章, 主要讲的是如何优化python client的性能, 不是Cassandra本身的性能优化. Cassandra本身的性能优化, 主要是对DB Schema的设计上面的优化. 那python client …
一个Spark缓存的使用示例
之前一直不是非常理解Spark的缓存应该如何使用. 今天在使用的时候, 为了提高性能, 尝试使用了一下Cache, 并收到了明显的效果. 关于Cache的一些理论介绍, 网上已经很多了. 但是貌似也没有一个简单的例子说明…
使用Jupyter Notebook 加速PySpark开发
keywords: docker jupyernotebook pyspark PS: 看起来因为代码高亮插件的影响, 自动高亮的代码的格式有点问题… 后面会来解决这个问题 目前我们系统的整体架构大概是: S…