大数据 - FlyML

引言最近使用MySQL做一些数据统计比较多。有时候为了省事直接写出了一个略复杂的SQL查询，直接获得最后的结果。但是总是觉得比较慢。下面做了一个改动，简述如下： * 原来：纯粹使用SQL查询，得到最后的结果 * 改进：使用SQL查询原始数据+Pandas进行数据处理 * 结论：改进方案的性能提升了300% 原方案： select t2_id, name, col2 from ( select sum(col1) as col1_sum, col2, t2.name, t2_id FROM t1 l…

2019年03月25日 2条评论 23802点热度 5人点赞阅读全文

前言 LibFFM 在之前的好几界CTR比赛之中都取得了非常不错的成绩。但是在使用上，最大的问题莫过于其特殊的libffm格式了。下面会覆盖两个问题： * 简述libffm数据格式 * 单机将pandas DataFrame 转成libffm 的实现（已优化）什么是libffm格式这部分内容主要参考： https://www.jianshu.com/p/9c2c2421ef2e 假设有下面数据：其中： User / Movie / Genre 是类别，可以进行One Hot Encoder Price是连…

2019年02月19日 0条评论 9309点热度 0人点赞阅读全文

前言 Docker安装的文章很多了，但是我心中最理想的安装方式并没有记录。或者说记录了但是搜索引擎没有找出来。在这里多记录一次，希望能让更多的人看到首先卸载之前的版本以前曾经出现过的版本或者名称： * docker-io * docker-engine 现在统称： docker-ce。为了能够安装最新版，需要将之前的版本完全卸载： [crayon-6a53e480dc05e708045466/] 使用安装脚本直接安装官网记录了几种安装方式，个人觉得使用脚本自动安装是最方便快速的。因为Ubunt…

2018年09月11日 0条评论 8520点热度 0人点赞阅读全文

前言所谓的MGR，全称： MySQL Group Replication, 是一种MySQL的主从架构。因为之前的MySQL已经没有办法恢复起来，实在没办法，采取的方法是完全删除，并重新安装、加入MGR 首先完整删除之前的MySQL [crayon-6a53e480dc3cd379617234/] 然后安装完整版的MySQL 参考文章Ubuntu 16.04安装MySQL官方最新“非阉割”版注意：如果安装的不是完整版的，在最后安装MGR插件就会遇到绕不过去的坑。主要步骤：到 MySQL官方的 …

2018年09月08日 0条评论 9215点热度 2人点赞阅读全文

想解决的问题一个通用的模型, 希望能适用所有的日志. 比如常见的System Event Log. 尝试从这些大量的日志之中找到异常\不规则的地方主要架构分为3个模型: Log Key Anomaly Detection model 主要是根据生成的Log Key, 使用LSTM进行判断下一个Log Key是否是异常信息. 主要是使用了NLP的思想. 个人感觉这一块是DeepLog最有启发的一个模型. Workflows 主要是能识别出并行的日志. 但是具体怎么用, 没有(在Youtube视频上面)详细说明 …

2018年08月06日 2条评论 35015点热度 9人点赞阅读全文

引言翻了一下以前写的Cassandra相关的教程, 发现最开始是2016年写的博客了. 也没想到坚持了这么久. 经过这么长一段时间使用Cassandra作为基础数据承载的基础架构, 有一些实战获得的经验. 总而言之, Cassandra并不适合类似金融方向这种需要高可靠性\事务性的业务. 但是对数据分析, 确实有一些功能比较好用. 省心的重复数据处理在批量导入数据到数据库之中的时候, 难免有重复导入的时候. 如果使用MySQL等等, 就需要事先按照时间或者其他条件, 先把历史数据删除. 而Cassandra并不…

2018年06月20日 0条评论 9150点热度 1人点赞阅读全文

使用docker的方式部署Cassandra节点优点使用Docker 可以更快速的解决很多环境配置问题: 不需要实现安装java 不需要配置supervisor (使用docker来管理进程) 不需要去配置ulimit 等等文件最大数配置(镜像里面已经配置好) 可以直接在命令行修改相应的配置更新新的版本相比之前也容易很多. 缺点: 这种方式, 没有办法充分利用双硬盘部署步骤: 因为是一次性的事情, 所以没有使用Python Paramiko之类的方式远程执行SSH命令人工登录目标机器登录docker …

2018年06月16日 0条评论 17599点热度 8人点赞阅读全文

这一篇文章, 主要讲的是如何优化python client的性能, 不是Cassandra本身的性能优化. Cassandra本身的性能优化, 主要是对DB Schema的设计上面的优化. 那python client 为什么需要优化呢? 正在进行的一个项目就遇到这种情况, 无论如何优化, 性能就是无法提升. 一直维持在2000条/s的水平. 这个时候发现: 1. 只使用了单核cpu 2. 这一颗CPU已经100% 官方其实已经有一些关于性能优化的建议与文章, 但是感觉有的并不实用. 作者根据自己的实际操作的经验,…

2018年03月21日 0条评论 13707点热度 1人点赞阅读全文

之前一直不是非常理解Spark的缓存应该如何使用. 今天在使用的时候, 为了提高性能, 尝试使用了一下Cache, 并收到了明显的效果. 关于Cache的一些理论介绍, 网上已经很多了. 但是貌似也没有一个简单的例子说明. 注: 因为使用的是内部数据文件, 在这边就不公布出来了. 大家看看测试代码跟测试结果即可. 这次测试是在JupyterNotebook这种交互式的环境下测试的. 如果是直接的submit一个job, 可能结果不太一样. 测试步骤初始化Spark. [crayon-6a53e480dd3e734…

2018年02月07日 0条评论 23237点热度 9人点赞阅读全文

keywords: docker jupyernotebook pyspark PS: 看起来因为代码高亮插件的影响, 自动高亮的代码的格式有点问题... 后面会来解决这个问题目前我们系统的整体架构大概是: Spark Standalone Cluster + NFS FileServer. 自然, 这些都是基于Linux系统. Windows在开发PySpark程序的时候, 大部分情况都没有什么问题. 但是有两种情况就比较蛋疼了: 读取NFS文件 Windows底下, 一旦涉及到NFS的文件路径, 就歇菜了: …

2018年02月06日 0条评论 17420点热度 3人点赞阅读全文

12 3 4 5

[Pandas]一个Pandas VS MySQL SQL 的性能对比

[广告技术]可能是最快的将dataframe 转为libffm的代码了

[Docker] Ubuntu 安装docker

重新安装MySQL并加入MGR集群

[论文阅读]Deep Log 初步小结

[Cassandra教程] 几个针对数据分析好用的功能

使用docker的方式部署Cassandra节点

Python + Cassandra的一些性能优化

一个Spark缓存的使用示例

使用Jupyter Notebook 加速PySpark开发