FlyML

  • 机器学习
  • 数据分析
    • 房产交易数据分析
  • 大数据
    • Spark
    • Cassandra
  • 搜索技术
    • ElasticSearch
    • Lucene
  • 技术杂谈
    • 职场话题
    • 程序人生
  • 关于我们
  • 2019 读过的论文
  • 我的书单
Zeppelin

[Pandas]一个Pandas VS MySQL SQL 的性能对比

引言 最近使用MySQL做一些数据统计比较多。 有时候为了省事直接写出了一个略复杂的SQL查询, 直接获得最后的结果。 但是总是觉得比较慢。 下面做了一个改动,简述如下: * 原来: 纯粹使用SQL查询, 得到最后的结果…

2019年3月25日 0条评论 2,699次阅读 0人点赞 阅读全文
大数据

[广告技术]可能是最快的将dataframe 转为libffm的代码了

前言 LibFFM 在之前的好几界CTR比赛之中都取得了非常不错的成绩。但是在使用上, 最大的问题莫过于其特殊的libffm格式了。下面会覆盖两个问题: * 简述libffm数据格式 * 单机将pandas DataFr…

2019年2月19日 0条评论 2,082次阅读 0人点赞 阅读全文
大数据

[Docker] Ubuntu 安装docker

前言 Docker安装的文章很多了, 但是我心中最理想的安装方式并没有记录。 或者说记录了但是搜索引擎没有找出来。 在这里多记录一次, 希望能让更多的人看到 首先卸载之前的版本 以前曾经出现过的版本或者名称: * doc…

2018年9月11日 0条评论 2,808次阅读 0人点赞 阅读全文
大数据

重新安装MySQL并加入MGR集群

前言 所谓的MGR, 全称: MySQL Group Replication, 是一种MySQL的主从架构。 因为之前的MySQL已经没有办法恢复起来, 实在没办法, 采取的方法是完全删除, 并重新安装、加入MGR 首先…

2018年9月8日 0条评论 3,145次阅读 2人点赞 阅读全文
NLP

[论文阅读]Deep Log 初步小结

想解决的问题 一个通用的模型, 希望能适用所有的日志. 比如常见的System Event Log. 尝试从这些大量的日志之中找到异常\不规则的地方 主要架构 分为3个模型: Log Key Anomaly Detect…

2018年8月6日 2条评论 6,201次阅读 0人点赞 阅读全文
Cassandra

[Cassandra教程] 几个针对数据分析好用的功能

引言 翻了一下以前写的Cassandra相关的教程, 发现最开始是2016年写的博客了. 也没想到坚持了这么久. 经过这么长一段时间使用Cassandra作为基础数据承载的基础架构, 有一些实战获得的经验. 总而言之, …

2018年6月20日 0条评论 3,714次阅读 0人点赞 阅读全文
Cassandra

使用docker的方式部署Cassandra节点

使用docker的方式部署Cassandra节点 优点 使用Docker 可以更快速的解决很多环境配置问题: 不需要实现安装java 不需要配置supervisor (使用docker来管理进程) 不需要去配置ulimi…

2018年6月16日 0条评论 4,479次阅读 0人点赞 阅读全文
Cassandra

Python + Cassandra的一些性能优化

这一篇文章, 主要讲的是如何优化python client的性能, 不是Cassandra本身的性能优化. Cassandra本身的性能优化, 主要是对DB Schema的设计上面的优化. 那python client …

2018年3月21日 0条评论 7,877次阅读 0人点赞 阅读全文
Spark

一个Spark缓存的使用示例

之前一直不是非常理解Spark的缓存应该如何使用. 今天在使用的时候, 为了提高性能, 尝试使用了一下Cache, 并收到了明显的效果. 关于Cache的一些理论介绍, 网上已经很多了. 但是貌似也没有一个简单的例子说明…

2018年2月7日 0条评论 12,669次阅读 2人点赞 阅读全文
Spark

使用Jupyter Notebook 加速PySpark开发

keywords: docker jupyernotebook pyspark PS: 看起来因为代码高亮插件的影响, 自动高亮的代码的格式有点问题… 后面会来解决这个问题 目前我们系统的整体架构大概是: S…

2018年2月6日 0条评论 9,778次阅读 3人点赞 阅读全文
  • 1
  • 2
  • 3
  • 4
  • >
  • »

文章搜索

热门文章

  • [房产交易数据分析](2) 解析南京相关的数据 - 27,989 views
  • 让Spark如虎添翼的Zeppelin - 基础篇 - 26,224 views
  • [Cassandra教程] (四)使用Key的正确姿势 - 22,888 views
  • [Cassandra教程] (一)我们为什么选择了Cassandra - 21,879 views
  • [Cassandra教程](十五)使用nodetool 进行监控之初步使用 - 20,682 views
  • [Cassandra教程] (三)数据模型(Data Model) - 20,351 views
  • Cassandra 之中的Hash 算法: MurMur3 - 19,056 views
  • [源码阅读]Cassandra Nodetool 是如何输出json格式的? - 18,918 views
  • Spark 2.1.0 发布 - 18,536 views
  • Spark 入门: 如何配置Eclipse来使用Java编写Spark App - 17,974 views

分类目录

  • Cassandra
  • ChatBot
  • ElasticSearch
  • Java
  • Lucene
  • NLP
  • Redis
  • Spark
  • Zeppelin
  • 大数据
  • 广告技术
  • 技术杂谈
  • 搜索技术
  • 数据分析
  • 机器学习
  • 杂记
  • 比赛相关
  • 爬虫技术
  • 程序人生
  • 职场话题
  • 论文阅读

Copyright 2019 FlyML. All Rights Reserved.
Theme Kratos made by Vtrois
苏ICP备16068221号