FlyML - 专注于机器学习、大数据处理等前沿技术

昨晚接到某云的通知：服务器有异地登录行为。今天进来一看，果然，上次解决过的xmr-stak-cpu病毒又来了。解决方案跟上次一样，在此不重复了。不过为了解决被人暴力破解的问题，是应该对服务器安全做一些防护措施了。安装并配置Fail2ban 安装 Fail2Ban能自动把尝试错误的登录IP放到黑名单之中。可以永久，也可以暂时禁止。 Ubuntu底下安装很简单： sudo apt install -y fail2ban 配置安装完成之后，开始配置：复制一份本地配置文件： cp /etc/fa…

2018年05月17日 0条评论 8687点热度 0人点赞阅读全文

最近发现自己的博客反应特别慢，感觉不应该啊。无意中在腾讯云的控制台界面发现，CPU已经满负荷运载了 ![cpu 100](http://wordpressblog-10034369.file.myqcloud.com/how-to-delete-xmr-stak-cpu-virus/cpu 100.png) 注：后面CPU下降下来，是因为自己已经成功的干掉了这个病毒。搜了一下， Linux系统也没有什么太好的安全软件或者专杀工具。于是只能自己手动删除。第一步：尝试登录服务器很悲催，因为之前一直是…

2018年05月11日 0条评论 13109点热度 15人点赞阅读全文

很早很早之前就知道RSS了. 但是一直感觉RSS没有什么需求, 特别是打开某些RSS客户端之后, 一堆的源可以订阅, 瞬间把我吓怕了. 可以最近在看一些文章,学习一些资料的时候, 忽然感觉"RSS不正是我需要的东西吗?" 比如, 我在学习AutoEncoder的时候, 我分别在简书、CSDN、Youtube找到一些不错的博客文章。并且发现他们的文章写得都挺好的。但是我又不能人工的一个个去看他们有没有更新一些文章。这种应用场景，不正是RSS想解决的问题吗? 与此同时, 脑子里面生出许多问题: * RSS为什么会没…

2018年04月06日 2条评论 27439点热度 1人点赞阅读全文

这一篇文章, 主要讲的是如何优化python client的性能, 不是Cassandra本身的性能优化. Cassandra本身的性能优化, 主要是对DB Schema的设计上面的优化. 那python client 为什么需要优化呢? 正在进行的一个项目就遇到这种情况, 无论如何优化, 性能就是无法提升. 一直维持在2000条/s的水平. 这个时候发现: 1. 只使用了单核cpu 2. 这一颗CPU已经100% 官方其实已经有一些关于性能优化的建议与文章, 但是感觉有的并不实用. 作者根据自己的实际操作的经验,…

2018年03月21日 0条评论 13713点热度 1人点赞阅读全文

论文标题: From Word Embeddings to Item Recommendation 论文地址: https://arxiv.org/pdf/1601.01356 核心思想这一篇论文的思想相比起其他的论文来说，思想非常简单，就是把Item 当成一句话之中的Word。使用训练Word2Vec模型的方法来训练一个Item2Vec 这种方法我还是比较认同的, 因为需要的数据比较简单, 是实际生产之中的应用场景会多不少. 训练数据论文之中提到的数据集太老了(2011年), 没找到. 因为论文之中提到的…

2018年03月05日 0条评论 14364点热度 0人点赞阅读全文

之前一直不是非常理解Spark的缓存应该如何使用. 今天在使用的时候, 为了提高性能, 尝试使用了一下Cache, 并收到了明显的效果. 关于Cache的一些理论介绍, 网上已经很多了. 但是貌似也没有一个简单的例子说明. 注: 因为使用的是内部数据文件, 在这边就不公布出来了. 大家看看测试代码跟测试结果即可. 这次测试是在JupyterNotebook这种交互式的环境下测试的. 如果是直接的submit一个job, 可能结果不太一样. 测试步骤初始化Spark. [crayon-6a56ab43be53e51…

2018年02月07日 0条评论 23241点热度 9人点赞阅读全文

keywords: docker jupyernotebook pyspark PS: 看起来因为代码高亮插件的影响, 自动高亮的代码的格式有点问题... 后面会来解决这个问题目前我们系统的整体架构大概是: Spark Standalone Cluster + NFS FileServer. 自然, 这些都是基于Linux系统. Windows在开发PySpark程序的时候, 大部分情况都没有什么问题. 但是有两种情况就比较蛋疼了: 读取NFS文件 Windows底下, 一旦涉及到NFS的文件路径, 就歇菜了: …

2018年02月06日 0条评论 17428点热度 3人点赞阅读全文

坦诚的说，去年是很忙碌，但是又不太成功的一年。个人方面， 1. 在技术上面其实精进很小。 2. 在个人投资方面，也遭遇滑铁卢。 3. 创业方面，其实也并没有太明确的前景。在公司方面，也并没有太成功的案例。一个还算拿得出手的项目可能就是跟旁边项目组合作的 Mac Virtual Agent. 这其中原因比较多了。一个是自己的能力不足，并没有能力把项目做成。另外一方面，跨部门背景下的AI落地，其实还是有很多阻力的。特别是在忙碌了大半年之后，发现对方部门自己在外面购买了类似的服务。（吐槽一下…

2018年02月02日 0条评论 14746点热度 3人点赞阅读全文

昨天微博上面的爱可可老师转发了一个文章 Google Colab Free GPU Tutorial, 这天下还有免费的GPU可以薅! 这Google真是"业界毒瘤" ... 废话不说, 先撸起再说. Google CoLab 简介这个就是一个google版本的Jupyter Notebook. 尝试了一下, 很多快捷键都是一样的. 只不过, 它深度集成在Google Drive之中, 数据文件、notebook代码都是放在drive之中。使用的时候，首先进入Google Drive, 然后按照下图的方式找到…

2018年01月28日 0条评论 19555点热度 2人点赞阅读全文

目前很火的芝士超人、百万英雄等等，已经有不少人做了答题辅助。比如： https://github.com/Skyexu/TopSup https://github.com/rrdssfgcs/wenda-helper 但是个人感觉，他们都缺少了最后一公里：需要人手工触发。我们目前做的这个事情，就是尝试把最后一公里简化，你只需要调用我们的API 或者基于我们的源码与模型，在本地搭建一个你自己的API，之后只需要不停的执行截图并调用API获取结果就可以了。项目地址：https://github.com/…

2018年01月22日 0条评论 8124点热度 0人点赞阅读全文

1…3 456 7…15

Ubuntu 使用Fail2ban 防止SSH被暴力破解

成功手动删除xmr-stak-cpu 挖矿病毒

忽然觉得RSS挺有用的

Python + Cassandra的一些性能优化

[ReadNotes]使用Word2Vec的方式来训练Item2Vec

一个Spark缓存的使用示例

使用Jupyter Notebook 加速PySpark开发

不服输！！！

自带免费GPU的Google CoLab 试用手记

助你完成答题辅助的最后一公里