”鸢尾花”数据是用来讲”分类问题”的老生常谈了,下面我们站在一个相对纯粹的角度再来看看这个数据集。 继续阅读
作者归档:yuer
【mysql】为什么count那么慢?
最近有个接口偶尔超时,定位发现某些user因为记录数较多,导致count的SQL耗费了1~2秒,分析到最后其实就回到了老问题:“覆盖索引”。 继续阅读
【区块链科普】如何用Go实现一个”矿池”?
最近一直在组织公司内的Go语言培训课,为了拉动大家的学习兴趣,设计了一个以”挖矿”为主题的课后作业,反响非常热烈: 继续阅读
【Python数据分析】推荐学习资料
Python数据分析三大套件numpy、matplotlib、pandas的学习资料太多了,如果你想”系统的、快速的“再梳理一下知识体系,我给大家推荐一个优质学习资料。 继续阅读
[备忘] apache httpasyncclient基本用法
最近公司内技术分享有点密,快2周没更博客了,这次简单水一下java的http库使用,方便回查。 继续阅读
Elasticsearch GC 优化实战
近期业务查询线上ES集群出现频繁超时告警,尤其是早晨某个时间点固定的报一波超时,从调用链监控上很难看出是什么业务行为导致的。
戴尔Debian10替换网卡驱动
家里运行了一台Dell 3070MFF的小服务器,最近裸装Debian10之后观察到dmesg报错如下: 继续阅读
基于thanos搭建分布式prometheus
prometheus存在单点问题,具体痛点可以这么描述: 继续阅读
现代C++之”模板元编程”
从17年开始就不太做C++开发了,因此知识还停留在C++03上,所以这次趁着过年的短暂空隙补一下比较有意思的现代C++特性,有些简单的新语法不是我想表达的重点就一笔带过了。 继续阅读
现代C++之”可变参数模板”
从17年开始就不太做C++开发了,因此知识还停留在C++03上,所以这次趁着过年的短暂空隙补一下比较有意思的现代C++特性,有些简单的新语法不是我想表达的重点就一笔带过了。 继续阅读
现代C++之”左右值与移动语义”
从17年开始就不太做C++开发了,因此知识还停留在C++03上,所以这次趁着过年的短暂空隙补一下比较有意思的现代C++特性,有些简单的新语法不是我想表达的重点就一笔带过了。 继续阅读
pyspark – 基于word2vec+LSH实现相似内容查找
本文基于kaggle豆瓣影评数据集,演示如何利用pyspark的word2vec和LSH库实现相似影评的计算,同样的方式可以用于相似内容匹配,例如:在海量文章中检测存在抄袭的文章等类似需求。 继续阅读
强化学习Deep Q-Network自动玩flappy bird
这两天看到通过强化学习自动玩游戏的项目,感觉有趣而且技术难度也不高,所以我也实现了一下。
经过一个通宵的训练,模型已经把小鸟控制的很棒了(训练了5万次左右): 继续阅读
CPU、内核、应用程序的关系
因精力有限,本文简单记录一下对CPU、内核、应用程序之间的关系理解。 继续阅读
azkaban二次开发 – 自定义钉钉告警
azkaban默认只支持邮件告警,但支持plugin扩展机制自定义告警,所以我决定实现一个钉钉告警,毕竟没人天天盯着邮箱。 继续阅读
tensorflow-serving二次开发 – 增加模型流量监控
我们采用tensorflow-serving部署模型,利用文件同步机制分发model到tensorflow-serving目录下,由tensorflow-serving自动热加载最新N个版本模型,或者直接指定加载哪些版本。 继续阅读
tensorflow分布式训练 — tensorflow on spark使用方法
tensorflow(2.x版本)生产训练需要在大规模训练样本下完成,单机已经无法满足训练速度。
tensorflow on spark是yahoo开源的基于spark进行分布式tensorflow训练的开发框架,本文要求读者熟练tensorflow单机使用,最好读一下前一篇博客:《tensorflow2.0 – 端到端的wide&deep模型训练》。
sqoop export与hadoop版本不兼容问题
我们使用的是sqoop1.4.7,采用sqoop export将数仓ADS层数据导入到Mysql库,通常有两种方式: 继续阅读
canal初体验 – 同步binlog到hive
采用T+1天级同步会遇到一些问题: 继续阅读
tensorflow2.0 – 端到端的wide&deep模型训练
本文将基于泰坦尼克数据集,展现tensorflow2.0实现wide&deep模型训练的整个工程化流程,内容包括: 继续阅读