azkaban默认只支持邮件告警,但支持plugin扩展机制自定义告警,所以我决定实现一个钉钉告警,毕竟没人天天盯着邮箱。 继续阅读
tensorflow-serving二次开发 – 增加模型流量监控
我们采用tensorflow-serving部署模型,利用文件同步机制分发model到tensorflow-serving目录下,由tensorflow-serving自动热加载最新N个版本模型,或者直接指定加载哪些版本。 继续阅读
tensorflow分布式训练 — tensorflow on spark使用方法
tensorflow(2.x版本)生产训练需要在大规模训练样本下完成,单机已经无法满足训练速度。
tensorflow on spark是yahoo开源的基于spark进行分布式tensorflow训练的开发框架,本文要求读者熟练tensorflow单机使用,最好读一下前一篇博客:《tensorflow2.0 – 端到端的wide&deep模型训练》。
sqoop export与hadoop版本不兼容问题
我们使用的是sqoop1.4.7,采用sqoop export将数仓ADS层数据导入到Mysql库,通常有两种方式: 继续阅读
canal初体验 – 同步binlog到hive
采用T+1天级同步会遇到一些问题: 继续阅读
tensorflow2.0 – 端到端的wide&deep模型训练
本文将基于泰坦尼克数据集,展现tensorflow2.0实现wide&deep模型训练的整个工程化流程,内容包括: 继续阅读
tensorflow – 透过数学理解model
本文通过一个tensorflow例子,通俗的说明神经网络是如何工作的,以便我们更自信的驾驭它。 继续阅读
azkaban – 同时拉起JOB过多导致机器打满
azkaban经常拉起的就是Hive命令,计算任务其实是丢到Yarn集群中运行的,然而实践中发现Hive命令是非常废本地CPU和Mem的,这是为什么呢? 继续阅读
sqoop – import导入parquet的坑
sqoop import导入mysql数据时使用parquet是为了列存压缩节约磁盘空间,但parquet本身是类似于protocolbuf的强schema格式,每一列的数据类型都是明确定义的,这就带来了一些坑点,下面列举一下。 继续阅读
hive – parquet文件格式OOM问题
sqoop import导入mysql表时,为了降低磁盘空间占用,均采用了parquet文件格式进行列存储+压缩。 继续阅读
家庭搭建openconnect vpn
家里运行了一些服务,希望在外面也可以方便的访问它们。 继续阅读
如何将spark-sql的Row转成Java对象?
实践中发现一个需求,需要将SQL读取的Dataframe的Row转成方便操作的Java bean。 继续阅读
shell执行hive sql的*星号问题
hive执行sql时一般都写在bash脚本里,例如: 继续阅读
maven编译报错:不再支持源选项5。请使用7或更高版本。
我在macbook上通过brew安装了新版本的maven,然后编译项目就出现了标题中的错误。 继续阅读
azkaban – 上传zip太大怎么办?
因为azkaban任务需要用到spark,打出来的jar包好几百兆,打包成.zip上传azkaban就会卡住很久很久,甚至失败。 继续阅读
java泛型高级篇 – 真正理解协变与逆变
无论你是否听过java泛型的协变与逆变,我们直接进入例子,一起来看一下java泛型比较高级的用法。 继续阅读
推荐业务的JAVA程序性能分析
本文分享一下近期在推荐业务场景下的JAVA程序性能分析过程,虽然没有得到什么有效的优化结论,但过程中的思路和工具还是挺有价值的,也希望能与碰到类似场景的朋友进行交流。 继续阅读
java泛型的特殊之处
本文通过3个小例子,探索一下Java泛型和C++泛型的区别,说明Java泛型的一些特殊之处。 继续阅读
java – 理解泛型
java泛型相比C++模板要简单的多得多,只不过java泛型标准引入的时候因为历史版本兼容性的原因受到了一些限制,我们大可不必拘泥于刻板的语法强调说明,让我们一起来把握一下java泛型最重要的那些部分。 继续阅读
java – 理解classloader
最近学习大数据,意识到java不仅解决了C++高昂的内存管理成本之外,其”类动态加载”和”反射”机制无疑有效的支撑了”计算向存储移动”思路的落地,难怪java语言在大数据领域成为主流选择。 继续阅读