接前文《clickhouse(一)环境安装&操作分布式表》。
本文探讨clickhouse的1个经典问题:
如何模拟实现记录更新和删除效果?(因为clickhouse自带的update/delete实现极为低效)
跟着我的例子走吧。 继续阅读
接前文《clickhouse(一)环境安装&操作分布式表》。
本文探讨clickhouse的1个经典问题:
如何模拟实现记录更新和删除效果?(因为clickhouse自带的update/delete实现极为低效)
跟着我的例子走吧。 继续阅读
clickhouse是当下最流行的OLAP产品,我总结其代表能力体现为:
好友是做海外市场工作的,为了更科学的制定今年的销量KPI,希望能根据往年数据进行建模预测。
实际使用了一下superset和metabase这两款开源BI报表平台,将对比结论与使用流程总结到了PDF中,大家可以在线阅读:《【BI报表可视化】选型比较 superset vs metabase》。
在做数仓的过程中是需要对数据进行可视化与报表的,有一些开源的BI报表平台可以通过配置SQL和图表的方式制作Dashboard,甚至支持邮件定时发送报表、指标监控告警等。 继续阅读
”鸢尾花”数据是用来讲”分类问题”的老生常谈了,下面我们站在一个相对纯粹的角度再来看看这个数据集。 继续阅读
Python数据分析三大套件numpy、matplotlib、pandas的学习资料太多了,如果你想”系统的、快速的“再梳理一下知识体系,我给大家推荐一个优质学习资料。 继续阅读
本文基于kaggle豆瓣影评数据集,演示如何利用pyspark的word2vec和LSH库实现相似影评的计算,同样的方式可以用于相似内容匹配,例如:在海量文章中检测存在抄袭的文章等类似需求。 继续阅读
azkaban默认只支持邮件告警,但支持plugin扩展机制自定义告警,所以我决定实现一个钉钉告警,毕竟没人天天盯着邮箱。 继续阅读
tensorflow(2.x版本)生产训练需要在大规模训练样本下完成,单机已经无法满足训练速度。
tensorflow on spark是yahoo开源的基于spark进行分布式tensorflow训练的开发框架,本文要求读者熟练tensorflow单机使用,最好读一下前一篇博客:《tensorflow2.0 – 端到端的wide&deep模型训练》。
我们使用的是sqoop1.4.7,采用sqoop export将数仓ADS层数据导入到Mysql库,通常有两种方式: 继续阅读
采用T+1天级同步会遇到一些问题: 继续阅读
azkaban经常拉起的就是Hive命令,计算任务其实是丢到Yarn集群中运行的,然而实践中发现Hive命令是非常废本地CPU和Mem的,这是为什么呢? 继续阅读
sqoop import导入mysql数据时使用parquet是为了列存压缩节约磁盘空间,但parquet本身是类似于protocolbuf的强schema格式,每一列的数据类型都是明确定义的,这就带来了一些坑点,下面列举一下。 继续阅读
sqoop import导入mysql表时,为了降低磁盘空间占用,均采用了parquet文件格式进行列存储+压缩。 继续阅读
实践中发现一个需求,需要将SQL读取的Dataframe的Row转成方便操作的Java bean。 继续阅读
hive执行sql时一般都写在bash脚本里,例如: 继续阅读
因为azkaban任务需要用到spark,打出来的jar包好几百兆,打包成.zip上传azkaban就会卡住很久很久,甚至失败。 继续阅读
sqoop用于关系型数据库与数仓进行数据交换,是大数据必备工具。 继续阅读
大数据越来越重要,要管理与利用好这些数据就需要建设数据仓库。
数仓建设是有一套建模理论的,本文通过一个简单例子来理解数仓分层的基本样貌。 继续阅读