分类：大数据

鱼儿的博客

Proudly powered by WordPress

Theme: razia by ashathemes.

clickhouse（二）删除/更新方案

On 2021年7月2日2021年7月2日By yuer

接前文《clickhouse（一）环境安装&操作分布式表》。本文探讨clickhouse的1个经典问.

clickhouse（一）环境安装&操作分布式表

On 2021年7月1日By yuer

clickhouse是当下最流行的OLAP产品，我总结其代表能力体现为：存储数据：与presto等直接读取外.

帮好友进行“销量预测”建模

On 2021年5月19日By yuer

好友是做海外市场工作的，为了更科学的制定今年的销量KPI，希望能根据往年数据进行建模预测。

【BI报表可视化】选型比较 superset vs metabase

On 2021年4月7日By yuer

实际使用了一下superset和metabase这两款开源BI报表平台，将对比结论与使用流程总结到了PDF中，.

【BI报表选型】metabase方案

On 2021年4月2日2021年4月2日By yuer

在做数仓的过程中是需要对数据进行可视化与报表的，有一些开源的BI报表平台可以通过配置SQL和图表的方式制作Da.

【小白的机器学习】”鸢尾花”数据集

On 2021年4月2日2021年4月22日By yuer

”鸢尾花”数据是用来讲”分类问题”的老生常谈了，下面我们站在.

【Python数据分析】推荐学习资料

On 2021年3月26日By yuer

Python数据分析三大套件numpy、matplotlib、pandas的学习资料太多了，如果你想”系统的、.

pyspark – 基于word2vec+LSH实现相似内容查找

On 2021年1月29日2021年2月2日By yuer

本文基于kaggle豆瓣影评数据集，演示如何利用pyspark的word2vec和LSH库实现相似影评的计算，.

azkaban二次开发 – 自定义钉钉告警

On 2021年1月15日2021年1月15日By yuer

azkaban默认只支持邮件告警，但支持plugin扩展机制自定义告警，所以我决定实现一个钉钉告警，毕竟没人天.

tensorflow分布式训练 — tensorflow on spark使用方法

On 2021年1月5日By yuer

tensorflow（2.x版本）生产训练需要在大规模训练样本下完成，单机已经无法满足训练速度。 tensor.

sqoop export与hadoop版本不兼容问题

On 2021年1月5日2021年1月5日By yuer

我们使用的是sqoop1.4.7，采用sqoop export将数仓ADS层数据导入到Mysql库，通常有两种.

canal初体验 – 同步binlog到hive

On 2020年12月30日2020年12月31日By yuer

采用T+1天级同步会遇到一些问题：

azkaban – 同时拉起JOB过多导致机器打满

On 2020年11月27日2020年11月27日By yuer

azkaban经常拉起的就是Hive命令，计算任务其实是丢到Yarn集群中运行的，然而实践中发现Hive命令是.

sqoop – import导入parquet的坑

On 2020年11月27日2020年12月7日By yuer

sqoop import导入mysql数据时使用parquet是为了列存压缩节约磁盘空间，但parquet本身.

hive – parquet文件格式OOM问题

On 2020年11月27日2020年11月27日By yuer

sqoop import导入mysql表时，为了降低磁盘空间占用，均采用了parquet文件格式进行列存储+压.

如何将spark-sql的Row转成Java对象？

On 2020年11月20日By yuer

实践中发现一个需求，需要将SQL读取的Dataframe的Row转成方便操作的Java bean。

shell执行hive sql的*星号问题

On 2020年11月19日By yuer

hive执行sql时一般都写在bash脚本里，例如：

azkaban – 上传zip太大怎么办？

On 2020年11月17日2020年11月17日By yuer

因为azkaban任务需要用到spark，打出来的jar包好几百兆，打包成.zip上传azkaban就会卡住很.

sqoop – mysql导入hive与hive导出mysql

On 2020年10月22日2020年11月23日By yuer

sqoop用于关系型数据库与数仓进行数据交换，是大数据必备工具。

hive系列 – 数仓分层Demo

On 2020年10月16日2020年10月16日By yuer

大数据越来越重要，要管理与利用好这些数据就需要建设数据仓库。数仓建设是有一套建模理论的，本文通过一个简单例子.

分类： 大数据

分类：大数据