分类目录归档:大数据

clickhouse(一)环境安装&操作分布式表

clickhouse是当下最流行的OLAP产品,我总结其代表能力体现为:

  • 存储数据:与presto等直接读取外部数据进行计算的方式不同,clickhouse大部分情况是冗余存储一份数据的,所以clickhouse需要提供多种数据集成的方案与生态。
  • 即席查询:典型ad-hoc产品,海量数据秒出数据,计算能力可以扩充计算节点实现,可以用作实时数仓(其他常见方案是hbase->hive->presto)。

继续阅读

tensorflow分布式训练 — tensorflow on spark使用方法

tensorflow(2.x版本)生产训练需要在大规模训练样本下完成,单机已经无法满足训练速度。

tensorflow on spark是yahoo开源的基于spark进行分布式tensorflow训练的开发框架,本文要求读者熟练tensorflow单机使用,最好读一下前一篇博客:《tensorflow2.0 – 端到端的wide&deep模型训练》

继续阅读