我们经常会选择使用spark做原始数据的ETL清洗,清洗后的Dataframe最终需要写入到数仓的Hive表中,也就是说spark能否直接读写hive表特别重要。 继续阅读
hive系列 – spark on hive配置与编程
1条回复
我们经常会选择使用spark做原始数据的ETL清洗,清洗后的Dataframe最终需要写入到数仓的Hive表中,也就是说spark能否直接读写hive表特别重要。 继续阅读
本文记录hive3.x版本搭建过程。
体验过spark RDD编程,我们能感受到几个问题: 继续阅读
这是一个系列,建议从《spark系列 – spark on yarn搭建》开始阅读。
RDD是spark对数据集的抽象,任意大小的数据集都可以通过1个RDD对象来表达,因此spark编程操作大数据集非常简单。 继续阅读
mapreduce框架在开发需要多轮MR的任务时,因为shuffle过程和reducer输出需要写到磁盘上,所以执行效率很低。 继续阅读
这是系列博客,你应该从《hdfs系列 – Text格式与mapreduce》开始阅读。 继续阅读
这是系列博客,你应该从《hdfs系列 – Text格式与mapreduce》开始阅读。 继续阅读
这是系列博客,你应该从《hdfs系列 – Text格式与mapreduce》开始阅读。 继续阅读
入门hadoop,我认为很重要也很困难的一点就是理解各种纷杂的文件格式与压缩算法的关系,理解mapreduce如何与不同的文件格式进行合作,只有建立好这些认知才能进一步用好hive等上层组件。 继续阅读
近期学习大数据技术,将通过博客分享它们原理与使用。 继续阅读
azkaban是当下最主流的ETL任务调度工具,容易理解与使用,轻松分布式扩展处理能力。 继续阅读