分类：大数据

Theme: razia by ashathemes.

hive系列 – spark on hive配置与编程

我们经常会选择使用spark做原始数据的ETL清洗，清洗后的Dataframe最终需要写入到数仓的Hive表中.

本文记录hive3.x版本搭建过程。

体验过spark RDD编程，我们能感受到几个问题：

这是一个系列，建议从《spark系列 – spark on yarn搭建》开始阅读。 RDD是spark对数据.

mapreduce框架在开发需要多轮MR的任务时，因为shuffle过程和reducer输出需要写到磁盘上，所.

这是系列博客，你应该从《hdfs系列 – Text格式与mapreduce》开始阅读。

这是系列博客，你应该从《hdfs系列 – Text格式与mapreduce》开始阅读。

这是系列博客，你应该从《hdfs系列 – Text格式与mapreduce》开始阅读。

入门hadoop，我认为很重要也很困难的一点就是理解各种纷杂的文件格式与压缩算法的关系，理解mapreduce.

近期学习大数据技术，将通过博客分享它们原理与使用。

azkaban是当下最主流的ETL任务调度工具，容易理解与使用，轻松分布式扩展处理能力。