入门hadoop,我认为很重要也很困难的一点就是理解各种纷杂的文件格式与压缩算法的关系,理解mapreduce如何与不同的文件格式进行合作,只有建立好这些认知才能进一步用好hive等上层组件。 继续阅读
分类目录归档:大数据
hadoop伪分布式环境搭建
1条回复
近期学习大数据技术,将通过博客分享它们原理与使用。 继续阅读
azkaban入门
azkaban是当下最主流的ETL任务调度工具,容易理解与使用,轻松分布式扩展处理能力。 继续阅读
入门hadoop,我认为很重要也很困难的一点就是理解各种纷杂的文件格式与压缩算法的关系,理解mapreduce如何与不同的文件格式进行合作,只有建立好这些认知才能进一步用好hive等上层组件。 继续阅读
近期学习大数据技术,将通过博客分享它们原理与使用。 继续阅读
azkaban是当下最主流的ETL任务调度工具,容易理解与使用,轻松分布式扩展处理能力。 继续阅读