Hadoop ReduceTask工作机制

工作机制

  1. Copy阶段:ReduceTask从各个MapTask远程拷贝数据,超过阈值的数据写入磁盘,其余放入内存。
  2. Sort阶段:ReduceTask在拷贝数据时启动后台线程合并内存和磁盘文件,防止过多使用。为聚集key相同的数据,ReduceTask对所有数据进行一次归并排序。
  3. Reduce阶段:reduce()函数将计算结果写入HDFS。


请使用浏览器的分享功能分享到微信等