hadoop源代码学习分析—–mapper和reduce

大大源码 • 2023年5月7日 pm10:22 • 未分类

首先初入hadoop家族，了解了一些hadoop运行作业的基本流程，

由于对编写八股文形式的hadoop程序缺少认知，所以翻了翻源代码。

首先有关继承mapper类的源代码主要由几个方法组成

其中map函数是最经常被重写的

源码中只是运用了封装好了的输出类型的Context进行了简单的输出。

听说技术高超的人会重写run方法：

setup函数会在执行map任务之前调用一次

cleanup会在map执行之后执行一次

Context类型封装了像

Configuration conf, TaskAttemptID taskid,
                   RecordReader<KEYIN,VALUEIN> reader,
                   RecordWriter<KEYOUT,VALUEOUT> writer,
                   OutputCommitter committer,
                   StatusReporter reporter,
                   InputSplit split

一些任务的配置信息和要输入输出的参数类型。。

reduce函数的源码，仅仅只是将values进行了遍历，然后进行了输出