今天看到有朋友问到了MapTask的相关问题,我觉得有必要发个博客结合源码整个解析一下.
一、首先,我们看到Map运行的时候不同文件启动了不同数量的map任务,但是JOB中又没有设置map数量的配置,其实map运行时MRAppMaster请求RM资源运行的MapTask是由map前的文件切片所决定的(虽然split默认等于blocksize但是决不等同于blocksize)
二、原理:分发到各个节点的mapTask对文件处理时是按照一个个切片执行的
如图所示,默认的InputFormat为TextInputFormat 而 TextInputFormat 继承于FileInputFormat
@InterfaceAudience.Public@InterfaceStability.Stablepublic class TextInputFormat extends FileInputFormat<LongWritable, Text>
我们再来看看FileInputFormat是怎么对文件进行切片的
在FileInputformat中有issplit()方法(该方法设置是否对文件进行分割)和getsplits方法,getsplits中调用computeSplitSize()方法通过return Math.max(minSize, Math.min(goalSize, blockSize))来获取splits这个源码看附件图片.所以我们想要改变split大小(即改变mapTask)数目的时候需要在配置文件中添加参数mapreduce.input.fileinputformat.split.minsize 和mapreduce.input.fileinputformat.split.maxsize来改变splits
源码中的isSplitable():
protected boolean isSplitable(FileSystem fs, Path filename) { return true; }
默认为切割文件,如果自定义InputFormat的话可以继承FileInputFormat覆盖isSplitable方法返回false
源码中的getsplits主要代码段:
public InputSplit[] getSplits(JobConf job, int numSplits) throws IOException {
......
long blockSize = file.getBlockSize(); long splitSize = computeSplitSize(goalSize, minSize, blockSize);
}
如图,调用了computeSplitSize()方法来获取splitsize
最后,看一下computeSplitSize源码:
protected long computeSplitSize(long goalSize, long minSize, long blockSize) { return Math.max(minSize, Math.min(goalSize, blockSize)); }
所以从中可以看出来Math.max(minSize, Math.min(goalSize, blockSize));决定了splitsize的大小
配置文件中可以配置:
mapreduce.input.fileinputformat.split.minsize 和mapreduce.input.fileinputformat.split.maxsize来改变splits,从而改变mapTask的数目:
MapTask数目=filesize/splitsize+1