HDFS 块和 Input Splits 的区别与联系

发布时间：2019-02-20 21:57:47 所属栏目：酷站来源：谢涛

导读：转载自过往记忆（https://www.iteblog.com/）本文链接:【HDFS 块和 Input Splits 的区别与联系】（https://www.iteblog.com/archives/2365.html）相信大家都知道，HDFS将文件按照一定大小的块进行切割，（我们可以通过 dfs.blocksize 参数来设置HDFS块的

转载自过往记忆（https://www.iteblog.com/）
本文链接: 【HDFS 块和 Input Splits 的区别与联系】（https://www.iteblog.com/archives/2365.html）

相信大家都知道， HDFS 将文件按照一定大小的块进行切割，（我们可以通过 dfs.blocksize 参数来设置 HDFS 块的大小，在 Hadoop 2.x 上，默认的块大小为 128MB。）也就是说，如果一个文件大小大于 128MB，那么这个文件会被切割成很多块，这些块分别存储在不同的机器上。当我们启动一个 MapReduce 作业去处理这些数据的时候，程序会计算出文件有多少个 Splits，然后根据 Splits 的个数来启动 Map 任务。那么 HDFS 块和 Splits 到底有什么关系？

为了简便起见，下面介绍的文件为普通文本文件。

HDFS块

现在我有一个名为 iteblog.txt 的文件，如下：

1                        （编辑：温州站长网）
【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!