加入收藏 | 设为首页 | 会员中心 | 我要投稿 温州站长网 (https://www.0577zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 酷站推荐 > 酷站 > 正文

HDFS 块和 Input Splits 的区别与联系

发布时间:2019-02-20 21:57:47 所属栏目:酷站 来源:谢涛
导读:转载自过往记忆(https://www.iteblog.com/) 本文链接:【HDFS 块和 Input Splits 的区别与联系】(https://www.iteblog.com/archives/2365.html) 相信大家都知道,HDFS将文件按照一定大小的块进行切割,(我们可以通过 dfs.blocksize 参数来设置HDFS块的

转载自 过往记忆(https://www.iteblog.com/) 
本文链接:  【HDFS 块和 Input Splits 的区别与联系】(https://www.iteblog.com/archives/2365.html)


相信大家都知道, HDFS  将文件按照一定大小的块进行切割,(我们可以通过  dfs.blocksize  参数来设置  HDFS  块的大小,在  Hadoop  2.x 上,默认的块大小为 128MB。)也就是说,如果一个文件大小大于 128MB,那么这个文件会被切割成很多块,这些块分别存储在不同的机器上。当我们启动一个 MapReduce 作业去处理这些数据的时候,程序会计算出文件有多少个 Splits,然后根据 Splits 的个数来启动 Map 任务。那么 HDFS 块和 Splits 到底有什么关系?

为了简便起见,下面介绍的文件为普通文本文件。

    HDFS块

    现在我有一个名为 iteblog.txt 的文件,如下:

    1

    (编辑:温州站长网)

    【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!