• 关注公众号 喵查铺子 一键查题~

初探HDFS的实现机制,hdfs存储

大数据 数据帝 3年前 (2020-02-09) 扫描二维码

当我们对文件进行处理的时候,那么是如何进行分布式访问的呢?
如下图所示,当我们一个客户端想访问HDFS中的文件时候,HDFS会有一个写入的路径,这个在我们安装Hbase的时候,在配置文件中有配置。客户只会直接访问这个虚拟的路径,具体的数据读过程已被hadoop封装起来,所以,在代码实现的过程中,我们只需要告知这个虚拟路径即可。
封装里面的过程包含这些动作,首先,假如有一个512M的文件,它会被切分成(若干块)4块,分不到不同的主机上,这些主机就是我们安装时候的进程Datanode(datanode1,datanode2,datanode3…),并且会把数据放在hadoop默认的data目录下。
其次,当另外一个客户端想读这个文件时候,由于文件被切块了,是不会知道放在哪些机器上以及被分成了多少块,这个时候就有另外一个进程namenode来统管这些信息。因此,客户访问时候,先访问namenode,将信息返回给客户,然后获取到信息后去相应的datanode读取数据。此外,为了提高数据的可靠性和访问的吞吐量或者并发访问,每一个块都会在不同的datanode上存放副本。HDFS

初探HDFS的实现机制,hdfs存储


联系邮箱:oqcvvz[at]163[dot]com
喜欢 (0)
关于作者:
发表我的评论
取消评论
表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址