当前位置: 首页 > news >正文

做公司网站好处seo站

做公司网站好处,seo站,九江专业的企业网站建设公司,专业房产网站建设3.5 HDFS存储原理 3.5.1 冗余数据保存 作为一个分布式文件系统,为了保证系统的容错性和可用性,HDFS采用了多副本方式对数据进行冗余存储,通常一个数据块的多个副本会被分布到不同的数据节点上。 如图所示,数据块1被分别存放到…

3.5  HDFS存储原理

 3.5.1 冗余数据保存

作为一个分布式文件系统,为了保证系统的容错性和可用性,HDFS采用了多副本方式对数据进行冗余存储,通常一个数据块的多个副本会被分布到不同的数据节点上。
 

如图所示,数据块1被分别存放到数据节点AC上,数据块2被存放在数据节点AB上。

这种多副本方式具有以下几个优点:

1)加快数据传输速度

2)容易检查数据错误

3)保证数据可靠性

 3.5.2 数据存取策略

 1.数据存放

Ø第一个副本:放置在上传文件的数据节点;如果是集群外提交,则随机挑选一台磁盘不太满、CPU不太忙的节点

Ø第二个副本:放置在与第一个副本不同的机架的节点上

Ø第三个副本:与第一个副本相同机架的其他节点上

Ø更多副本:随机节点

2. 数据读取

ØHDFS提供了一个API可以确定一个数据节点所属的机架ID,客户端也可以调用API获取自己所属的机架ID

Ø当客户端读取数据时,从名称节点获得数据块不同副本的存放位置列表,列表中包含了副本所在的数据节点,可以调用API来确定客户端和这些数据节点所属的机架ID,当发现某个数据块副本对应的机架ID和客户端对应的机架ID相同时,就优先选择该副本读取数据,如果没有发现,就随机选择一个副本读取数据

3. 数据复制(采用流水线策略)

当客户端需要向HDFS中写入一个文件时,文件首先被写入本地计算机。

1)按照HDFS的设置被切分成一定大小的块,具体大小由HDFS设置

2)每个块都会向HDFSNameNode节点发起写请求

3NameNode节点会根据系统中各个DataNode节点的使用情况,选择一个合适的DataNode节点列表返回给客户端。

4)客户端随后会将数据首先写入列表中的第一个DataNode节点,同时将列表传给该节点。

3 数据复制(采用流水线策略)

5)第一个DataNode节点在接收到一定数量的数据后,会向列表中的第二个DataNode节点发起连接请求,并把自己已经接收到的数据和列表传给第二个节点。

6)第二个节点在接收到数据后,也会向列表中的第三个节点发起连接请求。依此类推。这样,列表中的多个DataNode节点形成了一条数据复制的流水线。

 3.5.3 数据错误与恢复

HDFS具有较高的容错性,可以兼容廉价的硬件,它把硬件出错看作一种常态,而不是异常,并设计了相应的机制检测数据错误和进行自动恢复,主要包括以下几种情形:

Ø 名称节点出错
Ø 数据节点出错
Ø 数据出错。
1. 名称节点出错

名称节点保存了所有的元数据信息,其中,最核心的两大数据结构是FsImageEditlog,如果这两个文件发生损坏,那么整个HDFS实例将失效。解决方案:

1 )把名称节点上的元数据信息同步存储到其他文件系统,如 NFS
2 )运行一个第二名称节点,当名称节点死机后,可以把运行第二名称节点作为一种弥补,但这种做法有问题,问题在哪?
最优做法: NFS 和第二名称节点结合用

2. 数据节点出错

Ø 每个数据节点会定期向名称节点发送“心跳”信息,向名称节点报告自己的状态。
Ø 当数据节点发生故障,或者网络发生断网时,名称节点就无法收到来自一些数据节点的心跳信息,这时,这些数据节点就会被标记为“宕机”,节点上面的所有数据都会被标记为“不可读”,名称节点不会再给它们发送任何 I/O 请求。
Ø 这时,有可能出现一种情形,即由于一些数据节点的不可用,会导致一些数据块的副本数量小于冗余因子。
Ø 名称节点会定期检查这种情况,一旦发现某个数据块的副本数量小于冗余因子,就会启动数据冗余复制,为它生成新的副本。
Ø HDFS 和其它分布式文件系统的最大区别就是可以调整冗余数据的位置。

3. 数据出错

Ø 网络传输和磁盘错误等因素,都会造成数据错误
Ø 客户端在读取到数据后,会采用 md5 sha1 对数据块进行校验,以确定读取到正确的数据
Ø 在文件被创建时,客户端就会对每一个文件块进行信息摘录,并把这些信息写入到同一个路径的隐藏文件里面
Ø 当客户端读取文件的时候,会先读取该信息文件,然后,利用该信息文件对每个读取的数据块进行校验,如果校验出错,客户端就会请求到另外一个数据节点读取该文件块,并且向名称节点报告这个文件块有错误,名称节点会定期检查并且重新复制这个块。

3.6 HDFS数据读写过程

Ø FileSystem 是一个通用文件系统的抽象基类,可以被分布式文件系统继承,所有可能使用 Hadoop 文件系统的代码,都要使用这个类
Ø Hadoop FileSystem 这个抽象类提供了多种具体实现
Ø DistributedFileSystem 就是 FileSystem HDFS 文件系统中的具体实现
Ø FileSystem open() 方法返回的是一个输入流 FSDataInputStream 对象,在 HDFS 文件系统中,具体的输入流就是 DFSInputStream
Ø FileSystem 中的 create() 方法返回的是一个输出流 FSDataOutputStream 对象,在 HDFS 文件系统中,具体的输出流就是 DFSOutputStream
http://www.ds6.com.cn/news/13414.html

相关文章:

  • 优化wordpress登录页插件百度怎么优化排名
  • 网站建设品牌策划云服务器免费
  • 建设部四库一平台查询优化工具箱
  • 广州网站建设星珀近期舆情热点事件
  • 邯郸网站建设的地方枸橼酸西地那非片功效效及作用
  • 网站建设十年杜绝模板阿里云建站费用
  • 利用jsp做网站谷歌浏览器下载官网
  • 网站登录模板360外链
  • 在网站上放广告2023年8月疫情恢复
  • 怎样做联盟网站线在成都网站推广公司
  • 用vs做网站教程一个平台怎么推广
  • 北京移动端网站seo网络优化专员是什么意思
  • 有谁想做网站 优帮云广州seo搜索
  • 如何用本地视频做网站seo免费浏览网站
  • vs手机网站开发北京seo外包 靠谱
  • 网站前台右侧怎么做二维码凡科建站怎么样
  • 在网上哪个网站可以做兼职竞价推广代运营企业
  • 盘锦公司做网站石家庄seo全网营销
  • 重庆响应式网站平台seo快速优化软件
  • 网站文章发布seo是什么seo怎么做
  • 如何做简单的网站百度点击排名收费软件
  • 做彩投网站犯法吗网络小说排行榜
  • 电子工程师证怎么考西安seo外包
  • vps 同时wordpress vpn太原网站快速排名优化
  • 重庆旅游网站建设如何在微信上做推广
  • 开发一套小程序需要多少钱抖音seo点击软件排名
  • 怎么做商品购买网站域名是什么
  • seo营销推广全程实例朝阳区seo
  • 石家庄微网站建设公司哪家好线上营销怎么做
  • 定期更新网站国外搜索网站排名