当前位置: 首页 > news >正文

重庆公司网站建设价格网络舆情处置的五个步骤

重庆公司网站建设价格,网络舆情处置的五个步骤,拓之朴 做网站多少钱,垂直网站导航是谁做的MapReduce 的 Shuffle 过程指的是 MapTask 的后半程,以及ReduceTask的前半程,共同组成的。 从 MapTask 中的 map 方法结束,到 ReduceTask 中的 reduce 方法开始,这个中间的部分就是Shuffle。是MapReduce的核心,心脏。 …

MapReduce 的 Shuffle 过程指的是 MapTask 的后半程,以及ReduceTask的前半程,共同组成的。
从 MapTask 中的 map 方法结束,到 ReduceTask 中的 reduce 方法开始,这个中间的部分就是Shuffle。是MapReduce的核心,心脏。

map端:

1、map中的context.write方法,对外写出的时候,其实是写入到了一个环形缓冲区内(内存形式的),这个环形缓冲区大小是100M,可以通过参数设置。如果里面的数据大于80M,就开始溢写(从内存中将数据写入到磁盘上)。溢写的文件存放地址可以设置。


2、在溢写过程中,环形缓冲区不会停止工作,是会利用剩余的20%继续存入环形缓冲区的。除非是环形缓冲区的内存满了,map任务就被阻塞了。
在溢写出来的文件中,是排过序的,排序规则:快速排序算法。在排序之前,会根据分区的算法,对数据进行分区。在内存中,先分区,在每一个分区中再排序,接着溢写到磁盘上的。


3、溢写出来的小文件需要合并为一个大文件,因为每一个MapTask只能有一份数据。就将相同的分区文件合并,并且排序(此处是归并排序)。每次合并的时候是10个小文件合并为一个大文件,进行多次合并,最终每一个分区的文件只能有一份。
假如100个小文件,需要合并几次呢?
100  每10分合并一次,第一轮:100个文件合并为了10个文件,这10个文件又合并为一个大文件,总共合并了11次。

4、将内存中的数据,溢写到磁盘上,还可以指定是否需要压缩,以及压缩的算法是什么。

reduce端: 

1、reduce端根据不同的分区,拉取每个服务器上的相同的分区的数据。
reduce任务有少量复制线程,因此能够并行取得map输出。默认值是5个线程,但这个默认值可以修改,设置mapreduce.reduce.shuffle. parallelcopies 属性即可。


2、如果map上的数据非常的小,该数据会拉取到reduce端的内存中,如果数据量比较大,直接拉取到reduce端的硬盘上。

http://www.ds6.com.cn/news/98729.html

相关文章:

  • 关于建网站做淘宝联盟社群运营
  • 长沙做网站建设百度客服在线咨询
  • 网站转移动版免费个人网站模板
  • 发布网站需要备案吗google搜索引擎下载
  • 桂林dj网站百度一下网页版搜索引擎
  • 香港响应式网站建设广西壮族自治区在线seo关键词排名优化
  • 手工做环保衣的网站网站seo 工具
  • 新手如何自己做网站广告营销是做什么的
  • 广州专业的网站建设公司排名广告公司招聘
  • 衡阳做网站营销软文
  • 去菲律宾做网站海外seo培训
  • 手机批发市场进货网站百度关键字优化精灵
  • html 网站开发武汉seo公司哪家专业
  • 烟台网站建设设计开发seo网络推广优化
  • 如何开个微信公众号外汇seo公司
  • 做网站电销话术交换友情链接的目的
  • 保定网站制作价格企业网络营销推广方案策划范文
  • wordpress 500 php版本百度网盘优化
  • 外包做网站公司有哪些2022最近热点事件及评述
  • wordpress 抄袭查询郑州seo技术代理
  • 手机网站 域名315影视行业
  • 上海松江区做网站的公司网站点击量查询
  • 南昌智能建站模板seo收费低
  • 盐山县招聘网站建设seo服务加盟
  • 淘宝网站建设可行性分析网页版登录入口
  • 南宁网站建设网站免费建网站最新视频教程
  • 合肥网站建设托管线上营销的方式
  • 网站内容板块调换位置提升关键词
  • 网站建设绵阳全网营销骗局揭秘
  • 优秀企业网站案例百度搜索指数排行榜