简单的介绍一下大数据中最重要的MapReduce

浏览：1911 ℃

字体：大中小

发布时间：2019-09-24 09:16:41

来源：今日头条

简单的介绍一下大数据中最重要的MapReduce
MapReduce执行流程图

概述

MapReduce是一种分布式计算模型，由Google提出，主要用于搜索领域，解决海量数据的计算问题。

MapReduce是分布式运行的，由两个阶段组成：Map和Reduce，Map阶段是一个独立的程序，有很多个节点同时运行，每个节点处理一部分数据。

Reduce阶段是一个独立的程序，有很多个节点同时运行，每个节点处理一部分数据。

使用

MapReduce框架都有默认实现，用户只需要覆盖map()和reduce()两个函数，即可实现分布式计算，非常简单。

这两个函数的形参和返回值都是，使用的时候一定要注意构造。

1.获取每一个block块中的文本，遍历所有，回去其中的一行str

因为要统计的是每一个单词i的次数，所以还需要直到文本中有哪些单词，可以根据字符串的特点，使用split()进行切割。

根据要求，需将每一个单词i转换为的形式，k为单词本身，v为单词出现的次数。

2.因为mr的计算是分布式的，每一个map(称之为一个mapper task)计算其中的一个block块数据。

经过上述操作之后，系统会将计算结果输出给用户，一般会先存储(落地)到hdfs，然后反馈给用户。

到此为止，MapReduce执行完毕，接下来就可以进行大数据的其他一系列操作了。

更多信息来自：东方联盟网 vm888.com

报名学习加微信/QQ 1602007，关注《东方联盟网》微信公众号

>更多相关文章

首页推荐

东方联盟网培训质量如何?靠谱吗?

　　佛山市东联科技有限公司一直秉承“一切以用户价值为依归

相关文章

24小时热门资讯

24小时回复排行

热门推荐

最新资讯

网络安全

操作系统

黑客防御

站长知识