博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
大数据(6) - MapReduce简易介绍入门
阅读量:6614 次
发布时间:2019-06-24

本文共 1272 字,大约阅读时间需要 4 分钟。

一 MapReduce入门

MapReduce定义(简单来说就是hadoop的数据分析核心,理解其中的原理,则可以分析聚合一切需求)

Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。

Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。

 MapReduce优缺点

优点

1)MapReduce 易于编程。它简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分布到大量廉价的PC机器上运行。也就是说你写一个分布式程序,跟写一个简单的串行程序是一模一样的。就是因为这个特点使得MapReduce编程变得非常流行。

2)良好的扩展性。当你的计算资源不能得到满足的时候,你可以通过简单的增加机器来扩展它的计算能力。

3)高容错性。MapReduce设计的初衷就是使程序能够部署在廉价的PC机器上,这就要求它具有很高的容错性。比如其中一台机器挂了,它可以把上面的计算任务转移到另外一个节点上运行,不至于这个任务运行失败,而且这个过程不需要人工参与,而完全是由Hadoop内部完成的。

4)适合PB级以上海量数据的离线处理。这里加红字体离线处理,说明它适合离线处理而不适合在线处理。比如像毫秒级别的返回一个结果,MapReduce很难做到。

缺点

MapReduce不擅长做实时计算、流式计算、DAG(有向图)计算。

1)实时计算。MapReduce无法像Mysql一样,在毫秒或者秒级内返回结果。

2)流式计算。流式计算的输入数据是动态的,而MapReduce的输入数据集是静态的,不能动态变化。这是因为MapReduce自身的设计特点决定了数据源必须是静态的。

3)DAG(有向图)计算。多个应用程序存在依赖关系,后一个应用程序的输入为前一个的输出。在这种情况下,MapReduce并不是不能做,而是使用后,每个MapReduce作业的输出结果都会写入到磁盘,会造成大量的磁盘IO,导致性能非常的低下。

 

超简单使用栗子

1.在hdfs根目录创建一个input文件夹

bin/hdfs dfs -mkdir /input

  

2.创建并上传一个词库文件到hdfs准备用来分析

vim words.txtabc aaa bbb aaa123 aaa 123

  

bin/hdfs dfs -put words.txt /input/

  

3.执行分析jar文件,分析这个词库文件每个词分别出现多少次,并输出到output文件夹中

bin/yarn jar hadoop_syllabus-1.0-SNAPSHOT.jar mapreduce.WordCountRunner /input/ /output/

  

4.查看输出的内容

bin/hdfs dfs -cat /output/*

  

 

转载于:https://www.cnblogs.com/shifu204/p/9605848.html

你可能感兴趣的文章
IBM上半年新增3万名员工 已有7万人使用Mac办公
查看>>
2020年全球以太网交换机市场将超260亿美元
查看>>
自动化测试方式策略分析
查看>>
docker(14):centos7 安装docker hub harbor,可视化registry
查看>>
你以为 Snapchat 做的是社交,但它却说自己是一家相机公司
查看>>
2017年智能交通市场三个看点
查看>>
Server2016虚拟机安装(评估版升级正式版、180天评估版升级)
查看>>
飞机维修领域,RFID技术作用巨大
查看>>
Slack 是如何变成史上增长最逆天的企业级应用的?
查看>>
十分简单的redis使用说明及性能测试
查看>>
乱象丛生的IDC行业,冒然闯入必将铩羽而归
查看>>
Intel仍有黑科技 硅光学芯片正朝400Gbps迈进
查看>>
早定年夜饭 中华通网络电话来帮忙
查看>>
《Python编程实战:运用设计模式、并发和程序库创建高质量程序》—— 2.1 适配器模式...
查看>>
以大数据为支撑勾勒体育产业蓝图
查看>>
数据资产的运营商--天市大数据交易平台
查看>>
中小企业如何成功转型跨境电商
查看>>
《UNIX网络编程 卷1:套接字联网API(第3版)》——8.8 验证接收到的响应
查看>>
java中文乱码解决之道(二)—–字符编码详解:基础知识 + ASCII + GB**
查看>>
《ANTLR 4权威指南》——2.5 语法分析树监听器和访问器
查看>>