您现在的位置是:首页 > 正文

spark相比MapReduce的优势

2024-04-01 01:21:40阅读 2

spark 比Hadoop快的原因:数据本地性、调度优化、传输优化,最主要的是基于内存计算和引入了DAG。Hadoop的计算结果在磁盘中,spark是在内存中;数据计算任务需要多个步骤时,Hadoop需要引入Oozie等工具,但是spark有DAG

Hadoop中,每一个job 的计算结果都会存储在hdfs中,所以每一步计算都要进行硬盘的IO,大大增加了系统的延迟。

对rdd的操作可以像函数式编程中操作内存中的集合一样直观,简便

MapReduce会将中间数据存放于硬盘中,而spark会把中间数据缓存在内存中,从而减少了很多IO导致的延迟,而且spark把迭代过程中每一步的计算结果都缓存在内存中,所以非常适合各类迭代算法

在任务(task)级别,spark的并行机制是多线程模型,而MapReduce是多进程模型

spark 随时可以把计算好的rdd缓存在内存中,以便下次计算时使用,大幅度减少了硬盘读写的开销,而且缓存rdd的时候,它所有的依赖关系也会被一并存下来,所以持久化的rdd有自动的容错机制,如果rdd的任一分区丢失了,通过使用原先创建它的转换操作,它将会被自动重算

同时惰性求值的设计可以让spark的运算更加高效和快速。比如在行动操作first()的时候开始真正的运算,只扫描第一个匹配的,不需要读取整个文件。
参考:
http://f.dataguru.cn/thread-629612-1-1.html
http://lxw1234.com/archives/2016/05/666.htm

网站文章

  • kibana 基本使用语法

           时间选择器默认的时间过滤器设置为最近 15 分钟。你可以用页面顶部的时间选择器(Time Picker)来修改时间过滤器,或者选择一个特定的时间间隔,或者直方图的时间范围。要用时间选择器来修改时间过滤器:点击菜单栏右上角显示的 Time Filter 打开时间选择器。快速过滤,直接选择一个短链接即可。要指定相对时间过滤,点击 Relative 然后输入...

    2024-04-01 01:21:14
  • Linux用户被锁定后如何解锁

    linux用户被锁定后如何解锁

    2024-04-01 01:21:08
  • 应用与系统稳定性第一篇---ANR问题分析的一般套路

    应用与系统稳定性第一篇---ANR问题分析的一般套路

    image.pngANR(App Not Responding)基本上99%的App都有,即使是系统,也有system_anr,我相信虽然ANR问题这样的普遍,还是有很多人对ANR问题即熟悉又陌生的,...

    2024-04-01 01:21:01
  • linux mysql 代码_linux c MySQL代码(参考)

    Linux下c链接MySQL数据库添删改查1.[代码]Linux下c链接MySQL数据库添删改查#include #include #include #include //包含MySQL头文件#inc...

    2024-04-01 01:20:53
  • PHP中String类型

    1.字符串类型分为单引号字符串,双引号字符串。 单引号字符串是真正的字符串,会原样输出。双引号字符串会解析变量。那么单引号字符串执行效率更高。 如果字符串中有单引号,则需要转义,用反斜线(\),如:借用下博友代码: $var_char = '字符串中包含\'需要转义'; echo $var_char; //输出:字符串中包含'需要转义 ?> 如果在字符串

    2024-04-01 01:20:28
  • 即插即用 | ORCTrack:有效解决DeepSORT等方法的遮挡问题!

    即插即用 | ORCTrack:有效解决DeepSORT等方法的遮挡问题!

    作者|AI视界引擎 编辑| 集智书童点击下方卡片,关注“自动驾驶之心”公众号ADAS巨卷干货,即可获取点击进入→自动驾驶之心【目标跟踪】技术交流群本文只做学术分享,如有侵权,联系删文多目标跟踪(Multi-Object Tracking,MOT)是计算机视觉领域中一项关键任务,旨在同时预测目标的边界框和身份。尽管最先进的方法通过共同优化检测和ReID特征学习的多任务问题取得了显著进展,但鲜...

    2024-04-01 01:20:21
  • 计算机四级网络工程师科目代号,2017计算机四级网络工程师基础训练题

    计算机四级网络工程师科目代号,2017计算机四级网络工程师基础训练题

    2017计算机四级网络工程师基础训练题为了大家能够对《网络工程师》科目有一个系统的复习,下面百分网小编就收集整理了以下2017计算机四级网络工程师基础训练题,希望对您的学习有所帮助!一、分析题1.阅读...

    2024-04-01 01:20:13
  • 第三方库的安装:Pangolin - _Mr_y - 博客园

    第三方库的安装:Pangolin - _Mr_y - 博客园

    2024-04-01 01:19:46
  • Linux定时备份MySQL数据库 最新发布

    Linux定时备份MySQL数据库

    2024-04-01 01:19:37
  • 小程序开发

    小程序开发

    小程序开发

    2024-04-01 01:19:30