[大牛翻译系列]Hadoop(11)MapReduce 性能调优:诊断一般性能瓶颈

时间:2022-09-18 03:12:38

6.2.4 任务一般性能问题

这部分将介绍那些对map和reduce任务都有影响的性能问题。

技术37 作业竞争和调度器限制

即便map任务和reduce任务都进行了调优,但整个作业仍然会因为环境原因运行缓慢。

问题

需要判断作业是否运行得比集群中其它作业要慢。

方案

将正在执行的reduce任务数和Hadoop集群的最大reduce任务数相比较。

讨论

如果根据前几节的技术,发现作业已经正确配置,任务的吞吐量也正确,那么作业的缓慢就有可能是集群的资源竞争了。下面将介绍如何诊断集群的资源竞争。

JobTracker可以查看正在运行的作业的map和reduce任务的并发数,以及集群的最大并发负载能力(Capacity)。图6.21说明了如何将这些数据进行比较。

[大牛翻译系列]Hadoop(11)MapReduce 性能调优:诊断一般性能瓶颈

图中显示了正在运行的reduce实例数远远小于集群的最大并发负载能力。

小结

集群提供的并发能力将会倍所有正在运行的作业,调度器等共享。这些信息可以用JobTracker UI查看。如果存在同时运行的作业,那么对作业的吞吐量的优化就变得较为复杂。

默认情况下,MapReduce使用一个先进先出(FIFO)的调度器来分配并发作业间的资源。也就是说,先提交的作业将会被先执行。后提交的作业需要等待先提交的作业执行完毕。在有的情况下,为了让资源可以被更好的分配,需要根据作业的重要性来使用公正(Fair)调度器或处理能力(Capacity)调度器。此外,还可以自定义调度器,让有的作业得到比其他作业更多的资源。

技术38 使用堆转存(stack dump)来查找未优化的用户代码

效率低下的用户代码会拖累整个作业。例如,在JAVA中常见的字符令牌化技术实际上很没效率,很容易延长作业的运行时间。

问题

需要确定是否因为用户代码导致作业运行缓慢。

方案

对堆转存进行分析,找到用户代码中的性能瓶颈。这需要确认正在运行的任务的主机和进程ID。获取一系列的堆转存。

讨论

在MapReduce1.0.0和更早的版本中并不提供Map和Reduce任务中的用户代码的执行时间的指标。在这种情况下也许需要更新代码,记录用户代码的执行时间。不过在这个技术中,也许不一定需要更新代码。

在技术30(6.2.2)中介绍了如何计算map任务的吞吐量。本技术中的计算基于map的执行时间和输入数据的大小。基本计算方法和技术35(6.2.3)类似。

如果用户代码效率不够,那么吞吐量也会随之下降。但吞吐量偏低并不意味着用户代码效率低下。这就要依靠前几节介绍方法排除其它的可能。

同时,还可以根据任务进程的堆转存来诊断用户代码的效率。图6.22介绍了如何得到作业和任务的细节信息。

[大牛翻译系列]Hadoop(11)MapReduce 性能调优:诊断一般性能瓶颈

图6.23介绍了如何获取堆转存。

[大牛翻译系列]Hadoop(11)MapReduce 性能调优:诊断一般性能瓶颈

小结

使用堆转存查看JAVA进程的运行时间看起来很原始,其实很高效。对于那些CPU绑定的进程更是如此。不得不说堆转存没有探查器(profiler)更有效,更精确。然而相比于探查器需要配置并重启JVM,堆转存就不需要在MapReduce中很麻烦的这一步了。因此它应用领域更广泛。

当获取堆转存的时候,最好能够每隔一段时间获取一次。这样,就可以通过比较这些堆转存来查找原因。如果发现了不同的堆转存中存在相同的正在执行的代码,那么这些代码就很有可能是拖累整体速度的原因。

如果没有发现上述状况,也不代表不存在低效的代码。那么接下来就需要在代码中加入一些计时器来获取精确的执行时间了。

[大牛翻译系列]Hadoop(11)MapReduce 性能调优:诊断一般性能瓶颈的更多相关文章

  1. [大牛翻译系列]Hadoop(9)MapReduce 性能调优:理解性能瓶颈,诊断map性能瓶颈

    6.2 诊断性能瓶颈 有的时候作业的执行时间会长得惊人.想靠猜也是很难猜对问题在哪.这一章中将介绍如何界定问题,找到根源.涉及的工具中有的是Hadoop自带的,有的是本书提供的. 系统监控和Hadoo ...

  2. [大牛翻译系列]Hadoop 翻译文章索引

    原书章节 原书章节题目 翻译文章序号 翻译文章题目 链接 4.1 Joining Hadoop(1) MapReduce 连接:重分区连接(Repartition join) http://www.c ...

  3. 【Xamarin挖墙脚系列:应用的性能调优】

    原文:[Xamarin挖墙脚系列:应用的性能调优] 官方提供的工具:网盘地址:http://pan.baidu.com/s/1pKgrsrp 官方下载地址:https://download.xamar ...

  4. [大牛翻译系列]Hadoop(16)MapReduce 性能调优:优化数据序列化

    6.4.6 优化数据序列化 如何存储和传输数据对性能有很大的影响.在这部分将介绍数据序列化的最佳实践,从Hadoop中榨出最大的性能. 压缩压缩是Hadoop优化的重要部分.通过压缩可以减少作业输出数 ...

  5. [大牛翻译系列]Hadoop(8)MapReduce 性能调优:性能测量(Measuring)

    6.1 测量MapReduce和环境的性能指标 性能调优的基础系统的性能指标和实验数据.依据这些指标和数据,才能找到系统的性能瓶颈.性能指标和实验数据要通过一系列的工具和过程才能得到. 这部分里,将介 ...

  6. [大牛翻译系列]Hadoop(15)MapReduce 性能调优:优化MapReduce的用户JAVA代码

    6.4.5 优化MapReduce用户JAVA代码 MapReduce执行代码的方式和普通JAVA应用不同.这是由于MapReduce框架为了能够高效地处理海量数据,需要成百万次调用map和reduc ...

  7. MapReduce性能调优记录

    MapReduce原理 要知道怎么对MapReduce作业进行调优前提条件是需要对Map-Reduce的过程了然于胸. Map-Reduce运行原理图: Map Side 1.从磁盘读取数据并分片 默 ...

  8. [大牛翻译系列]Hadoop(14)MapReduce 性能调优:减小数据倾斜的性能损失

    6.4.4 减小数据倾斜的性能损失 数据倾斜是数据中的常见情况.数据中不可避免地会出现离群值(outlier),并导致数据倾斜.这些离群值会显著地拖慢MapReduce的执行.常见的数据倾斜有以下几类 ...

  9. [大牛翻译系列]Hadoop(12)MapReduce 性能调优:诊断硬件性能瓶颈

    6.2.5 硬件性能问题 尽管单独的硬件的MTTF(平均失效前时间)都数以年记,然而在集群中就完全不是这么一回事了.整个集群的MTTF就要小得多.这一节要介绍如何确定CPU,内存,磁盘和网络是否过度利 ...

随机推荐

  1. 【练习】ViewPager标签滑动

    效果图: 布局: <?xml version="1.0" encoding="utf-8"?> <RelativeLayout xmlns:a ...

  2. Using Amazon API Gateway with microservices deployed on Amazon ECS

    One convenient way to run microservices is to deploy them as Docker containers. Docker containers ar ...

  3. IDEA加密(转)

    1. 简介 IDEA是International Data Encryption Algorithm 的缩写,是1990年由瑞士联邦技术学院来学嘉X.J.Lai 和Massey提出的建议标准算法称作P ...

  4. xml to xsd ; xsd to xml

    xml to xsd 工具网站 https://www.freeformatter.com/xsd-generator.html 示例xml <?xml version="1.0&qu ...

  5. &lbrack;转帖&rsqb;老狼:你知道哪些关于 Windows 10 的骚操作?

    作者:老狼链接:https://www.zhihu.com/question/265781599/answer/579939418来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注 ...

  6. PYTHON-模块 json pickle shelve xml

    """ pickle 和 shevle 序列化后得到的数据 只有python才能解析 通常企业开发不可能做一个单机程序 都需要联网进行计算机间的交互 我们必须保证这个数据 ...

  7. HDU 2426 Interesting Housing Problem(二分图最佳匹配)

    http://acm.hdu.edu.cn/showproblem.php?pid=2426 题意:每n个学生和m个房间,现在要为每个学生安排一个房间居住,每个学生对于一些房间有一些满意度,如果满意度 ...

  8. TZOJ 1594 Optimal Milking&lpar;二分&plus;最大流&rpar;

    描述 FJ has moved his K (1 <= K <= 30) milking machines out into the cow pastures among the C (1 ...

  9. django使用orm方式查询mogodb的某段时间的值

    在使用djgango时,需要在数据表中过滤出在某段时间的内容,网上很多或者说Django的orm是针对mysql,且字段类型是datetime或者其他时间类型,使用__rang这个函数就可以查询某个时 ...

  10. mongodb&lowbar;profier

    http://docs.mongodb.org/manual/reference/database-profiler/ 一.获取.设置profile(profile用collection存储数据) d ...