Apache

YARN又称为Mapreduce version 2（MRv2）是hadoop2.x的新架构，它将旧Hadoop Mapreduce框架中的JobTracker的资源管理和作业生命周期管理拆分成两个组件即ResourceManager(RM)和ApplicationMaster(AM)

一、为何需要MRv2？

mr1vsmr2

MRv1与MRv2对比

MRv1资源管理问题

Hadoop1.0引入了“slot”的概念，每个slot代表了各个节点上的一份资源（CPU、内存等），MRv1把Map和Reduce的资源单独区分，即Map slot、Reduce slot，两个阶段的slot不能共享，这意味着资源的利用率大大降低
非MR应用不能分享资源，所以只能运行MR计算框架的应用
每个集群只有一个JobTracker,限制了集群的扩展，集群规模限制在4000个节点左右

MRv2资源管理方案

舍弃“slot”的概念，每个节点以“资源”（CPU、内存等）为单位分配给有需要的应用
支持运行MR应用和非MR应用
JobTracker的大量功能被迁移到ApplicationMaster（AM），集群内可以存在多个AM（每个应用程序都拥有一个独立的AM），集群可以扩展到上万个节点

二、YARN架构

YARN_Architecture

YARN架构图(via Apache Hadoop)

资源管理器（ResourceManager，RM）

ResourceManager运行在主节点（Master）上，负责全局资源调度(分配/回收)，处理各个应用的资源请求，ResourceManager由调度器（Scheduler）和应用管理器（ApplicationsManager， AsM）组成

调度器（Scheduler）
调度器根据资源调度策略（例如Capacity Scheduler、Fair Scheduler），将包含适当资源（CPU、内存等）的资源容器（Container）分配给相应的节点，应用程序的各个任务均在容器内执行，且只能使用容器分配到的资源.调度器只负责资源调度，不关心应用的执行状态.
阅读全文 →

可以举一个简单的例子来说明Apache的工作流程，我们平时去餐厅吃饭.餐厅的工作模式是一个服务员全程服务客户，流程是这样，服务员在门口等候客人(listen)，客人到了就接待安排的餐桌上(accept)，等着客户点菜(request uri)，去厨房叫师傅下单做菜（磁盘I/O），等待厨房做好（read），然后给客人上菜(send)，整个下来服务员(进程)很多地方是阻塞的.这样客人一多（HTTP请求一多），餐厅只能通过叫更多的服务员来服务（fork进程），但是由于餐厅资源是有限的（CPU），一旦服务员太多管理成本很高（CPU上下文切换），这样就进入一个瓶颈.

再来看看Nginx得怎么处理？餐厅门口挂个门铃（注册epoll模型的listen），一旦有客人（HTTP请求）到达，派一个服务员去接待（accept），之后服务员就去忙其他事情了（比如再去接待客人），等这位客人点好餐就叫服务员（数据到了read()），服务员过来拿走菜单到厨房（磁盘I/O），服务员又做其他事情去了，等厨房做好了菜也喊服务员（磁盘I/O结束），服务员再给客人上菜（send()），厨房做好一个菜就给客人上一个，中间服务员可以去干其他事情.整个过程被切分成很多个阶段，每个阶段都有相应的服务模块.我们想想，这样一旦客人多了，餐厅也能招待更多的人.

FelixHo's Space

42 is the ANS to everything

Menu

Widgets

Search

Hadoop之YARN/MRv2

一、为何需要MRv2？

MRv1资源管理问题

MRv2资源管理方案

二、YARN架构

资源管理器（ResourceManager，RM）

Nginx与Apache的区别