作为思索的人而行动,
作为行动的人而思索


这里只有我的呓语 ... ...



非原创内容,仅供自己参考。




YARN 的设计背景

Apache Hadoop YARN 是 Hadoop 的统一资源管理和调度平台,让各种不同的计算框架(如:MapReduce、 Spark 等)能通过它共享一个分布式集群的资源。YARN(Yet Another Resource Manager) 是 Hadoop 2 开始引入的,最初是从 MapReduce 中剥离出来以达到应用程序管理与资源管理两部分分离的目的,所以也叫 MRv2 。与它的竞争对手 Apache Mesos 相比,YARN 不需要接入的计算框架事先部署在 YARN 中,它们是作为客户端的库来使用,运行、升级和使用上更方便。

YARN 的特性:

  1. 支持多种计算框架。YARN 提供了一个全局的资源调度器,所有接入的计算框架需要先向该全局资源管理器申请资源,申请成功之后,再由框架自身的调度器决定资源交由哪个任务使用,也就是说,整个大的系统是个双层调度器,第一层是统一管理和调度平台提供的 …



这里指的是 Hadoop 里的 MapReduce 。




Apache Spark 的 shuffle 描述的是数据从 map side task 输出到 reduce side task 输入的这段过程。




Spark 3 后主流的流处理 API 。



知识共享许可协议 本作品采用知识共享署名-非商业性使用-相同方式共享 3.0 中国大陆许可协议进行许可,欢迎转载、演绎,
但是必须保留本文的署名 Charles(包含链接),且不得用于商业目的。