Spark的架构概述(章节一)

上传:中年中期 浏览: 8 推荐: 0 文件:PDF 大小:406.19KB 上传时间:2021-01-17 06:20:00 版权申诉
Spark的架构概述(章节一) 背景介绍 Spark是一个快如闪电的统一分析引擎(计算框架)用于大规模数据集的处理。Spark在做数据的批处理计算,计算性能大约是Hadoop MapReduce的10~100倍,因为Spark使用比较先进的基于DAG 任务调度(有向无环计算),可以将一个任务拆分成若干个阶段,然后将这些阶段分批次交给集群计算节点处理。 mapreduce计算分为两步,map阶段和reduce阶段,如果两步处理不了结果,则需要再次进行mapreduce计算,反复从磁盘上读写数据,从而降低效率。而spark是基于内存的计算,每次计算分为若干个阶段,从磁盘中读取一次数据后,直接在内
上传资源
用户评论