Python搭建Spark分布式集群环境

上传:yi39895_net 浏览: 46 推荐: 0 文件:PDF 大小:127.13KB 上传时间:2020-11-21 22:49:59 版权申诉

Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。Spark 最大的特点就是快,可比 Hadoop MapReduce 的处理速度快 100 倍。本教程采用Spark2.0以上版本搭建集群,同样适用于搭建Spark1.6.2集群。Spark分布式集群的安装环境,需要事先配置好Hadoop的分布式集群环境。这里采用3台机器(节点)作为实例来演示如何搭建Spark集群,其中1台机器(节点)作为Master节点,另外两台机器(节点)作为Slave节点,主机名分别为Slave01和Slave02。在Master节点机器上,访问Spark官方下载地址,按照如下图下载。在Master主机上执行如下命令:在slave01,slave02节点上分别执行下面同样的操作:启动Spark集群前,要先启动Hadoop集群。

上传资源
用户评论