- 0
- 0
- 0
授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里鈈积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
授予每个自然周发布4篇到6篇原创IT博文的用户本勋章将于次周周三上午根据鼡户上周的博文发布情况由系统自动颁发。
目前企业中使用最多的稳定版
课程资料中已经给大家提供了编译好的CHD Spark,当然也可以根据资料自己编译
(如果自己编译偠求网络环境较好,使用提供的软件、仓库,细心耐心操作,耗时1个半小时左右)
大家之前安装的如果是CDH的Hadoop那么安装Spark的时候使用红线标出的重新编譯之后的CDH版Spark即可
●下载Spark安装包
如果有权限问题,可以修改为root方便学习时操作,实际中使用运维分配的用户和权限即可
1.穿件一个txt文件
目录如果不存在可以创建
结束后可以删除测试文件夹
park是基于内存计算的大数据并行计算框架实际中运行计算任务肯定是使用集群模式,那么我们先来学习Spark自带的standalone集群模式了解一下它的架构及运行机制
●Spark架构图如下(先了解):
●修改Spark配置文件
这里,个人建议不要或者尽量少用mv cp完全可以,避免文件配置修改错误原文件配置丢失
●配置spark环境变量 (建议不添加,避免和Hadoop的命令冲突)
1.把其中一个框架的 sbin 从環境变量中去掉;
●通过scp 命令将配置文件分发到其他机器上
在主节点上启动spark集群
在主节点上停止spark集群
正常启动spark集群后查看spark的web界面,查看相关信息
使用集群模式运行Spark程序读取HDFS上的文件并执行WordCount
集群模式下程序是在集群上运行的,不要直接读取本地文件应该读取hdfs上的
因为程序运行在集群上,具体在哪个节点上我们运行并不知道其他节点可能并没有那个数据文件
如何解决这个单点故障的问题,Spark提供了两种方案:
该HA方案使用起来很简单首先启动一个ZooKeeper集群,然后在不同节点上啟动Master注意这些节点需要具有相同的zookeeper配置。
●先停止Sprak集群
在普通模式下启动spark集群
只需要茬主节点上执行start-all.sh 就可以了
在高可用模式下启动spark集群
先需要在任意一台主节点上执行start-all.sh
可以观察到有一台状态为StandBy
●测试集群模式提交任务
注意:不需要集群因为把Spark程序提交给YARN运行本质上是把字节码给YARN集群上的JVM运行,但是得有一个东西帮我去把任务提交上个YARN所以需要一个单机版的Spark,里面的有spark-shell命令spark-submit命令
slaves文件不需要改, 为解压原有的
授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里鈈积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
授予每个自然周发布4篇到6篇原创IT博文的用户本勋章将于次周周三上午根据鼡户上周的博文发布情况由系统自动颁发。