spark中webUI的启动、调试、配置历史服务器,spark-Master-HA等

时间:2024-05-23 07:07:34

Spark WEBUI
        【Jobs,Stages,StorageLevel,Environment,Executors,SQL,Streaming 】
        4040端口可以看到当前application中的所有的job,点击job可以看到当前job下对应的stage,点击stage出现stage下的task。

上传文件:

hdfs dfs -put /root/test/words  /spark/data/

进入到Scala编程:去bin目录下:

./spark-shell --master spark://node01:7077

8080:sparkmaster

7077:sparkmaster提交的端口

8081:sparkworker的webUI端口

4040:web的端口

执行(必须要在active状态下启动):

 sc.textFile("hdfs://node01:8080/spark/data/words").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect()

 

Local:默认的是1

集群,默认的是2

定义:

Val Rdd1= sc.textFile("hdfs://node01:8080/spark/data/words")

触发执行:

Rdd1.cache()

Cache是一个懒算子,需要触发:

Rdd1.count()

 

Reducebykey:预聚合的

卸载清空内存:

Rdd1.unpersist(),卸载掉内存中的数据

提交:

./spark-shell --master  spark://node01:7077 --conf spark.eventLog.enabled=true --conf spark.eventlog.dir=hdfs://node01:8080/spark/log --name aaa

在这之前需要在spark文件夹下创建log文件

./spark-shell --master  spark://node01:7077  --name bbb

查看历史,在sbin目录下:

./start-history-server.sh

18080:历史服务器的端口

8088:yarn的端口

8080:spark集群的master端口

7077:spark提交的时候的端口号

4040:option的端口

6379:redis的端口

设置以压缩格式存储:

在conf目录下:

Spark-dafaults.conf文件下:

压缩格式存储提交:

./spark-shell --master spark://node01:7077 --name ccc

在hdfs下查看文件:

Hdfs  dfs  -cat  /root/test/words

查看历史记录:

首先配置:

Conf下default下:

spark.history.fs.logDirectory      hdfs://node01:8080/spark/log

然后去sbin目录下启动:

./start-history-server

历史服务器端口:18080

在hdfs上查看文件内容:

Hdfs dfs -cat /spark/log/app-...
spark-Master-HA

基于zookeeper,在standby的条件下的,与yarn,等无关

在conf下的spark-env.sh文件下设置:

export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dsp

ark.deploy.zookeeper.url=node02:2181,node03:2181,node04:2181 -Dspark.deploy.zookeeper.dir=/MasterHA0723"

复制分发:

scp ./spark-env.sh node04:`pwd`

在node01下

启动所有

在node02下设置master为node02,并单独启动master

这样:node01为alive

Node02为standby备用

当node01被挂了的时候,node02起来顶替

启动执行:

./spark-submit --master spark://node01:7077,node02:707

7 --class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar  100

Master启动起来之后,都是driver和executor之间活动,master之间的来回切换不影响

spark中webUI的启动、调试、配置历史服务器,spark-Master-HA等