• hadoop+Spark实战基于大数据技术之电视收视率企业项目实战

    时间:2024-04-03 22:40:50

    课程简介本课程将通过一个电视收视率项目实战驱动讲解,项目案例是国内的一家广电企业作为非洲国家的一个运营商,以用户收视行为数据作为基础数据,通过对频道和节目的分析,采用多维度统计分析的方法挖掘用户的收视行为特征。课程收获1.通过此案例可以学习大数据整体开发流程,课程是围绕一个大数据整理流程而做的教学课...

  • spark包链接kafka集群报错org.apache.kafka.common.KafkaException: Failed to construct kafka consumer

    时间:2024-04-03 19:49:06

    1、如果是spark执行的包请到spark下面的jars文件夹里检索是否拥有相关的jar包可以看到我这里是有的,那就不是jar包的问题2、确认是不是版本问题,在自己的本地测试里看一下maven的包我这边版本是一致的,所以也不是版本问题,那是什么原因造成创建消费失败的呢3、kafka的链接可以看到ka...

  • Spark作业运行时,报错java.io.IOException: Mkdirs failed to create directory file:/home/tmp/catalog/example/

    时间:2024-04-03 11:22:15

           今天在公司集群上将自己打好的jar扔上去,以spark2-submit脚本提交作业,等到接近中午时候,回头去看,发现报错:Job aborted due to stage failure: Task 10 in stage 6.0 failed 4 times, most recent...

  • spark history server部署

    时间:2024-04-02 16:46:53

    spark history server是spark提供的spark应用历史数据查询服务,可以通过history server页面查看已经运行结束的spark应用的所有job执行情况,用于分析,因为spark集群保存的spark应用数量和每个应用的job数量有一定的限制,对于时间比较久远的应用或者应...

  • spark中ip归属地访问的次数练习

    时间:2024-04-02 14:39:37

    IP地址归属地信息练习用户访问日志信息:**案例需求:**根据访问日志的IP地址计算出访问者的归属地,并且按照省份,计算出访问次数,然后将计算好的结果写入到MySQL**案例实现步骤**1,加载IP地址归属地信息,切分出IP字段和省份信息,(将IP地址转换成十进制,方便于后面快速查找)2,将IP地址...

  • Spark App自动化分析和故障诊断

    时间:2024-04-01 14:56:45

    陈泽,苏宁云商IT总部高级技术经理。苏宁云商大数据离线计算平台的计算方向负责人,目前主要从事Yarn,Hive,Spark,Druid等计算组件研发工作。曾就职于百度,有多年的Spark大数据方向的研发经验,精通Spark SQL,Druid等内核原理,有丰富的任务故障诊断和性能调优经验。 本文系陈...

  • 探索图数据处理的魅力:使用Spark GraphX解析图数据和应用图算法

    时间:2024-04-01 13:28:59

    导语:在当今数据驱动的世界中,图数据处理和分析变得越来越重要。本文将介绍如何使用Spark GraphX,一个强大的图计算库,来处理和分析图数据。通过详细的Java代码示例和模拟输出结果,你将了解如何创建图、执行图操作和应用图算法,帮助你踏上图数据处理的探索之旅。 1. Spark GraphX简介...

  • 已解决!idea 启动spark类时,出错! JsonMappingException:Incompatible Jackson version: 2.9.8

    时间:2024-03-31 20:24:20

    问题描述:启动spark类报错如下:Caused by: com.fasterxml.jackson.databind.JsonMappingException: Incompatible Jackson version: 2.9.8原因:spark 依赖的版本过高 ,不兼容!解决:修改jackso...

  • spark伪分布式搭建及spark页面8080端口访问出错的问题

    时间:2024-03-31 20:18:37

    伪分布式搭建其实很简单(spark集群搭建都很简单)1、首先到官网下载spark压缩包2、下载命令行中使用:wget http://mirror.bit.edu.cn/apache/spark/spark-2.2.1/spark-2.2.1-bin-hadoop2.7.tgz3、解压tar -zxv...

  • Spark实战(三)本地连接远程Spark(Python环境)

    时间:2024-03-31 16:11:00

    一、Python环境准备   远程服务器上Python版本要与本地想匹配,这里本地使用Anaconda来进行安装,远程服务器之间安装。wget --no-check-certificate https://www.python.org/ftp/python/3.6.7/Python-3.6.7.tg...

  • CDH安装配置zeppelin-0.7.3以及配置spark查询hive表

    时间:2024-03-31 16:09:17

    1.下载zeppelinhttp://zeppelin.apache.org/download.html 我下载的是796MB的那个已经编译好的,如果需要自己按照环境编译也可以,但是要很长时间编译,这个版本包含了很多插件,我虽然是CDH环境但是这个也可以使用。2.修改配置文件cd  /zeppeli...

  • Hadoop+Spark大数据技术(微课版)曾国荪、曹洁版思维导图第三章 MapReduce分布式计算框架 (核心思想:“分而治之”)

    时间:2024-03-31 15:57:44

    第三章 MapReduce分布式计算框架 (核心思想:“分而治之”) 3.1 MapReduce 概述 3.1.1 并发、并行与分布式编程的概念 并发和并行 并发是指两个任务可以在重叠的时间段内启动、运行和完成; 并行是指任务在同一...

  • Spark -- 对DataFrame增加一列索引列(自增id列)==》(解决出现ID自增且唯一,但是不呈现自然数递增的问题)

    时间:2024-03-31 11:13:53

    Spark DataFrame 添加自增id  在用Spark 处理数据的时候,经常需要给全量数据增加一列自增ID序号,在存入数据库的时候,自增ID也常常是一个很关键的要素。在使用mmlspark的LightGBMRanker时也需要指定一列int/long类型的id列,下面是几种实现方式。方式一:...

  • PyCharm远程连接Spark【本地虚拟机或云主机】

    时间:2024-03-31 10:21:36

    环境说明:1、本地虚拟机版本是 CentOS6.9 | 连接的云主机是 Ubuntu18.04。【两个都连接成功了,方法步骤一样】2、保证虚拟机上的 Spark 能正常运行,并且启动了Spark。3、Spark 版本 2.4.5 。连接步骤:1、在虚拟机上安装 py4j 安装包。pip instal...

  • Spark RDD 按Key保存到不同文件

    时间:2024-03-30 18:07:18

    基本需求将Keyed RDD[(Key,Value)]按Key保存到不同文件。测试数据数据格式:id,studentId,language,math,english,classId,departmentId1,111,68,69,90,Class1,Economy2,112,73,80,96,Cla...

  • spark.sql集成hive:Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

    时间:2024-03-30 15:14:33

    SparkSQL集成hive错误:Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient写sparksql,查询hive表报错Unable to instantiate org.apach...

  • 一、Spark 架构及运行模式

    时间:2024-03-30 15:04:09

    一、Spark 是什么​Spark 是基于内存计算的框架。二、Spark 产生的背景​Spark 产生的原因主要是为了解决 Hadoop 的缺点,这里有一个时间线可以引出 Spark 的诞生。1、Hadoop 1.x——2011年​ ​ (Hadoop 1.x 架构)​​ ( Hadoop 1.x ...

  • Spark读取hbase表的几种方式

    时间:2024-03-30 15:00:50

    刚刚五一节,差点忘了还有个博客需要更新,赶紧上来码点字。开工把!!!环境:hadoop3.0+Spark2.2+hbase1.2+phoenix4.12基本上是都是比较新的环境,而且也比较稳定。但是hbase相对来说有点老了,但也还好。这个版本的hbase1.2还没有提供spark直接访问的api,...

  • Spark计算模型RDD(5)——DAG的生成和Spark的任务调度

    时间:2024-03-30 15:00:26

    DAGDAG(Directed Acyclic Graph)叫做有向无环图,原始的RDD通过一系列的转换就形成了DAG,根据RDD之间依赖关系的不同将DAG划分成不同的Stage(调度阶段)。对于窄依赖,partition的转换处理在一个Stage中完成计算。对于宽依赖,由于有Shuffle的存在,...

  • Spark 的工作流程

    时间:2024-03-30 14:55:55

    Spark工作流程中基本概念Application:应用程序Driver:表示main()函数,创建SparkContext。由SparkContext负责与ClusterManager通信,进行资源的申请,任务的分配和监控等。程序执行完毕后关闭SparkContextExecutor:某个Appl...