• spark中ip归属地访问的次数练习

    时间:2024-04-02 14:39:37

    IP地址归属地信息练习用户访问日志信息:**案例需求:**根据访问日志的IP地址计算出访问者的归属地,并且按照省份,计算出访问次数,然后将计算好的结果写入到MySQL**案例实现步骤**1,加载IP地址归属地信息,切分出IP字段和省份信息,(将IP地址转换成十进制,方便于后面快速查找)2,将IP地址...

  • Spark App自动化分析和故障诊断

    时间:2024-04-01 14:56:45

    陈泽,苏宁云商IT总部高级技术经理。苏宁云商大数据离线计算平台的计算方向负责人,目前主要从事Yarn,Hive,Spark,Druid等计算组件研发工作。曾就职于百度,有多年的Spark大数据方向的研发经验,精通Spark SQL,Druid等内核原理,有丰富的任务故障诊断和性能调优经验。 本文系陈...

  • 探索图数据处理的魅力:使用Spark GraphX解析图数据和应用图算法

    时间:2024-04-01 13:28:59

    导语:在当今数据驱动的世界中,图数据处理和分析变得越来越重要。本文将介绍如何使用Spark GraphX,一个强大的图计算库,来处理和分析图数据。通过详细的Java代码示例和模拟输出结果,你将了解如何创建图、执行图操作和应用图算法,帮助你踏上图数据处理的探索之旅。 1. Spark GraphX简介...

  • 已解决!idea 启动spark类时,出错! JsonMappingException:Incompatible Jackson version: 2.9.8

    时间:2024-03-31 20:24:20

    问题描述:启动spark类报错如下:Caused by: com.fasterxml.jackson.databind.JsonMappingException: Incompatible Jackson version: 2.9.8原因:spark 依赖的版本过高 ,不兼容!解决:修改jackso...

  • spark伪分布式搭建及spark页面8080端口访问出错的问题

    时间:2024-03-31 20:18:37

    伪分布式搭建其实很简单(spark集群搭建都很简单)1、首先到官网下载spark压缩包2、下载命令行中使用:wget http://mirror.bit.edu.cn/apache/spark/spark-2.2.1/spark-2.2.1-bin-hadoop2.7.tgz3、解压tar -zxv...

  • Spark实战(三)本地连接远程Spark(Python环境)

    时间:2024-03-31 16:11:00

    一、Python环境准备   远程服务器上Python版本要与本地想匹配,这里本地使用Anaconda来进行安装,远程服务器之间安装。wget --no-check-certificate https://www.python.org/ftp/python/3.6.7/Python-3.6.7.tg...

  • CDH安装配置zeppelin-0.7.3以及配置spark查询hive表

    时间:2024-03-31 16:09:17

    1.下载zeppelinhttp://zeppelin.apache.org/download.html 我下载的是796MB的那个已经编译好的,如果需要自己按照环境编译也可以,但是要很长时间编译,这个版本包含了很多插件,我虽然是CDH环境但是这个也可以使用。2.修改配置文件cd  /zeppeli...

  • Hadoop+Spark大数据技术(微课版)曾国荪、曹洁版思维导图第三章 MapReduce分布式计算框架 (核心思想:“分而治之”)

    时间:2024-03-31 15:57:44

    第三章 MapReduce分布式计算框架 (核心思想:“分而治之”) 3.1 MapReduce 概述 3.1.1 并发、并行与分布式编程的概念 并发和并行 并发是指两个任务可以在重叠的时间段内启动、运行和完成; 并行是指任务在同一...

  • Spark -- 对DataFrame增加一列索引列(自增id列)==》(解决出现ID自增且唯一,但是不呈现自然数递增的问题)

    时间:2024-03-31 11:13:53

    Spark DataFrame 添加自增id  在用Spark 处理数据的时候,经常需要给全量数据增加一列自增ID序号,在存入数据库的时候,自增ID也常常是一个很关键的要素。在使用mmlspark的LightGBMRanker时也需要指定一列int/long类型的id列,下面是几种实现方式。方式一:...

  • PyCharm远程连接Spark【本地虚拟机或云主机】

    时间:2024-03-31 10:21:36

    环境说明:1、本地虚拟机版本是 CentOS6.9 | 连接的云主机是 Ubuntu18.04。【两个都连接成功了,方法步骤一样】2、保证虚拟机上的 Spark 能正常运行,并且启动了Spark。3、Spark 版本 2.4.5 。连接步骤:1、在虚拟机上安装 py4j 安装包。pip instal...

  • Spark RDD 按Key保存到不同文件

    时间:2024-03-30 18:07:18

    基本需求将Keyed RDD[(Key,Value)]按Key保存到不同文件。测试数据数据格式:id,studentId,language,math,english,classId,departmentId1,111,68,69,90,Class1,Economy2,112,73,80,96,Cla...

  • spark.sql集成hive:Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

    时间:2024-03-30 15:14:33

    SparkSQL集成hive错误:Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient写sparksql,查询hive表报错Unable to instantiate org.apach...

  • 一、Spark 架构及运行模式

    时间:2024-03-30 15:04:09

    一、Spark 是什么​Spark 是基于内存计算的框架。二、Spark 产生的背景​Spark 产生的原因主要是为了解决 Hadoop 的缺点,这里有一个时间线可以引出 Spark 的诞生。1、Hadoop 1.x——2011年​ ​ (Hadoop 1.x 架构)​​ ( Hadoop 1.x ...

  • Spark读取hbase表的几种方式

    时间:2024-03-30 15:00:50

    刚刚五一节,差点忘了还有个博客需要更新,赶紧上来码点字。开工把!!!环境:hadoop3.0+Spark2.2+hbase1.2+phoenix4.12基本上是都是比较新的环境,而且也比较稳定。但是hbase相对来说有点老了,但也还好。这个版本的hbase1.2还没有提供spark直接访问的api,...

  • Spark计算模型RDD(5)——DAG的生成和Spark的任务调度

    时间:2024-03-30 15:00:26

    DAGDAG(Directed Acyclic Graph)叫做有向无环图,原始的RDD通过一系列的转换就形成了DAG,根据RDD之间依赖关系的不同将DAG划分成不同的Stage(调度阶段)。对于窄依赖,partition的转换处理在一个Stage中完成计算。对于宽依赖,由于有Shuffle的存在,...

  • Spark 的工作流程

    时间:2024-03-30 14:55:55

    Spark工作流程中基本概念Application:应用程序Driver:表示main()函数,创建SparkContext。由SparkContext负责与ClusterManager通信,进行资源的申请,任务的分配和监控等。程序执行完毕后关闭SparkContextExecutor:某个Appl...

  • Spark-Submit 常用命令

    时间:2024-03-30 14:52:06

    一个Spark任务好不容易开发完成了,终于要上集群跑了,就差万里长征的最后一步了:通过Spark-Submit命令上集群运行,这时候需要做哪些常规与优化工作呢。这里贴一个常用的SparkSubmit提交脚本脚本名称:submitHelperLabel.sh脚本内容:spark-submit \--m...

  • 解决spark standalone模式 以cluster模式提交时找不到jar包问题

    时间:2024-03-30 14:50:24

    原submit提交脚本:#!/bin/bashspark-submit \ --class com.jxre.bigdata.sparks.SumIrradiateCalc \ --master spark://node1.sdp.cn:7077 \ --driver-memory 3G \ ...

  • 阿里蒋晓伟谈流计算和批处理引擎Blink,以及Flink和Spark的异同与优势

    时间:2024-03-30 13:30:08

    首届阿里巴巴在线技术峰会(Alibaba Online Technology Summit),将于7月19日-21日 20:00-21:30 在线举办。本次峰会邀请到阿里集团9位技术大V,分享电商架构、安全、数据处理、数据库、多应用部署、互动技术、Docker持续交付与微服务等一线实战经验,解读最新...

  • windows环境下spark local模式运行任务需要解决的五大问题

    时间:2024-03-30 13:21:01

    缘起一切都是因为穷,穷则思变前言公司赶大潮,组建了一套大数据集群服务器,ELK+Spark组合。但是因为资源倾斜,其实并没有给到靠谱的硬件资源。两台硬件服务器,一台华为3手服务器(6年前买的2手,两年前从老机房拉回来),一台戴尔服务器2手服务器。在上面基础上用vsphere虚拟化了六台虚机,3台es...