spark相关文章_第5页

spark中ip归属地访问的次数练习
时间：2024-04-02 14:39:37
IP地址归属地信息练习用户访问日志信息：**案例需求：**根据访问日志的IP地址计算出访问者的归属地，并且按照省份，计算出访问次数，然后将计算好的结果写入到MySQL**案例实现步骤**1，加载IP地址归属地信息，切分出IP字段和省份信息，（将IP地址转换成十进制，方便于后面快速查找）2，将IP地址...
Spark App自动化分析和故障诊断
时间：2024-04-01 14:56:45
陈泽，苏宁云商IT总部高级技术经理。苏宁云商大数据离线计算平台的计算方向负责人，目前主要从事Yarn，Hive，Spark，Druid等计算组件研发工作。曾就职于百度，有多年的Spark大数据方向的研发经验，精通Spark SQL，Druid等内核原理，有丰富的任务故障诊断和性能调优经验。本文系陈...
探索图数据处理的魅力：使用Spark GraphX解析图数据和应用图算法
时间：2024-04-01 13:28:59
导语：在当今数据驱动的世界中，图数据处理和分析变得越来越重要。本文将介绍如何使用Spark GraphX，一个强大的图计算库，来处理和分析图数据。通过详细的Java代码示例和模拟输出结果，你将了解如何创建图、执行图操作和应用图算法，帮助你踏上图数据处理的探索之旅。 1. Spark GraphX简介...
已解决！idea 启动spark类时，出错！ JsonMappingException：Incompatible Jackson version: 2.9.8
时间：2024-03-31 20:24:20
问题描述：启动spark类报错如下：Caused by: com.fasterxml.jackson.databind.JsonMappingException: Incompatible Jackson version: 2.9.8原因：spark 依赖的版本过高，不兼容！解决：修改jackso...
spark伪分布式搭建及spark页面8080端口访问出错的问题
时间：2024-03-31 20:18:37
伪分布式搭建其实很简单（spark集群搭建都很简单）1、首先到官网下载spark压缩包2、下载命令行中使用：wget http://mirror.bit.edu.cn/apache/spark/spark-2.2.1/spark-2.2.1-bin-hadoop2.7.tgz3、解压tar -zxv...
Spark实战(三)本地连接远程Spark(Python环境)
时间：2024-03-31 16:11:00
一、Python环境准备远程服务器上Python版本要与本地想匹配，这里本地使用Anaconda来进行安装，远程服务器之间安装。wget --no-check-certificate https://www.python.org/ftp/python/3.6.7/Python-3.6.7.tg...
CDH安装配置zeppelin-0.7.3以及配置spark查询hive表
时间：2024-03-31 16:09:17
1.下载zeppelinhttp://zeppelin.apache.org/download.html 我下载的是796MB的那个已经编译好的，如果需要自己按照环境编译也可以，但是要很长时间编译，这个版本包含了很多插件，我虽然是CDH环境但是这个也可以使用。2.修改配置文件cd /zeppeli...
Hadoop+Spark大数据技术（微课版）曾国荪、曹洁版思维导图第三章 MapReduce分布式计算框架（核心思想：“分而治之”）
时间：2024-03-31 15:57:44
第三章 MapReduce分布式计算框架（核心思想：“分而治之”） 3.1 MapReduce 概述 3.1.1 并发、并行与分布式编程的概念并发和并行并发是指两个任务可以在重叠的时间段内启动、运行和完成；并行是指任务在同一...
Spark -- 对DataFrame增加一列索引列(自增id列)==》（解决出现ID自增且唯一，但是不呈现自然数递增的问题）
时间：2024-03-31 11:13:53
Spark DataFrame 添加自增id 在用Spark 处理数据的时候，经常需要给全量数据增加一列自增ID序号，在存入数据库的时候，自增ID也常常是一个很关键的要素。在使用mmlspark的LightGBMRanker时也需要指定一列int/long类型的id列，下面是几种实现方式。方式一：...
PyCharm远程连接Spark【本地虚拟机或云主机】
时间：2024-03-31 10:21:36
环境说明：1、本地虚拟机版本是 CentOS6.9 | 连接的云主机是 Ubuntu18.04。【两个都连接成功了，方法步骤一样】2、保证虚拟机上的 Spark 能正常运行，并且启动了Spark。3、Spark 版本 2.4.5 。连接步骤：1、在虚拟机上安装 py4j 安装包。pip instal...
Spark RDD 按Key保存到不同文件
时间：2024-03-30 18:07:18
基本需求将Keyed RDD[(Key,Value)]按Key保存到不同文件。测试数据数据格式：id,studentId,language,math,english,classId,departmentId1,111,68,69,90,Class1,Economy2,112,73,80,96,Cla...
spark.sql集成hive:Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
时间：2024-03-30 15:14:33
SparkSQL集成hive错误：Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient写sparksql，查询hive表报错Unable to instantiate org.apach...
一、Spark 架构及运行模式
时间：2024-03-30 15:04:09
一、Spark 是什么Spark 是基于内存计算的框架。二、Spark 产生的背景Spark 产生的原因主要是为了解决 Hadoop 的缺点，这里有一个时间线可以引出 Spark 的诞生。1、Hadoop 1.x——2011年 (Hadoop 1.x 架构) （ Hadoop 1.x ...
Spark读取hbase表的几种方式
时间：2024-03-30 15:00:50
刚刚五一节，差点忘了还有个博客需要更新，赶紧上来码点字。开工把！！！环境：hadoop3.0+Spark2.2+hbase1.2+phoenix4.12基本上是都是比较新的环境，而且也比较稳定。但是hbase相对来说有点老了，但也还好。这个版本的hbase1.2还没有提供spark直接访问的api,...
Spark计算模型RDD（5）——DAG的生成和Spark的任务调度
时间：2024-03-30 15:00:26
DAGDAG(Directed Acyclic Graph)叫做有向无环图，原始的RDD通过一系列的转换就形成了DAG，根据RDD之间依赖关系的不同将DAG划分成不同的Stage(调度阶段)。对于窄依赖，partition的转换处理在一个Stage中完成计算。对于宽依赖，由于有Shuffle的存在，...
Spark 的工作流程
时间：2024-03-30 14:55:55
Spark工作流程中基本概念Application：应用程序Driver：表示main()函数，创建SparkContext。由SparkContext负责与ClusterManager通信，进行资源的申请，任务的分配和监控等。程序执行完毕后关闭SparkContextExecutor：某个Appl...
Spark-Submit 常用命令
时间：2024-03-30 14:52:06
一个Spark任务好不容易开发完成了，终于要上集群跑了，就差万里长征的最后一步了：通过Spark-Submit命令上集群运行，这时候需要做哪些常规与优化工作呢。这里贴一个常用的SparkSubmit提交脚本脚本名称：submitHelperLabel.sh脚本内容：spark-submit \--m...
解决spark standalone模式以cluster模式提交时找不到jar包问题
时间：2024-03-30 14:50:24
原submit提交脚本：#!/bin/bashspark-submit \ --class com.jxre.bigdata.sparks.SumIrradiateCalc \ --master spark://node1.sdp.cn:7077 \ --driver-memory 3G \ ...
阿里蒋晓伟谈流计算和批处理引擎Blink，以及Flink和Spark的异同与优势
时间：2024-03-30 13:30:08
首届阿里巴巴在线技术峰会（Alibaba Online Technology Summit），将于7月19日-21日 20:00-21:30 在线举办。本次峰会邀请到阿里集团9位技术大V，分享电商架构、安全、数据处理、数据库、多应用部署、互动技术、Docker持续交付与微服务等一线实战经验，解读最新...
windows环境下spark local模式运行任务需要解决的五大问题
时间：2024-03-30 13:21:01
缘起一切都是因为穷，穷则思变前言公司赶大潮，组建了一套大数据集群服务器，ELK+Spark组合。但是因为资源倾斜，其实并没有给到靠谱的硬件资源。两台硬件服务器，一台华为3手服务器（6年前买的2手，两年前从老机房拉回来），一台戴尔服务器2手服务器。在上面基础上用vsphere虚拟化了六台虚机，3台es...

1 2 3 4 5