#+Spark相关文章

【Hive进阶】-- Hive SQL、Spark SQL和 Hive on Spark SQL
时间：2023-03-30 21:02:11
1.Hive SQL 1.1 基本介绍概念 Hive由Facebook开发，用于解决海量结构化日志的数据统计，于2008年贡献给 Apache 基金会。 Hive是基于Hadoop的数据仓库工具，可以将结构化数据映射为一张表，提供类似SQL语句查询功能本质：将Hive SQL转化成MapRe...
标签：Spark Hive（理论+实战）架构设计大数据数据仓库 hive spark Powered by 金山文档
提速 Spark SQL 2 倍，GLUTEN 向量化引擎原理剖析
时间：2023-03-30 10:14:33
来源：DataFunTalk导读本文主题为 Gluten 向量化引擎，提速 Spark 两倍性能。内容包括以下三部分：1. Why and What is Gluten？2. Gluten 实现原理3. 当前进展和后续工作分享嘉宾｜张智超 Kyligence 高级大数据架构师编辑整理｜张龙春 HW...
Apache Spark源码走读之3 -- Task运行期之函数调用关系分析
时间：2023-03-28 12:56:42
概要本篇主要阐述在TaskRunner中执行的task其业务逻辑是如何被调用到的，另外试图讲清楚运行着的task其输入的数据从哪获取，处理的结果返回到哪里，如何返回。准备spark已经安装完毕spark运行在local mode或local-cluster modelocal-cluster mod...
标签：Spark scala spark apache HarmonyOS 后端开发
Spark ThriftServer使用的大坑
时间：2023-02-27 16:57:21
当用beeline连接default后，通过use xxx切换到其他数据库，再退出，再次使用beeline -u jdbc:hive2://hadoop000:10000/default -n spark连接到default，此时后台连接的其实还是xxx测试步骤:1、beeline -u jdbc:...
Spark Sort Based Shuffle内存分析
时间：2023-02-26 13:22:38
分布式系统里的Shuffle 阶段往往是非常复杂的，而且分支条件也多，我只能按着我关注的线去描述。肯定会有不少谬误之处，我会根据自己理解的深入，不断更新这篇文章。前言借用和董神的一段对话说下背景：shuffle共有三种，别人讨论的是hash shuffle，这是最原始的实现，曾经有两个版本，第一版是...
基于Spark的FPGrowth算法的运用
时间：2023-02-24 13:06:19
一、FPGrowth算法理解Spark.mllib 提供并行FP-growth算法，这个算法属于关联规则算法【关联规则：两不相交的非空集合A、B，如果A=>B，就说A=>B是一条关联规则，常提及的{啤酒}-->{尿布}就是一条关联规则】，经常用于挖掘频度物品集。关于算法的介绍网上很...
云小课｜MRS数据分析-通过Spark Streaming作业消费Kafka数据
时间：2023-02-24 11:15:41
阅识风云是华为云信息大咖，擅长将复杂信息多元化呈现，其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云。更多精彩内容请单击此处。 ...
【转】搭建spark环境单机版
时间：2023-02-23 22:02:39
本文将介绍Apache Spark 1.6.0在单机的部署，与在集群中部署的步骤基本一致，只是少了一些master和slave文件的配置。直接安装scala与Spark就可以在单机使用，但如果用到hdfs系统的话hadoop和jdk也要配置，建议全部安装配置好。我的博客原文地址链接：http://b...
Hadoop 及Spark 分布式HA运行环境搭建
时间：2023-02-21 12:09:29
作者：京东物流秦彪工欲善其事必先利其器，在深入学习大数据相关技术之前，先手动从0到1搭建一个属于自己的本地Hadoop和Spark运行环境，对于继续研究大数据生态圈各类技术具有重要意义。本文旨在站在研发的角度上通过手动实践搭建运行环境，文中不拖泥带水过多讲述基础知识，结合Hadoop和Spar...
spark快速开发之scala基础之1 数据类型与容器
时间：2023-02-19 08:46:35
写在前面面向java开发者。实际上，具有java基础学习scala是很容易。java也可以开发spark,并不比scala开发的spark程序慢。但学习scala可有助于更快更好的理解spark。比如spark的很多算子group,filter之类的，全都是scala语言本身所具备的功能。再比如，想...
《关于我因为flink成为spark源码贡献者这件小事》
时间：2023-02-16 18:10:16
各位读者老爷请放下手上的板砖，我可真没有标题党，且容老弟慢慢道来。spark和flink本身相信我不用做过多的介绍，后端同学不管搞没搞过大数据，应该都多多少少听过。如果没听过，简单说，spark和flink之于大数据，就好比vue和react之于前端，就好比spring家族之于java。从2015年...
Spark Streaming源码初探 (3)
时间：2023-02-15 20:47:35
本节分析一下Spark Streaming生成RDD的过程(也是生成Job的过程)，DStream是Spark Streaming的抽象数据表示，底层是RDD实现。由于RDD是为了满足Job需要的，所以触发生成RDD的职责应该是由JobGenerator负责。换句话说：RDD的生成是在Job生成过程...
Spark Streaming源码初探 (2)
时间：2023-02-15 20:47:17
在 Spark Streaming源码初探 (1) 讲解基于Receiver方式创建DStream和简单分析StreamingContext的启动函数，本节将继续上一节的内容，主要从StreamingContext#start方法中的jobScheduler.start()开始。简单回顾一下Str...
spark streaming源码分析1 StreamingContext
时间：2023-02-15 20:47:11
博客地址: http://blog.csdn.net/yueqian_zhu/ 首先看一个最简单的例子，了解大致的样子： object NetworkWordCount { def main(args: Array[String]) { if (args.length < 2) ...
【源码学习之spark streaming 1.6.1 】
时间：2023-02-15 20:47:05
说明：个人原创，转载请说明出处 http://www.cnblogs.com/piaolingzxh/p/5634577.html 未完待续 ...
spark streaming源码解读
时间：2023-02-15 20:46:59
让我们按照源码一步步的解析。请一定一定一定和我们一起跟踪代码。一定要照着做，才能理解。我们先看下StreamingContext创建的时候有哪些成员变量被初始化了。 import org.apache.spark.SparkConf import org.apache.spark.stream...
Spark家族：Win10系统下搭建Scala开发环境
时间：2023-02-14 05:04:04
一、Scala环境基础Scala对Java相关的类，接口进行了包装，所以依赖Jvm环境。Jdk 1.8 scala 依赖scala 2.11安装版本idea 2017.3开发工具二、配置Scala解压版1）注意路径无空格和中文2）配置环境变量添加到path目录%SCALA_HOME%\bin3）...
spark练习--由IP得到所在地
时间：2023-02-13 20:49:48
今天我们就来介绍，如何根据一个IP来求出这个IP所在的地址是什么，首先我们如果要做这个内容，那么我们要有一个IP地址的所在地字典，这个我们可以在网上购买，形如: 1.0.1.0|1.0.3.255|16777472|16778239|亚洲|中国|福建|福州||电信|350100|China|CN|...
标签：练习 spark
贴几个spark提交任务的小脚本
时间：2023-02-13 08:52:56
spark单个master节点的提交方式 spark-submit --master spark://hadoop-namenode-02:7077 \--class com.dinpay.bdp.rcp.service.HzRuleBackendStat \--deploy-mode clus...
spark sql cache
时间：2023-02-13 05:45:13
1.几种缓存数据的方法例如有一张hive表叫做activity1.CACHE TABLE//缓存全表sqlContext.sql("CACHE TABLE activity")//缓存过滤结果sqlContext.sql("CACHE TABLE activity_cached as select ...

1 2 3 4 5