• 【Hive进阶】-- Hive SQL、Spark SQL和 Hive on Spark SQL

    时间:2023-03-30 21:02:11

    1.Hive SQL 1.1 基本介绍 概念 Hive由Facebook开发,用于解决海量结构化日志的数据统计,于2008年贡献给 Apache 基金会。 Hive是基于Hadoop的数据仓库工具,可以将结构化数据映射为一张表,提供类似SQL语句查询功能 本质:将Hive SQL转化成MapRe...

  • 提速 Spark SQL 2 倍,GLUTEN 向量化引擎原理剖析

    时间:2023-03-30 10:14:33

    来源:DataFunTalk导读 本文主题为 Gluten 向量化引擎,提速 Spark 两倍性能。内容包括以下三部分:1. Why and What is Gluten?2. Gluten 实现原理3. 当前进展和后续工作分享嘉宾|张智超 Kyligence 高级大数据架构师编辑整理|张龙春 HW...

  • Apache Spark源码走读之3 -- Task运行期之函数调用关系分析

    时间:2023-03-28 12:56:42

    概要本篇主要阐述在TaskRunner中执行的task其业务逻辑是如何被调用到的,另外试图讲清楚运行着的task其输入的数据从哪获取,处理的结果返回到哪里,如何返回。准备spark已经安装完毕spark运行在local mode或local-cluster modelocal-cluster mod...

  • Spark ThriftServer使用的大坑

    时间:2023-02-27 16:57:21

    当用beeline连接default后,通过use xxx切换到其他数据库,再退出,再次使用beeline -u jdbc:hive2://hadoop000:10000/default -n spark连接到default,此时后台连接的其实还是xxx测试步骤:1、beeline -u jdbc:...

  • Spark Sort Based Shuffle内存分析

    时间:2023-02-26 13:22:38

    分布式系统里的Shuffle 阶段往往是非常复杂的,而且分支条件也多,我只能按着我关注的线去描述。肯定会有不少谬误之处,我会根据自己理解的深入,不断更新这篇文章。前言借用和董神的一段对话说下背景:shuffle共有三种,别人讨论的是hash shuffle,这是最原始的实现,曾经有两个版本,第一版是...

  • 基于Spark的FPGrowth算法的运用

    时间:2023-02-24 13:06:19

    一、FPGrowth算法理解Spark.mllib 提供并行FP-growth算法,这个算法属于关联规则算法【关联规则:两不相交的非空集合A、B,如果A=>B,就说A=>B是一条关联规则,常提及的{啤酒}-->{尿布}就是一条关联规则】,经常用于挖掘频度物品集。关于算法的介绍网上很...

  • 云小课|MRS数据分析-通过Spark Streaming作业消费Kafka数据

    时间:2023-02-24 11:15:41

    阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云。更多精彩内容请单击此处。 ...

  • 【转】搭建spark环境 单机版

    时间:2023-02-23 22:02:39

    本文将介绍Apache Spark 1.6.0在单机的部署,与在集群中部署的步骤基本一致,只是少了一些master和slave文件的配置。直接安装scala与Spark就可以在单机使用,但如果用到hdfs系统的话hadoop和jdk也要配置,建议全部安装配置好。我的博客原文地址链接:http://b...

  • Hadoop 及Spark 分布式HA运行环境搭建

    时间:2023-02-21 12:09:29

    作者:京东物流 秦彪 工欲善其事必先利其器,在深入学习大数据相关技术之前,先手动从0到1搭建一个属于自己的本地Hadoop和Spark运行环境,对于继续研究大数据生态圈各类技术具有重要意义。本文旨在站在研发的角度上通过手动实践搭建运行环境,文中不拖泥带水过多讲述基础知识,结合Hadoop和Spar...

  • spark快速开发之scala基础之1 数据类型与容器

    时间:2023-02-19 08:46:35

    写在前面面向java开发者。实际上,具有java基础学习scala是很容易。java也可以开发spark,并不比scala开发的spark程序慢。但学习scala可有助于更快更好的理解spark。比如spark的很多算子group,filter之类的,全都是scala语言本身所具备的功能。再比如,想...

  • 《关于我因为flink成为spark源码贡献者这件小事》

    时间:2023-02-16 18:10:16

    各位读者老爷请放下手上的板砖,我可真没有标题党,且容老弟慢慢道来。spark和flink本身相信我不用做过多的介绍,后端同学不管搞没搞过大数据,应该都多多少少听过。如果没听过,简单说,spark和flink之于大数据,就好比vue和react之于前端,就好比spring家族之于java。从2015年...

  • Spark Streaming源码初探 (3)

    时间:2023-02-15 20:47:35

    本节分析一下Spark Streaming生成RDD的过程(也是生成Job的过程),DStream是Spark Streaming的抽象数据表示,底层是RDD实现。由于RDD是为了满足Job需要的,所以触发生成RDD的职责应该是由JobGenerator负责。换句话说:RDD的生成是在Job生成过程...

  • Spark Streaming源码初探 (2)

    时间:2023-02-15 20:47:17

    在 Spark Streaming源码初探 (1) 讲解基于Receiver方式创建DStream和简单分析StreamingContext的启动函数,本节将继续上一节的内容,主要从StreamingContext#start方法中的jobScheduler.start()开始。 简单回顾一下Str...

  • spark streaming源码分析1 StreamingContext

    时间:2023-02-15 20:47:11

    博客地址: http://blog.csdn.net/yueqian_zhu/ 首先看一个最简单的例子,了解大致的样子: object NetworkWordCount { def main(args: Array[String]) { if (args.length < 2) ...

  • 【源码学习之spark streaming 1.6.1 】

    时间:2023-02-15 20:47:05

    说明:个人原创,转载请说明出处  http://www.cnblogs.com/piaolingzxh/p/5634577.html 未完待续 ...

  • spark streaming源码解读

    时间:2023-02-15 20:46:59

    让我们按照源码一步步的解析。请一定一定一定和我们一起跟踪代码。一定要照着做,才能理解。 我们先看下StreamingContext创建的时候有哪些成员变量被初始化了。 import org.apache.spark.SparkConf import org.apache.spark.stream...

  • Spark家族:Win10系统下搭建Scala开发环境

    时间:2023-02-14 05:04:04

    一、Scala环境基础Scala对Java相关的类,接口进行了包装,所以依赖Jvm环境。Jdk 1.8 scala 依赖scala 2.11安装版本idea 2017.3开发工具二、配置Scala解压版1)注意路径无空格和中文2)配置环境变量添加到path目录%SCALA_HOME%\bin3)...

  • spark练习--由IP得到所在地

    时间:2023-02-13 20:49:48

    今天我们就来介绍,如何根据一个IP来求出这个IP所在的地址是什么,首先我们如果要做这个内容,那么我们要有一个IP地址的所在地字典,这个我们可以在网上购买,形如: 1.0.1.0|1.0.3.255|16777472|16778239|亚洲|中国|福建|福州||电信|350100|China|CN|...

  • 贴几个spark提交任务的小脚本

    时间:2023-02-13 08:52:56

    spark单个master节点的提交方式 spark-submit --master spark://hadoop-namenode-02:7077 \--class com.dinpay.bdp.rcp.service.HzRuleBackendStat \--deploy-mode clus...

  • spark sql cache

    时间:2023-02-13 05:45:13

    1.几种缓存数据的方法例如有一张hive表叫做activity1.CACHE TABLE//缓存全表sqlContext.sql("CACHE TABLE activity")//缓存过滤结果sqlContext.sql("CACHE TABLE activity_cached as select ...