• 大数据学习:Spark是什么,如何用Spark进行数据分析

    时间:2022-06-16 12:10:33

    给大家分享一下Spark是什么?如何用Spark进行数据分析,对大数据感兴趣的小伙伴就随着小编一起来了解一下吧。  大数据在线学习什么是ApacheSpark?ApacheSpark是一个为速度和通用目标设计的集群计算平台。从速度的角度看,Spark从流行的MapReduce模型继承而来,可以更有效...

  • 大数据学习笔记——Linux完整部署篇(实操部分)

    时间:2022-06-01 16:35:57

    Linux环境搭建完整操作流程(包含mysql的安装步骤)从现在开始,就正式进入到大数据学习的前置工作了,即Linux的学习以及安装,作为运行大数据框架的基础环境,Linux操作系统的重要性自然不言而喻,我将分成两个部分来做梳理,第一部分是实操部分,即整个从0搭建Linux的完整操作流程,第二部分是...

  • 大数据学习笔记——Hbase高可用+完全分布式完整部署教程

    时间:2022-05-19 13:20:28

    Hbase高可用+完全分布式完整部署教程本篇博客承接上一篇sqoop的部署教程,将会详细介绍完全分布式并且是高可用模式下的Hbase的部署流程,废话不多说,我们直接开始!1.安装准备部署Hbase时,我们使用的版本为1.2.82.正式安装1.将hbase-1.2.8-bin.tar.gz文件使用远程...

  • 大数据学习之HDFS基本API操作(上)06

    时间:2022-04-26 22:07:29

    packageit.dawn.HDFSPra;importjava.io.FileNotFoundException;importjava.io.IOException;importjava.net.URI;importjava.net.URISyntaxException;importjava.u...

  • 大数据学习笔记——Hadoop编程之SequenceFile

    时间:2022-04-26 13:17:45

    SequenceFile(Hadoop序列文件)基础知识与应用上篇编程实战系列中本人介绍了基本的使用HDFS进行文件读写的方法,这一篇将承接上篇重点整理一下SequenceFile的相关知识及应用1.SequenceFile简介SequenceFile是Hadoop自带的一种键值对文件格式,它具有以...

  • 大数据学习笔记1-大数据处理架构Hadoop

    时间:2022-04-26 13:17:21

    Hadoop:一个开源的、可运行于大规模集群上的分布式计算平台。实现了MapReduce计算模型和分布式文件系统HDFS等功能,方便用户轻松编写分布式并行程序。Hadoop生态系统:HDFS:Hadoop分布式文件系统,是Hadoop项目的两大核心之一。HBase:提供高可靠性、高性能、可伸缩、实时...

  • 大数据学习之Hadoop快速入门

    时间:2022-04-26 13:17:33

    1、Hadoop生态概况Hadoop是一个由Apache基金会所开发的分布式系统集成架构,用户可以在不了解分布式底层细节情况下,开发分布式程序,充分利用集群的威力来进行高速运算与存储,具有可靠、高效、可伸缩的特点。大数据学习资料分享群119599574Hadoop的核心是YARN,HDFS,Mapr...

  • 大数据学习笔记——Hadoop编程实战之Mapreduce

    时间:2022-04-26 13:17:15

    Hadoop编程实战——Mapreduce基本功能实现此篇博客承接上一篇总结的HDFS编程实战,将会详细地对mapreduce的各种数据分析功能进行一个整理,由于实际工作中并不会过多地涉及原理,因此,掌握好mapreduce框架将会有助于了解sql语句在大数据场景下的底层实现原理,从而能够帮助开发人...

  • 大数据学习笔记——Java篇之基础知识

    时间:2022-04-10 13:21:19

    Java/计算机基础知识整理在进行知识梳理同时也是个人的第一篇技术博客之前,首先祝贺一下,经历了一年左右的学习,从完完全全的计算机小白,现在终于可以做一些产出了!可以说也是颇为感慨,个人认为,学习本身就应该是有方法论的,前人总结了不少比较好的学习方法(比如说费曼学习法,金字塔原理),我们在进行好方法...

  • JavaWeb学习总结(三十五)——使用JDBC处理Oracle大数据

    时间:2022-04-01 11:13:58

    一、Oracle中大数据处理在Oracle中,LOB(LargeObject,大型对象)类型的字段现在用得越来越多了。因为这种类型的字段,容量大(最多能容纳4GB的数据),且一个表中可以有多个这种类型的字段,很灵活,适用于数据量非常大的业务领域(如图象、档案等)。LOB类型分为BLOB和CLOB两种...

  • 大数据学习之 LINUX

    时间:2022-03-22 20:08:21

    ##大数据学习古斌6.601.linux系统的搭建:选用Contos6.5x64位系统(CentOS-6.5-x86_64-minimal.iso)我选择的为迷你版模板机:blankip192.168.6.10克隆机:bigdata01ip:192.168.6.11域名:bigdata01bigda...

  • 大数据学习笔记——Hadoop高可用完全分布式模式完整部署教程(包含zookeeper)

    时间:2022-03-22 20:08:09

    高可用模式下的Hadoop集群搭建本篇博客将会在之前写过的Linux的完整部署的基础上进行,暂时不会涉及到伪分布式或者完全分布式模式搭建,由于HA模式涉及到的配置文件较多,维护起来也较为复杂,相信学会部署高可用模式了,其他模式的搭建也会比较驾轻就熟,关于各种配置文件的讲解,如果有时间会在后期另开一篇...

  • 大数据学习笔记——Java篇之集合框架(ArrayList)

    时间:2022-03-22 20:08:33

    Java集合框架学习笔记1.Java集合框架中各接口或子类的继承以及实现关系图:2.数组和集合类的区别整理:数组:1.长度是固定的2.既可以存放基本数据类型又可以存放引用数据类型3.存放进数组的必须是相同类型的数据VS集合类:1.长度是可变的2.只能存放对象的引用3.存放进集合的可以是不同的数据类型...

  • 大数据学习--day04(选择结构、循环结构、大数据java基础面试题)

    时间:2022-02-26 08:44:50

    选择结构、循环结构、大数据java基础面试题switch:注意:byteshortintcharString(jdk1.7支持)不能是longfloatdoublebooleanwhile、do-while、for同c#面试题:大数乘法:随机给定两个超大整数,计算乘积。思路:AB*CD=AC(BC+...

  • 大数据学习笔记之Zookeeper(三):Zookeeper理论篇(二)

    时间:2022-02-15 15:20:00

    文章目录3.1数据结构3.2节点类型3.3特点3.4选举机制3.5stat结构体3.6监听器原理3.1数据结构ZooKeeper数据模型的结构与Unix文件系统很类似,整体上可以看作是一棵树,每个节点称做一个ZNode。很显然zookeeper集群自身维护了一套数据结构。这个存储结构是一个树形结构,...

  • 大数据学习笔记之Hadoop(三):MapReduce&YARN

    时间:2022-01-30 13:52:43

    文章目录一MapReduce概念1.1为什么要MapReduce1.2MapReduce核心思想1.3MapReduce进程1.4MapReduce编程规范(八股文)1.5MapReduce程序运行流程分析二MapReduce理论篇2.1Writable序列化2.1.1常用数据序列化类型2.1.2自...

  • 在线算法外存学习处理大数据集

    时间:2022-01-29 13:09:55

    在上一篇文章中,使用了logistic回归来对电影评论进行分类,消耗了2到3个小时,在使用网格搜索对50000条电影评论构建特征向量的时候计算成本是非常大的。在实际应用中,可能会遇见更大的数据集,如果直接把数据集加载到内存中,可能会超出计算机的最大内存,同时也会需要更久的训练时间。在这篇文章中,将介...

  • 【Todo】【读书笔记】大数据Spark企业级实战版 & Scala学习

    时间:2022-01-27 08:30:25

    目录:/Users/baidu/Documents/Data/Interview/Hadoop-Spark-Storm-Kafka下了这本《大数据Spark企业级实战版》,另外还有一本《Spark大数据处理:技术、应用与性能优化(全)》先看前一篇。根据书里的前言里面,对于阅读顺序的建议。先看最后的S...

  • 大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建 图文详解

    时间:2022-01-24 13:22:43

    引言在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive环境以及一些测试。其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式。至于为什么先写单机的搭建,是因为作为个人学习的话,单机已足以,好吧,说实话是自己的电脑不行,使用虚拟机实在太卡了。。。整...

  • 大数据Python学习大纲

    时间:2022-01-22 09:33:54

    最近公司在写一个课程《大数据运维实训课》,分为4个部分,linux实训课、Python开发、hadoop基础知识和项目实战。这门课程主要针对刚从学校毕业的学生去应聘时不会像一个小白菜一样被刷掉。老大让我负责编写Python开发这块,让一个运维同学去写书???心中一万只*奔腾而过,吐槽过后工作还是...