• Hadoop学习笔记-HDFS命令

    时间:2023-11-19 15:34:46

    进入 $HADOOP/bin一.文件操作文件操作 类似于正常的linux操作前面加上“hdfs dfs -”前缀也可以写成hadoop而不用hdfs,但终端中显示Use of this script to execute hdfs command is deprecated.Instead use ...

  • Hadoop学习笔记(5) ——编写HelloWorld(2)

    时间:2023-11-19 15:27:26

    Hadoop学习笔记(5) ——编写HelloWorld(2) 前面我们写了一个Hadoop程序,并让它跑起来了。但想想不对啊,Hadoop不是有两块功能么,DFS和MapReduce。没错,上一节我们写了一个MapReduce的HelloWorld程序,那这一节,我们就也学一学DFS程序的编写。...

  • 【Hadoop学习】Apache Hadoop ResourceManager HA

    时间:2023-11-17 17:05:41

    简介本向导简述了YARN资源管理器的HA,并详述了如何配置并使用该特性。RM负责追踪集群中的资源,并调度应用程序(如MapReduce作业)。Hadoop2.4以前,RM是YARN集群中的单点故障。HA特性以Active/Standby RM对的形式对集群添加了冗余,从而消除了这种单点故障。架构RM...

  • Hadoop学习资料收集

    时间:2023-11-16 15:17:36

    1、漫画HDFS工作原理  http://blog.csdn.net/netcoder/article/details/74427792、马哥教育 http://mageedu.blog.51cto.com/3、细细品味Hadoop http://www.cnblogs.com/xia520pi/c...

  • Hadoop学习笔记【Hadoop家族成员概述】

    时间:2023-11-15 17:34:26

    Hadoop家族成员概述一、Hadoop简介1.1 什么是Hadoop?Hadoop是一个分布式系统基础架构,由Apache基金会所开发,目前Yahoo!是其最重要的贡献者。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS,用户可以在...

  • hadoop学习笔记(五)hadoop伪分布式集群的搭建

    时间:2023-10-07 15:26:20

    本文原创,如需转载,请注明作者和原文链接1、集群搭建的前期准备   见      搭建分布式hadoop环境的前期准备---需要检查的几个点2、解压tar.gz包[root@node01 ~]# cd software/[root@node01 software]# ll总用量-rw-r--r-- ...

  • Hadoop学习笔记1 - 使用Java API访问远程hdfs集群

    时间:2023-09-11 20:35:26

    转载请标注原链接 http://www.cnblogs.com/xczyd/p/8570437.html2018年3月从新司重新起航了。之前在某司过了的蛋疼三个月,也算给自己放了个小假了。第一个小目标,从腾讯云上的hdfs集群拷贝一些文件到本地。唔唔,听上去似乎很简单的样子。于是新建了一个Java的...

  • Hadoop学习笔记3---安装并运行Hadoop

    时间:2023-08-17 16:51:23

    本文环境是在Ubuntu10.04环境下运行的。在Linux上安装Hadoop之前,首先安装两个程序:1、JDK1.6(或更高版本)。Hadoop是用Java编写的程序,Hadoop编译及MapReduce的运行都需要使用JDK。因此在安装Hadoop之前,必须安装JDK1.6或更高版本。2、SSH...

  • Hadoop HDFS概念学习系列之分布式文件管理系统(二十五)

    时间:2023-08-05 17:02:13

    数据量越来越多,在一个操作系统管辖的范围存在不了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。是一种允许文件通过网络在多台主机上分享的文件系统,可让多台机器上的多用户分享文件和存储空间。通透性,它实际上是通过网络...

  • hadoop学习day1环境配置笔记(非完整流程)

    时间:2023-08-03 23:33:58

    hdfs的工作机制:1、客户把一个文件存入hdfs,其实hdfs会把这个文件切块后,分散存储在N台linux机器系统中(负责存储文件块的角色:data node)<准确来说:切块的行为是由客户端决定的>2、一旦文件被切块存储,那么,hdfs中就必须有一个机制,来记录用户的每一个文件的切块...

  • Hadoop学习笔记(3)——分布式环境搭建

    时间:2023-05-26 10:54:20

    Hadoop学习笔记(3) ——分布式环境搭建 前面,我们已经在单机上把Hadoop运行起来了,但我们知道Hadoop支持分布式的,而它的优点就是在分布上突出的,所以我们得搭个环境模拟一下。在这里,我们采用这样的策略来模拟环境,我们使用3台ubuntu机器,1台为作主机(master),另外2台作...

  • 十五、Hadoop学习笔记————Zookeeper客户端的使用

    时间:2023-05-09 12:33:49

    timeout表示会话超时时间,zookeeper靠与客户的心跳来判断会话是否有效(单位毫秒),-r为只读,表示zookeeper如果与半数以上服务器失去连接则会停止服务,如果有-r参数,则会继续保留只读服务-server ip和端口connected表示连接成功,输入h获取帮助列表一般通过对节点的...

  • hadoop学习笔记(六):HBase体系结构和数据模型

    时间:2023-04-27 16:04:38

    1. HBase体系结构一个完整分布式的HBase的组成示意图如下,后面我们再详细谈其工作原理。1)Client包含访问HBase的接口并维护cache来加快对HBase的访问。2)Zookeeper保证任何时候,集群中只有一个master存储所有Region的寻址入口实时监控Region Serv...

  • 大数据学习(一) | 初识 Hadoop

    时间:2023-03-12 21:53:50

    作者: seriouszyx首发地址:https://seriouszyx.top/代码均可在 Github 上找到(求Star)最近想要了解一些前沿技术,不能一门心思眼中只有 web,因为我目前对 Java 语言及其生态相对熟悉,所以在网上搜集了 Hadoop 相关文章,并做了整合。本篇文章在于对...

  • Hadoop学习笔记1:伪分布式环境搭建

    时间:2023-03-07 10:34:44

    在搭建Hadoop环境之前,请先阅读如下博文,把搭建Hadoop环境之前的准备工作做好,博文如下:1、CentOS 6.7下安装JDK , 地址: http://blog.csdn.net/yulei_qq/article/details/519256732、CenOS虚拟机和Windows通信,地...

  • 从零开始学习Hadoop--第2章 第一个MapReduce程序

    时间:2023-03-06 15:57:49

    1.Hadoop从头说1.1 Google是一家做搜索的公司做搜索是技术难度很高的活。首先要存储很多的数据,要把全球的大部分网页都抓下来,可想而知存储量有多大。然后,要能快速检索网页,用户输入几个关键词找资料,越快越好,最好在一秒之内出结果。如果全球每秒有上亿个用户在检索,只有一两秒的检索时间,要在...

  • Hadoop概念学习系列之谈hadoop/spark里为什么都有,键值对呢?(四十)

    时间:2023-02-07 21:22:38

    很少有人会这样来自问自己?只知道,以键值对的形式处理数据并输出结果,而没有解释为什么要以键值对的形式进行。包括hadoop的mapreduce里的键值对,spark里的rdd里的map等。这是为什么呢?1、键值对的具体含义首先,我们会通过强调Java标准库中的类似概念,来阐明我们所说的键值对的含义。...

  • hadoop学习之hdfs文件系统

    时间:2023-02-06 09:00:59

    一、hdfs的概念 Hadoop 实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。 Hadoop是Apache Lucene创始人Doug Cutting开发的使用广泛的文本搜索库。它起源于Apache Nutch,后者是一个开源的网络搜索引擎...

  • Hadoop概括——学习笔记<一>转

    时间:2023-02-04 20:14:06

    前言第一章主要讲的是hadoop基础知识。老师讲的还是比较全面简单的,起码作为一个非专业码农以及数据库管理人员,也能狗大致了解其特点首先是概括图(以hadoop2.0为例) 一、Hadoop基础架构:HDFS(分布式存储层,主要储存数据) YARN(集群资源管理层) MapReduce 分布式数据处...

  • Hadoop HBase概念学习系列之HBase里的列式数据库(十七)

    时间:2023-01-31 21:59:09

    列式数据库,从数据存储方式上有别于行式数据库,所有数据按列存取。行式数据库在做一些列分析时,必须将所有列的信息全部读取出来而列式数据库由于其是按列存取,因此只需在特定列做I/O即可完成查询与分析,效率节省90%。此外,列式数据库在每列上还有专门的列压缩算法进一步提高数据库性能,这是行式数据库不具备的...