#+Hadoop相关文章

java实现对Hadoop的操作
时间：2022-10-07 22:36:20
这篇文章主要介绍了java实现对Hadoop的操作,通过非常完整详细的代码展示了如何去进行一系列操作,包括基本操作,文件读写,需要的朋友可以参考下
Hadoop中的MapReduce框架原理、Combiner 合并案例实操
时间：2022-10-07 07:52:19
文章目录 13.MapReduce框架原理13.3 Shuffle机制13.3.9 Combiner 合并案例实操13.3.9.1 需求13.3.9.1.1 数据输入13.3.9.1.2 期望输出数据13.3.9.2 需求分析13.3.9.3 案例实操-方案一13.3.9.3.1 增加一个 Wor...
标签：# Hadoop hadoop mapreduce 大数据
大数据讲课笔记3.3 Hadoop集群配置
时间：2022-10-05 11:56:50
文章目录零、学习目标一、导入新课二、新课讲解（一）配置Hadoop集群1、在master虚拟机上配置hadoop（1）编辑Hadoop环境配置文件 - hadoop-env.sh（2）编辑Hadoop核心配置文件 - core-site.xml（3）编辑HDFS配置文件 - hdfs-site....
标签：大数据基础 hadoop 集群配置 Hadoop WebUI
hadoop学习笔记
时间：2022-10-05 08:58:50
XI hadoop文本文件（索引）；structured data ，RDBMS（表，字段，数据类型，约束）；semi-structured data，半结构化数据（xml，json）；google（网络爬虫、网络蜘蛛、网络机器人，20亿个页面，unstructured data，pager...
标签：hadoop hadoop学习笔记 Linux 系统/运维 yyds干货盘点
Hadoop生态圈-zookeeper本地搭建以及常用命令介绍
时间：2022-10-05 00:01:16
Hadoop生态圈-zookeeper本地搭建以及常用命令介绍作者：尹正杰版权声明：原创作品，谢绝转载！否则将追究法律责任。一.下载zookeeper软件下载地址：https://www.apache.org/dyn/closer.cgi/zookeeper/二.安装zookeeper1>.解...
Hadoop生态圈-phoenix完全分布式部署以及常用命令介绍
时间：2022-10-04 23:37:23
Hadoop生态圈-phoenix完全分布式部署作者：尹正杰版权声明：原创作品，谢绝转载！否则将追究法律责任。phoenix只是一个插件，我们可以用hive给hbase套上一个JDBC壳，但是你有没有体会到Hive执行SQL语句是很慢的，因此我们采用phoenix插件的方式给hbase套上JDBC的...
Hadoop 中利用 mapreduce 读写 mysql 数据
时间：2022-10-03 22:52:12
Hadoop 中利用 mapreduce 读写 mysql 数据有时候我们在项目中会遇到输入结果集很大，但是输出结果很小，比如一些 pv、uv 数据，然后为了实时查询的需求，或者一些 OLAP 的需求，我们需要 mapreduce 与 mysql 进行数据的交互，而这些特性正是 hbase 或者 ...
Hadoop之企业级解决方案
时间：2022-10-03 17:54:51
目录 1. 小文件问题及企业级解决方案 1.1 小文件问题 1.2 小文件解决方案 1.2.1 SequenceFile 1.2.2 MapFile 1.3 读取HDFS上的SequenceFile实现WordCount案例 2. MapReduce数据倾斜问题 2.1 增加Reduce的个数...
标签：Hadoop hadoop 大数据 mapreduce
Hadoop2.6.0的FileInputFormat的任务切分原理分析（即如何控制FileInputFormat的map任务数量）
时间：2022-10-01 13:28:33
前言首先确保已经搭建好Hadoop集群环境，可以参考《Linux下Hadoop集群环境的搭建》一文的内容。我在测试mapreduce任务时，发现相比于使用Job.setNumReduceTasks(int)控制reduce任务数量而言，控制map任务数量一直是一个困扰我的问题。好在经过很多摸索与实验...
深度分析如何在Hadoop中控制Map的数量(摘抄)
时间：2022-10-01 13:28:51
很多文档中描述，Mapper的数量在默认情况下不可直接控制干预，因为Mapper的数量由输入的大小和个数决定。在默认情况下，最终input占据了多少block，就应该启动多少个Mapper。如果输入的文件数量巨大，但是每个文件的size都小于HDFS的blockSize，那么会造成启动的Mapper...
深度分析如何在Hadoop中控制Map的数量
时间：2022-10-01 12:30:42
深度分析如何在Hadoop中控制Map的数量guibin.beijing@gmail.com很多文档中描述，Mapper的数量在默认情况下不可直接控制干预，因为Mapper的数量由输入的大小和个数决定。在默认情况下，最终input占据了多少block，就应该启动多少个Mapper。如果输入的文件数量...
Hadoop MR Job 关于如何控制Map Task 数量
时间：2022-10-01 12:25:56
整理下，基本分两个方式：一、对于大量大文件（大于block块设置的大小）增大minSize，即增大mapred.min.split.size的值，原因：splitsize=max(minisize,min(maxsize,blocksize))，blocksize一般不会做修改. 在没有设置mini...
Hadoop2.2.0 eclipse插件编译及Ecliipse配置说明（图文版）
时间：2022-09-29 00:21:49
一、引言：最近在做一个城商行项目的POC测试it版本，涉及到编译Linux64bti的源码和开发插件使用，作为笔记分享给大家。二、插件编译Hadoop2x版本的Eclipse插件已经单独抽取成独立的开源项目，区别于之前版本直接集成到Hadoop1.x版本的模式，需要单独下载，下载网址：https:/...
hadoop2的mapreduce操作hbase数据
时间：2022-09-28 21:43:11
1、从hbase中取数据，再把计算结果插入hbase中package com.yeliang;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path...
大规模Hadoop集群在腾讯数据仓库TDW的实践
时间：2022-09-28 00:18:21
随着业务的快速增长，TDW的节点数也在增加，对单个大规模Hadoop集群的需求也越来越强烈。TDW需要做单个大规模集群，主要是从数据共享、计算资源共享、减轻运营负担和成本等三个方面考虑。数据共享。TDW之前在多个IDC部署数十个集群，主要是根据业务分别部署，这样当一个业务需要其他业务的数据，或者需要...
Hadoop实战4：MapR分布式集群的安装配置及shell自动化脚本
时间：2022-09-27 18:47:48
MapR的分布式集群安装过程还是很艰难的，远远没有计划中的简单。本人总结安装配置，由于集群有很多机器，手动每台配置是很累的，编写了一个自动化配置脚本，下面以脚本为主线叙述（脚本并不完善，后续继续完善中）。编写脚本需要shell基础的，还要掌握awk和sed等统计手段为佳。操作系统是CentOS7。准...
Hadoop 完全分布式（3.1.3）部署（清爽版）
时间：2022-09-27 16:53:17
1. Hadoop部署 1.1 集群部署规划注意：NameNode和SecondaryNameNode不要安装在同一台服务器。注意：ResourceManager也很消耗内存，不要和NameNode、SecondaryNameNode配置在同一台机器上。 hadoop102hadoop103ha...
标签：Hadoop hadoop 大数据分布式
利用Hadoop实现超大矩阵相乘之我见（一）
时间：2022-09-27 15:35:39
前记最近，公司一位挺优秀的总务离职，欢送宴上，她对我说“你是一位挺优秀的程序员”，刚说完，立马道歉说“对不起，我说你是程序员是不是侮辱你了？”我挺诧异，程序员现在是很低端，很被人瞧不起的工作吗？或许现在连卖盗版光盘的，修电脑的都称自己为搞IT的，普通人可能已经分不清搞IT的到底是做什么的了。其实我想...
利用Hadoop实现超大矩阵相乘之我见（二）
时间：2022-09-27 15:30:36
前文在《利用Hadoop实现超大矩阵相乘之我见（一）》中我们所介绍的方法有着“计算过程中文件占用存储空间大”这个缺陷，本文中我们着重解决这个问题。矩阵相乘计算思想传统的矩阵相乘方法为行、列相乘的方式，即利用左矩阵的一行乘以右矩阵的一列。不过该方法针对稀疏矩阵相乘，会造成过多的无效计算，降低计算效率。...
java hadoop file system API
时间：2022-09-26 14:15:37
org.apache.hadoop.fsClass FileSystemjava.lang.Objectorg.apache.hadoop.fs.FileSystemAll Implemented Interfaces:Closeable, AutoCloseable, ConfigurableDi...

1 2 3 4 5