Hadoop学习笔记（一）

HDFS
适合一次写入，多次读取
NameNode将文件系统的元数据存储在内存中，因此HDFS所能存储的文件总数受限于NameNode容量
类：IOUtil Progressable
URL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory());
distcp并行复制
数据校验压缩（文件，map/reduce输入输出）序列化（RPC使用,AVRO）

HDFS存储容量(中间文件和日志文件占约30%)

fsck 文件健康状况检查
http://node16:50075/blockScannerReport
Datanode块扫描器
均衡器

优化：
增大io.file.buffer.size。如64KB或128KB

安全：
Kerberos

文件属性：
Block ID: 1073741852
Block Pool ID: BP-720723591-172.17.20.166-1449572898218
Generation Stamp: 1028
Size: 2268
Availability:
node17
node18
node16

#列出当前hadoop正在执行的jobs
./hadoop job -list
#杀掉job
./hadoop job -kill job_201212111628_11166

# Notice
When we run a JAR file by using the hadoop jar command, the dependencies of the JAR file
must be included in Hadoop's class path

秒客网

Hadoop学习笔记（一）

相关文章