注意:namenode和datanode软件包的放置位置要完全相同,否则在集群启动服务时会出现找不到文件的情况。

配置

#vi /root/hadoop-1.2.1/conf/core-site.xml

fs.default.name # namenode节点名

hdfs://node1:9000 #namenode域名(或IP)和端口

hadoop.tmp.dir #文件储存目录

/opt/hadoop-1.2 #fs的放置位置

其它具体配置可以查看./hadoop-1.2.1/docs的文档。

#vi /root/hadoop-1.2.1/conf/hdfs-site.xml

dfs.replication #block的副本数,不能超过datanode的数目

2

#vi /root/hadoop-1.2.1/conf/slaves #该文件设置datanode节点的域名(IP)

node2

node3

#vi /root/hadoop-1.2.1/conf/masters #该文件设置secondarynamenode节点的域名(IP)

node2 # 只要跟namenode不在同一台机器上即可 #vi /root/hadoop-1.2.1/conf/hadoop-env.sh #设置运行环境

export JAVA_HOME=/usr/java/jdk1.7.0_79 # 只要设置jdk的目录即可

在所有的节点上进行上述的相同配置。

HDFS本地Golang客户端实践

基于上述基础配置,我们也可以尝试配置HDFS的本地golang客户端,它使用协议缓冲区API直接连接namenode,使用stdlib os包并实现相应接口,包括os.FileInfo和os.PathError。

这是它在action中的状态:

client, _ := hdfs.New("namenode:8020")file, _ := client.Open("/mobydick.txt")buf := make([]byte, 59)

file.ReadAt(buf, 48847)

fmt.Println(string(buf))// => Abominable are the tumblers into which he pours his poison.

HDFS二进制文件

与库类似,此repo包含HDFS命令行客户端,主要目标是启用unix动词实现:

$ hdfs --help

Usage: hdfs COMMAND

The flags available are a subset of the POSIX ones, but should behave similarly.

Valid commands:

ls [-lah] [FILE]...

rm [-rf] FILE...

mv [-fT] SOURCE... DEST

mkdir [-p] FILE...

touch [-amc] FILE...

chmod [-R] OCTAL-MODE FILE...

chown [-R] OWNER[:GROUP] FILE...

cat SOURCE...

head [-n LINES | -c BYTES] SOURCE...

tail [-n LINES | -c BYTES] SOURCE...

du [-sh] FILE...

checksum FILE...

get SOURCE [DEST]

getmerge SOURCE DEST

put SOURCE DEST

由于它不必等待JVM启动,所以hadoop -fs要快得多:

$ time hadoop fs -ls / > /dev/null

real 0m2.218s

user 0m2.500s

sys 0m0.376s

$ time hdfs ls / > /dev/null

real 0m0.015s

user 0m0.004s

sys 0m0.004s

安装命令行客户端

从发布页面抓取tarball并将其解压缩到任意位置。

要配置客户端,请确保其中一个或两个环境变量指向Hadoop配置(core-site.xml和hdfs-site.xml)。在安装了Hadoop的系统上,应该已经设置过上述变量。

$ export HADOOP_HOME="/etc/hadoop"

$ export HADOOP_CONF_DIR="/etc/hadoop/conf"

要在linux上完成选项卡安装,请将tarball附带的bash_completion文件复制或链接到正确位置:

$ ln -sT bash_completion /etc/bash_completion.d/gohdfs

默认情况下,在非kerberized集群上,HDFS用户可设置为当前登录用户,也可以使用另一个环境变量覆盖它:

$ export HADOOP_USER_NAME=username

使用带有Kerberos身份验证的命令行客户端

与hadoop fs一样,命令行客户端需要在默认位置使用ccache文件:/ tmp / krb5cc_ 。 这意味着它必须“正常工作”才能使用kinit:

$ kinit bob@EXAMPLE.com

$ hdfs ls /

如果不起作用,请尝试将KRB5CCNAME环境变量设置为保存ccache的位置。

兼容性

该库使用HDFS协议的“Version 9”,这意味着它应该使用基于2.2.x及更高版本的Hadoop发行版,测试针对CDH 5.x和HDP 2.x运行。

检查机器是否能与HDFS通信

如果想检查一台机器是否可以与另一台机器上运行的HDFS服务器通信,并从Hadoop wiki中修改一些代码,如下所示:

package org.playground;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FSDataInputStream;

import org.apache.hadoop.fs.FSDataOutputStream;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import java.io.IOException;

public class HadoopDFSFileReadWrite {

static void printAndExit(String str) {

System.err.println( str );

System.exit(1);

}

public static void main (String[] argv) throws IOException {

Configuration conf = new Configuration();

conf.addResource(new Path("/Users/markneedham/Downloads/core-site.xml"));

FileSystem fs = FileSystem.get(conf);

Path inFile = new Path("hdfs://192.168.0.11/user/markneedham/explore.R");

Path outFile = new Path("hdfs://192.168.0.11/user/markneedham/output-" + System.currentTimeMillis());

// Check if input/output are valid

if (!fs.exists(inFile))

printAndExit("Input file not found");

if (!fs.isFile(inFile))

printAndExit("Input should be a file");

if (fs.exists(outFile))

printAndExit("Output already exists");

// Read from and write to new file

byte buffer[] = new byte[256];

try ( FSDataInputStream in = fs.open( inFile ); FSDataOutputStream out = fs.create( outFile ) )

{

int bytesRead = 0;

while ( (bytesRead = in.read( buffer )) > 0 )

{

out.write( buffer, 0, bytesRead );

}

}

catch ( IOException e )

{

System.out.println( "Error while copying file" );

}

}

}

我最初以为POM文件中只有以下内容:

org.apache.hadoop

hadoop-common

2.7.0

但运行脚本时,我得到了以下结果:

Exception in thread "main" java.lang.NoSuchMethodError: org.apache.hadoop.fs.FSOutputSummer.(Ljava/util/zip/Checksum;II)V

at org.apache.hadoop.hdfs.DFSOutputStream.(DFSOutputStream.java:1553)

at org.apache.hadoop.hdfs.DFSOutputStream.(DFSOutputStream.java:1582)

at org.apache.hadoop.hdfs.DFSOutputStream.newStreamForCreate(DFSOutputStream.java:1614)

at org.apache.hadoop.hdfs.DFSClient.create(DFSClient.java:1465)

at org.apache.hadoop.hdfs.DFSClient.create(DFSClient.java:1390)

at org.apache.hadoop.hdfs.DistributedFileSystem$6.doCall(DistributedFileSystem.java:394)

at org.apache.hadoop.hdfs.DistributedFileSystem$6.doCall(DistributedFileSystem.java:390)

at org.apache.hadoop.fs.FileSystemLinkResolver.resolve(FileSystemLinkResolver.java:81)

at org.apache.hadoop.hdfs.DistributedFileSystem.create(DistributedFileSystem.java:390)

at org.apache.hadoop.hdfs.DistributedFileSystem.create(DistributedFileSystem.java:334)

at org.apache.hadoop.fs.FileSystem.create(FileSystem.java:909)

at org.apache.hadoop.fs.FileSystem.create(FileSystem.java:890)

at org.apache.hadoop.fs.FileSystem.create(FileSystem.java:787)

at org.apache.hadoop.fs.FileSystem.create(FileSystem.java:776)

at org.playground.HadoopDFSFileReadWrite.main(HadoopDFSFileReadWrite.java:37)

at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)

at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)

at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)

at java.lang.reflect.Method.invoke(Method.java:497)

at com.intellij.rt.execution.application.AppMain.main(AppMain.java:140)

通过跟踪堆栈跟踪,我意识到犯了一个错误,即对hadoop-hdfs 2.4.1进行了依赖。如果没有hadoop-hdfs依赖,我们会看到如下错误:

Exception in thread "main" java.io.IOException: No FileSystem for scheme: hdfs

at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2644)

at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2651)

at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:92)

at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2687)

at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2669)

at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:371)

at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:170)

at org.playground.HadoopDFSFileReadWrite.main(HadoopDFSFileReadWrite.java:22)

at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)

at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)

at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)

at java.lang.reflect.Method.invoke(Method.java:497)

at com.intellij.rt.execution.application.AppMain.main(AppMain.java:140)

现在,让我们添加正确的依赖项版本,并确保可以按照预期工作:

org.apache.hadoop

hadoop-hdfs

2.7.0

ch.qos.logback

logback-classic

javax.servlet

servlet-api

运行时,它会在另一台机器上用当前时间戳在HDFS中创建一个新文件:

$ date +%s000

1446336801000

$ hdfs dfs -ls

...

-rw-r--r-- 3 markneedham supergroup 9249 2015-11-01 00:13 output-1446337098257

...

(该项目开源地址:https://github.com/colinmarc/hdfs)

基础HDFS命令

完成安装配置后,我们需要了解HDFS基础命令,需要知道每个命令的详细语法。一般语法如下:

hadoop dfs [COMMAND [COMMAND_OPTIONS]]

这将在Hadoop(HDFS)支持的文件系统上运行filesystem命令,其余Command选项如下所示:

1、put命令

'put'命令将数据输入HDFS。

语法:hadoop dfs -put

2、List命令

'list'命令显示特定路径中的所有可用文件。

语法:hadoop dfs -ls

3、Get命令

'get'命令将上述文件的全部内容复制到本地驱动器。

语法:hadoop dfs -get

4、Make Directory命令

'mkdir'命令在指定位置创建一个新目录。

语法:hadoop dfs -mkdir

5、查看特定文件的内容

'cat'命令用于显示文件的所有内容。

语法:hadoop dfs -cat

6、复制HDFS内的完整文件

'copyfromlocal'命令将文件从本地文件系统复制到HDFS。

语法:hadoop dfs -copyFromLocal

7、将文件从HDFS复制到本地文件系统。

'copytolocal'命令将文件从HDFS复制到本地文件系统。

语法:hadoop dfs -copyToLocal

8、删除文件

命令'rm'将删除存储在HDFS中的文件。

语法:hadoop dfs -rm

9、运行DFS文件系统以检查实用程序

命令'fsck'用于检查文件系统的一致性

语法:hadoop fsck

10、集群负载均衡程序

'balancer'命令将检查集群中节点的工作负载并进行平衡。

语法:hadoop balancer

11、检查HDFS中的目录空间

该命令将显示集群内文件占用的大小。

语法:hadoop dfs -du -s -h

12、列出所有Hadoop文件系统Shell命令

'fs'命令列出了Hadoop文件系统的所有shell命令。

语法:hadoop fs [options]

[hadoop@acadgild ~]$ hadoop fs

Usage: hadoop fs [generic options]

[-appendToFile ... ]

[-cat [-ignoreCrc] ...]

[-checksum ...]

[-chgrp [-R] GROUP PATH...]

[-chmod [-R] PATH...]

[-chown [-R] [OWNER][:[GROUP]] PATH...]

[-copyFromLocal [-f] [-p] [-l] ... ]

[-copyToLocal [-p] [-ignoreCrc] [-crc] ... ]

[-count [-q] [-h] ...]

[-cp [-f] [-p | -p[topax]] ... ]

[-createSnapshot []]

[-deleteSnapshot ]

[-df [-h] [ ...]]

[-du [-s] [-h] ...]

[-expunge]

[-get [-p] [-ignoreCrc] [-crc] ... ]

[-getfacl [-R] ]

[-getfattr [-R] {-n name | -d} [-e en] ]

[-getmerge [-nl] ]

[-help [cmd ...]]

[-ls [-d] [-h] [-R] [ ...]]

[-mkdir [-p] ...]

[-moveFromLocal ... ]

[-moveToLocal ]

[-mv ... ]

[-put [-f] [-p] [-l] ... ]

[-renameSnapshot ]

[-rm [-f] [-r|-R] [-skipTrash] ...]

[-rmdir [--ignore-fail-on-non-empty]

...]

[-setfacl [-R] [{-b|-k} {-m|-x } ]|[--set ]]

[-setfattr {-n name [-v value] | -x name} ]

[-setrep [-R] [-w] ...]

[-stat [format] ...]

[-tail [-f] ]

[-test -[defsz] ]

[-text [-ignoreCrc] ...]

[-touchz ...]

[-usage [cmd ...]]

Generic options supported are

-conf specify an application configuration file

-D use value for given property

-fs specify a namenode

-jt specify a ResourceManager

-files specify comma separated files to be copied to the map reduce cluster

-libjars specify comma separated jar files to include in the classpath.

-archives specify comma separated archives to be unarchived on the compute machines.

The general command line syntax is

bin/hadoop command [genericOptions] [commandOptions]

[hadoop@acadgild ~]$

结论