Contents
  1. 1. Hadoop 入门
    1. 1.1. 编辑配置文件
    2. 1.2. 免密码ssh设置
    3. 1.3. 运行

Hadoop 入门

  • 下载
  • 编辑配置文件
  • 免密码ssh设置
  • 运行

版本 version 1.2.1

1
sudo apt-get install ssh rsync

解压.编辑 conf/hadoop-env.sh文件,至少需要将JAVA_HOME设置为Java安装根路径。




编辑配置文件


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
conf/mapred-site.xml:
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>
conf/core-site.xml:
<configuration>
<property>
<name>fs.default.name</name>
<value>localhost:9000</value>
</property>
</configuration>
conf/hdfs-site.xml:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
</configuration>

免密码ssh设置


现在确认能否不输入口令就用ssh登录localhost:

$ ssh localhost

如果不输入口令就无法用ssh登陆localhost,执行下面的命令:

$ ssh-keygen -t dsa -P ‘’ -f ~/.ssh/id_dsa

$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

运行



格式化一个新的分布式文件系统:

$ bin/hadoop namenode -format

启动Hadoop守护进程:

$ bin/start-all.sh

Hadoop守护进程的日志写入到 ${HADOOP_LOG_DIR} 目录 (默认是 ${HADOOP_HOME}/logs).

浏览NameNode和JobTracker的网络接口,它们的地址默认为:

NameNode - http://localhost:50070/

JobTracker - http://localhost:50030/

将输入文件拷贝到分布式文件系统:

$ bin/hadoop fs -put conf input

运行发行版提供的示例程序:

$ bin/hadoop jar hadoop-*-examples.jar grep input output ‘dfs[a-z.]+’

Edit By MaHua

Contents
  1. 1. Hadoop 入门
    1. 1.1. 编辑配置文件
    2. 1.2. 免密码ssh设置
    3. 1.3. 运行