CentOS6.4でまずは一台構成のHadoopをセットアップしてみた

cd /etc/yum.repos.d/
wget http://archive.cloudera.com/redhat/6/x86_64/cdh/cloudera-cdh3.repo
rpm --import http://archive.cloudera.com/redhat/6/x86_64/cdh/RPM-GPG-KEY-cloudera
yum -y install hadoop-0.20
yum -y install hadoop-0.20-conf-pseudo

あとはサービス起動

/etc/init.d/hadoop-0.20-namenode start
/etc/init.d/hadoop-0.20-jobtracker start
/etc/init.d/hadoop-0.20-datanode start
/etc/init.d/hadoop-0.20-tasktracker start

このとき/etc/hosts でノード名が解決できなくていくつかのサービスが起動できなかったので、注意。

ブラウザでアクセスしてみる

http://[ノード名]:50070/

へアクセス。HDFSの様子を見ることができます。

つぎに

http://[ノード名]:50030/

へアクセス。MapReduce?の様子を見ることができます。

HDFSの画面から「Browse the filesystem」をクリックすると、ファイルシステム上のコンテンツを閲覧できます。*1

HDFS上でディレクトリやファイルの操作

bin/hadoop fs -mkdir fugaDirectory   <- HDFS上にディレクトリを作った
cat /var/tmp/hoge <-なんかファイルががあるとする
bin/hadoop fs -put /var/tmp/hoge fugaDirectory <-さっきのディレクトリにアップした
bin/hadoop fs -cat fugaDirectory/hoge <-参照するとき。

MapReduce?ジョブを動かしてみる

[hadoop-0.20]# pwd
/usr/lib/hadoop-0.20
[hadoop-0.20]# bin/hadoop jar /usr/lib/hadoop-0.20/hadoop-examples.jar pi 10 2000
Number of Maps  = 10
Samples per Map = 2000
Wrote input for Map #0
Wrote input for Map #1
Wrote input for Map #2
Wrote input for Map #3
Wrote input for Map #4
Wrote input for Map #5
Wrote input for Map #6
Wrote input for Map #7
Wrote input for Map #8
Wrote input for Map #9
Starting Job
... 割愛
Job Finished in 20.352 seconds
Estimated value of Pi is 3.14280000000000000000
[hadoop-0.20]#

*1 localhostからのアクセスじゃないと見られないぽい?

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2013-07-15 (月) 13:51:46 (3930d)