Hadoop の変更点 - きのさいと

追加された行はこの色です。
削除された行はこの色です。
Hadoop へ行く。
Hadoop の差分を削除
CentOS6.4でまずは一台構成のHadoopをセットアップしてみた
 cd /etc/yum.repos.d/
 wget http://archive.cloudera.com/redhat/6/x86_64/cdh/cloudera-cdh3.repo
 rpm --import http://archive.cloudera.com/redhat/6/x86_64/cdh/RPM-GPG-KEY-cloudera

 yum -y install hadoop-0.20
 yum -y install hadoop-0.20-conf-pseudo

あとはサービス起動
 /etc/init.d/hadoop-0.20-namenode start
 /etc/init.d/hadoop-0.20-jobtracker start
 /etc/init.d/hadoop-0.20-datanode start
 /etc/init.d/hadoop-0.20-tasktracker start

このとき/etc/hosts でノード名が解決できなくていくつかのサービスが起動できなかったので、注意。


ブラウザでアクセスしてみる
 http://[ノード名]:50070/
へアクセス。HDFSの様子を見ることができます。

つぎに
 http://[ノード名]:50030/
へアクセス。MapReduceの様子を見ることができます。

HDFSの画面から「Browse the filesystem」をクリックすると、ファイルシステム上のコンテンツを閲覧できます。((localhostからのアクセスじゃないと見られないぽい?))

**HDFS上でディレクトリやファイルの操作 [#n7a8230a]
 bin/hadoop fs -mkdir fugaDirectory   <- HDFS上にディレクトリを作った
 cat /var/tmp/hoge <-なんかファイルががあるとする
 bin/hadoop fs -put /var/tmp/hoge fugaDirectory <-さっきのディレクトリにアップした
 bin/hadoop fs -cat fugaDirectory/hoge <-参照するとき。



**MapReduceジョブを動かしてみる [#te6a9fd0]
 [hadoop-0.20]# pwd
 /usr/lib/hadoop-0.20
 [hadoop-0.20]# bin/hadoop jar /usr/lib/hadoop-0.20/hadoop-examples.jar pi 10 2000
 Number of Maps  = 10
 Samples per Map = 2000
 Wrote input for Map #0
 Wrote input for Map #1
 Wrote input for Map #2
 Wrote input for Map #3
 Wrote input for Map #4
 Wrote input for Map #5
 Wrote input for Map #6
 Wrote input for Map #7
 Wrote input for Map #8
 Wrote input for Map #9
 Starting Job
 ... 割愛
 Job Finished in 20.352 seconds
 Estimated value of Pi is 3.14280000000000000000
 [hadoop-0.20]#