Hadoop

CentOS6.4でまずは一台構成のHadoopをセットアップしてみた

cd /etc/yum.repos.d/
wget http://archive.cloudera.com/redhat/6/x86_64/cdh/cloudera-cdh3.repo
rpm --import http://archive.cloudera.com/redhat/6/x86_64/cdh/RPM-GPG-KEY-cloudera

yum -y install hadoop-0.20
yum -y install hadoop-0.20-conf-pseudo

あとはサービス起動

/etc/init.d/hadoop-0.20-namenode start
/etc/init.d/hadoop-0.20-jobtracker start
/etc/init.d/hadoop-0.20-datanode start
/etc/init.d/hadoop-0.20-tasktracker start

このとき/etc/hosts でノード名が解決できなくていくつかのサービスが起動できなかったので、注意。

ブラウザでアクセスしてみる

http://[ノード名]:50070/

へアクセス。HDFSの様子を見ることができます。

つぎに

http://[ノード名]:50030/

へアクセス。MapReduce?の様子を見ることができます。

HDFSの画面から「Browse the filesystem」をクリックすると、ファイルシステム上のコンテンツを閲覧できます。*1

HDFS上でディレクトリやファイルの操作 †

bin/hadoop fs -mkdir fugaDirectory   <- HDFS上にディレクトリを作った
cat /var/tmp/hoge <-なんかファイルががあるとする
bin/hadoop fs -put /var/tmp/hoge fugaDirectory <-さっきのディレクトリにアップした
bin/hadoop fs -cat fugaDirectory/hoge <-参照するとき。

↑

MapReduce?ジョブを動かしてみる †

[hadoop-0.20]# pwd
/usr/lib/hadoop-0.20
[hadoop-0.20]# bin/hadoop jar /usr/lib/hadoop-0.20/hadoop-examples.jar pi 10 2000
Number of Maps  = 10
Samples per Map = 2000
Wrote input for Map #0
Wrote input for Map #1
Wrote input for Map #2
Wrote input for Map #3
Wrote input for Map #4
Wrote input for Map #5
Wrote input for Map #6
Wrote input for Map #7
Wrote input for Map #8
Wrote input for Map #9
Starting Job
... 割愛
Job Finished in 20.352 seconds
Estimated value of Pi is 3.14280000000000000000
[hadoop-0.20]#

メニュー

わりかし古い話

自作ツール

外部サイト

よく見るBlog

最新の20件

人気の50件

今日の10件

HDFS上でディレクトリやファイルの操作 †

MapReduce?ジョブを動かしてみる †