środa, 15 czerwca 2011

Szybka instalacja Apache Hadoop dzięki dystrybucji Cloudera

Mając w pamięci trudne doświadczenia z czasów studiów z frameworkiem Hadoop, postanowiłem wrócić do tematu dzięki prezentacji Eugiene Ciurana podczas tegorocznego GeeCONa. Eugienie opowiedział trochę o firmie Cloudera która odwaliła kawał dobrej roboty tworząc i udostępniając dla wszystkich łatwą w instalacji dystrybucję Hadoopa.

Oto jak w szybko zainstalować i uruchomić Hadoop na Ubuntu 11.04:

1. Dodanie nowego repozytorium
sudo touch /etc/apt/sources.list.d/cloudera.list
I dopisać do zawartości:
deb http://archive.cloudera.com/debian lucid-cdh3 contrib
deb-src http://archive.cloudera.com/debian lucid-cdh3 contrib
(Nie ma jeszcze dostępnej wersji dedykowane dla Natty :-/)

2. Instalacja!
sudo apt-get update
apt-cache search hadoop
sudo apt-get install hadoop-0.20

3. Odpalamy przykład :-)
hadoop jar /usr/lib/hadoop-0.20/hadoop-examples.jar pi 10 100

Jeśli wszystko przebiegło poprawnie na końcu powinniśmy otrzymać coś takiego w konsoli:
11/06/15 21:09:07 INFO mapred.JobClient: Job complete: job_local_0001
11/06/15 21:09:07 INFO mapred.JobClient: Counters: 14
11/06/15 21:09:07 INFO mapred.JobClient:   FileSystemCounters
11/06/15 21:09:07 INFO mapred.JobClient:     FILE_BYTES_READ=1642249
11/06/15 21:09:07 INFO mapred.JobClient:     FILE_BYTES_WRITTEN=2108417
11/06/15 21:09:07 INFO mapred.JobClient:   Map-Reduce Framework
11/06/15 21:09:07 INFO mapred.JobClient:     Reduce input groups=2
11/06/15 21:09:07 INFO mapred.JobClient:     Combine output records=0
11/06/15 21:09:07 INFO mapred.JobClient:     Map input records=10
11/06/15 21:09:07 INFO mapred.JobClient:     Reduce shuffle bytes=0
11/06/15 21:09:07 INFO mapred.JobClient:     Reduce output records=0
11/06/15 21:09:07 INFO mapred.JobClient:     Spilled Records=40
11/06/15 21:09:07 INFO mapred.JobClient:     Map output bytes=180
11/06/15 21:09:07 INFO mapred.JobClient:     Map input bytes=240
11/06/15 21:09:07 INFO mapred.JobClient:     Combine input records=0
11/06/15 21:09:07 INFO mapred.JobClient:     Map output records=20
11/06/15 21:09:07 INFO mapred.JobClient:     SPLIT_RAW_BYTES=1110
11/06/15 21:09:07 INFO mapred.JobClient:     Reduce input records=20
Job Finished in 2.361 seconds
Estimated value of Pi is 3.14800000000000000000

Oczywiście uruchomiony Hadoop działa w trybie standalone, który idealnie będzie się dla nas nadawać do deweloperskiej zabawy ;-)
W następnym odcinku trochę pokodzimy!

1 komentarz:

  1. Nice job and keep blogging,hadoop is the best online training course if you wanna attend the course and want to know the details refer at the link
    hadoop online training

    OdpowiedzUsuń