Installare hadoop standalone
da admin il novembre 10, 2009
Per necessita è stato necessario installare sul nostro calcolatore hadoop.
The Apache Hadoop project develops open-source software for reliable, scalable, distributed computing
http://hadoop.apache.org/.
Vediamo i passi per installare l’ambiente su una distribuzione debian/ubuntu.
Il primo passo sarà quello di aggiungere i repository necessari all’installazione, editiamo quindi con il nostro editor preferito il file /etc/apt/sources.list.d/cloudera.list (se non esiste creiamolo) e aggiungiamo le seguenti righe.
deb http://archive.cloudera.com/debian DISTRO-testing contrib deb-src http://archive.cloudera.com/debian DISTRO-testing contrib
sostituendo a DISTRO o hardy o intrepid o jaunty
aggiungiamo repository key.
curl -s http://archive.cloudera.com/debian/archive.key | \ sudo apt-key add -
a questo punto basterà lanciare il comando
sudo apt-get update
per aggiornare il database dei pacchetti,
aggiungiamo quindi l’utente hadoop con il seguente comando:
sudo useradd --home /home/hadoop \
--groups adm,dialout,plugdev,lpadmin,admin,sambashare \
--shell /bin/bash \
--create-home hadoop
e settiamo la password dell’utente appena creato con il comando:
sudo passwd hadoop
il resto va effettuato utilizzando l’utente hadoop, cambiamo quindi utente e continuiamo con il resto della guida.
Installiamo da prima ssh con il comando:
sudo apt-get install ssh
e rsync con il comando.
sudo apt-get install rsync
Per installare hadoop lanciamo il comando:
sudo apt-get install hadoop-0.20
Il software sarà quindi installato nella directory /usr/lib/hadoop-0.20, è necessario da subito settare la variabile JAVA_HOME all’interno del file /usr/lib/hadoop-0.20/conf/hadoop-env.sh.
Se avete installata la versione 6 della jdk della sun vi basterà cercare la riga:
# export JAVA_HOME=/usr/lib/j2sdk1.5-sun
e sostituirla con la seguente:
export JAVA_HOME=/usr/lib/jvm/java-6-sun
l’installazione a questo punto è terminata e potrete verificarne la correttezza con il seguente test, spostatevi da prima nella directory di hadoop:
cd /usr/lib/hadoop-0.20
e da utente hadoop lanciate i seguenti comandi:
mkdir input cp conf/*.xml input bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+' cat output/*
L’esempio di cui sopra copia il contenuto della directory conf all’interno della directory input e su questi file cerca e visualizza il contenuto dell’espressione regolare passata.
L’output viene quindi salvato all’interno della directory output.
La guida è stata tratta e tradotta da:
http://hadoop.apache.org/common/docs/current/quickstart.html
Lascia un commento