Установка Hadoop

Установка Hadoop в автономному режимі в Ubuntu

Apache Hadoop є широко використовується в ІТ-індустрії інструментом з відкритим вихідним кодом, призначеним для обробки великих даних.

Перед виконанням інструкції рекомендується створити не root користувача з доступом до sudo (а перед цим підключитися до сервера SSH).

В інструкції використовується текстовий редактор nano, для якого потрібно виконати команду:

 yum install nano

Оновлюємо систему до останнього стабільного стану за допомогою команди:
```
 sudo yum install epel-release -y
```
Натискаємо Enter.
та команди:
```
 sudo yum update -y
```
Натискаємо Enter. Оновлення може тривати кілька хвилин.
Встановлюємо OpenJDK 8 JRE за допомогою YUM:
```
 sudo yum install -y java-1.8.0-openjdk
```
Натискаємо Enter. Якщо запитує пароль, введіть його.
Перевіряємо установку OpenJDK 8 JRE:
```
 java -version
```
Натискаємо Enter.

Завантажуємо архів Hadoop:

 wget http://apache.ip-connect.vn.ua/hadoop/common/hadoop-2.7.5/hadoop-2.7.5.tar.gz

Натискаємо Enter.

Завантажуємо файл контрольної суми:

 wget https://dist.apache.org/repos/dist/release/hadoop/common/hadoop-2.7.5/hadoop-2.7.5.tar.gz.mds

Натискаємо Enter.

Встановлюємо інструмент контрольної суми:
```
 sudo yum install perl-Digest-SHA
```
Натискаємо Enter. Потім натиснути y та Enter.
Обчислюємо значення SHA256 архіву Hadoop:
```
 shasum -a 256 hadoop-2.7.5.tar.gz
```
Натискаємо Enter.
Відображаємо вміст файлу hadoop-2.7.5.tar.gz.mds щоб переконатися, що обидва значення SHA256 ідентичні:
```
 cat hadoop-2.7.5.tar.gz.mds
```
Натискаємо Enter.
Виймаємо архів у каталог opt:
```
 sudo tar -zxvf hadoop-2.7.5.tar.gz -C /opt
```
Натискаємо Enter. Якщо запитує пароль, введіть його
Вказуємо для Hadoop вихідне розташування Java.
Для цього відкриваємо файл конфігурації середовища Hadoop, /opt/hadoop-2.7.5/etc/hadoop/hadoop-env.sh
```
 sudo nano /opt/hadoop-2.7.5/etc/hadoop/hadoop-env.sh
```
Натискаємо Enter.
Знаходимо рядок:
```
 export JAVA_HOME=${JAVA_HOME}
```
І міняємо її на стороку:
```
 export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")
```
Зберігаємо зміну у файлі, натиснувши клавіші Ctrl+x , потім клавішу y і потім клавішу Enter.
Додаємо шлях Hadoop до PATH змінної оточення.
Виконуємо команду:
```
 echo "export PATH=/opt/hadoop-2.7.5/bin:$PATH" | sudo tee -a /etc/profile
```
Натискаємо Enter.
І команду:
```
 source /etc/profile
```
Натискаємо Enter.
За допомогою вбудованого прикладу Перевіряємо установки Hadoop.
Підготовляємо джерело даних.
Команди:
```
 mkdir ~/source
```
Натискаємо Enter.
```
 cp /opt/hadoop-2.7.5/etc/hadoop/*.xml ~/source
```
Натискаємо Enter.
Використовуємо Hadoop разом із grep для виведення результату:
```
 hadoop jar /opt/hadoop-2.7.5/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.5.jar grep ~/source ~/output 'principal[.]*'
```
Натискаємо Enter.
Дивимося вміст вихідних файлів:
```
 cat ~/output/*
```
Натискаємо Enter.