Введите имя домена:
.ua .com.ua .in.ua .org.ua
.ru .com .net .org
Показать все домены

Установка Hadoop

Ответы на вопросы от компании «Украинский хостинг».

Установка Hadoop в автономном режиме в Ubuntu

Apache Hadoop является широко используемым в ИТ-индустрии инструментом с открытым исходным кодом,предназначенным для обработки больших данных.

Перед выполнением инструкции рекомендуется создать не root пользователя с доступом к sudo (а перед этим подключиться к серверу по SSH).

В инструкции используется текстовый редактор nano, для установки которого требуется выполнить команду:

yum install nano
  1. Обновляем систему до последнего стабильного состояния при помощи команды:

    sudo yum install epel-release -y

    Нажимаем Enter.

    и команды:

    sudo yum update -y

    Нажимаем Enter. Обновление может занять несколько минут.

  2. Устанавливаем OpenJDK 8 JRE с помощью YUM:

    sudo yum install -y java-1.8.0-openjdk

    Нажимаем Enter. Если запрашивает пароль, ввести его.

  3. Проверяем установку OpenJDK 8 JRE:

    java -version

    Нажимаем Enter.

  4. Загружаем архив Hadoop:

    wget http://apache.ip-connect.vn.ua/hadoop/common/hadoop-2.7.5/hadoop-2.7.5.tar.gz

    Нажимаем Enter.

  5. Загружаем файл контрольной суммы:

    wget https://dist.apache.org/repos/dist/release/hadoop/common/hadoop-2.7.5/hadoop-2.7.5.tar.gz.mds

    Нажимаем Enter.

  6. Устанавливаем инструмент контрольной суммы:

    sudo yum install perl-Digest-SHA

    Нажимаем Enter. Потом нажать y и Enter.

  7. Вычисляем значение SHA256 архива Hadoop:

    shasum -a 256 hadoop-2.7.5.tar.gz

    Нажимаем Enter.

  8. Отображаем содержимое файла hadoop-2.7.5.tar.gz.mds чтобы убедиться, что оба значения SHA256 идентичны:

    cat hadoop-2.7.5.tar.gz.mds

    Нажимаем Enter.

  9. Извлекаем архив в каталог opt:

    sudo tar -zxvf hadoop-2.7.5.tar.gz -C /opt

    Нажимаем Enter. Если запрашивает пароль, ввести его

  10. Указываем для Hadoop исходное местоположение Java.

    Для этого открываем файл конфигурации среды Hadoop, /opt/hadoop-2.7.5/etc/hadoop/hadoop-env.sh

    sudo nano /opt/hadoop-2.7.5/etc/hadoop/hadoop-env.sh

    Нажимаем Enter.

    Находим строку:

    export JAVA_HOME=${JAVA_HOME}

    И меняем ее на стороку:

    export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")
  11. Сохраняем изменение в файле, нажав сочетание клавиш Ctrl+x , затем клавишу y и затем клавишу Enter.

    Добавляем путь к Hadoop к PATH переменной окружения.

    Выполняем команду:

    echo "export PATH=/opt/hadoop-2.7.5/bin:$PATH" | sudo tee -a /etc/profile

    Нажимаем Enter.

    И команду:

    source /etc/profile

    Нажимаем Enter.

  12. При помощи встроенного примера Проверяем установки Hadoop.

    Подготавливаем источник данных.

    Команды:

    mkdir ~/source

    Нажимаем Enter.

    cp /opt/hadoop-2.7.5/etc/hadoop/*.xml ~/source

    Нажимаем Enter.

  13. Используем Hadoop вместе с grep для вывода результата:

    hadoop jar /opt/hadoop-2.7.5/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.5.jar grep ~/source ~/output 'principal[.]*'

    Нажимаем Enter.

  14. Смотрим содержимое выходных файлов:

    cat ~/output/*

    Нажимаем Enter.

Теперь Hadoop готов к работе.

См.также: