HDFS_TUTORIAL.md · OSCHINA-MIRROR/paddlepaddle-elasticctr

Как построить кластер HDFS

Обзор

Эта статья представляет собой учебное пособие по созданию кластера HDFS для демонстрации, предназначенное для запуска всех процессов ElasticCTR. В этой статье мы построим HDFS на узлах Baidu Cloud и сохраним набор данных Criteo в соответствии с требованиями формата данных ElasticCTR в HDFS.

Покупка BCC

Процесс создания кластера HDFS довольно сложен. Сначала необходимо приобрести экземпляр BCC.

В экземпляре BCC необходимо купить большой облачный диск CDS.

Установка и запуск Hadoop

После входа в BCC сначала необходимо использовать инструмент fdisk, чтобы убедиться, что раздел уже установлен.

Выберите hadoop-2.8.5.tar.gz. После загрузки распакуйте файл и переместите каталог hadoop-2.8.5 в каталог /usr/local. В каталоге /usr/local/hadoop-2.8.5/etc/hadoop/отредактируйте файл core-site.xml, изменив его следующим образом:

<configuration>
<property>
  <name>fs.defaultFS</name>
  <value>hdfs://${LOCAL_IP}:9000</value>
</property>
<property>
  <name>hadoop.tmp.dir</name>
  <value>/data/hadoop</value>
</property>
</configuration>

Здесь рекомендуется использовать внутренний IP-адрес ($LOCAL_IP), который начинается с 192.168 в ifconfig. Он также доступен в K8S.

Введите root@127.0.0.1 в файле slave.

Теперь настройте доступ без пароля. Сначала используйте команду ssh-keygen. После ввода команды несколько раз нажмите Enter. Затем используйте команду ssh-copy-id, чтобы настроить доступ без пароля к IP-адресам 127.0.0.1, localhost и 0.0.0.0.

Установите каталог /usr/local/hadoop-2.8.5/etc/hadoop как переменную $HADOOP_HOME.

Затем добавьте каталог $HADOOP_HOME/bin в переменную $PATH. Если команда hadoop может быть выполнена, выполните команду hadoop namenode format.

Наконец, запустите start-all.sh в каталоге /usr/local/hadoop-2.8.5/sbin.

После выполнения этих действий служба HDFS будет запущена. Теперь создайте папку для потоковой тренировки /train_data/ с помощью команды hdfs dfs -mkdir hdfs://$IP:9000/train_data/.

Копирование набора данных Criteo на HDFS

Далее загрузите набор данных с https://paddle-serving.bj.bcebos.com/criteo_ctr_example/criteo_demo.tar.gz. Распакуйте его и перейдите в папку criteo_demo. Выполните следующие команды: hdfs dfs -put * hdfs://$IP:9000/train_data/20200401. $IP — это адрес HDFS, указанный ранее. Таким образом, 5-часовой тренировочный набор будет сохранён в папке train_data в подпапке 20200401. Дата 20200401 может быть изменена на любую другую дату. В файле data.config на главной странице используется информация о HDFS и информация о дате.

OSCHINA-MIRROR/paddlepaddle-elasticctr

Как построить кластер HDFS

Обзор

Покупка BCC

Установка и запуск Hadoop

Копирование набора данных Criteo на HDFS

Опубликовать ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/paddlepaddle-elasticctr .gitee-modal { min-width: 500px !important; } .gitee-modal .close { right: 0.6rem !important; }

Как построить кластер HDFS

Обзор

Покупка BCC

Установка и запуск Hadoop

Копирование набора данных Criteo на HDFS

Опубликовать ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/paddlepaddle-elasticctr