Эта статья представляет собой учебное пособие по созданию кластера HDFS для демонстрации, предназначенное для запуска всех процессов ElasticCTR. В этой статье мы построим HDFS на узлах Baidu Cloud и сохраним набор данных Criteo в соответствии с требованиями формата данных ElasticCTR в HDFS.
Процесс создания кластера HDFS довольно сложен. Сначала необходимо приобрести экземпляр BCC.
В экземпляре BCC необходимо купить большой облачный диск CDS.
После входа в BCC сначала необходимо использовать инструмент fdisk, чтобы убедиться, что раздел уже установлен.
Выберите hadoop-2.8.5.tar.gz. После загрузки распакуйте файл и переместите каталог hadoop-2.8.5 в каталог /usr/local. В каталоге /usr/local/hadoop-2.8.5/etc/hadoop/отредактируйте файл core-site.xml, изменив его следующим образом:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://${LOCAL_IP}:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/data/hadoop</value>
</property>
</configuration>
Здесь рекомендуется использовать внутренний IP-адрес ($LOCAL_IP), который начинается с 192.168 в ifconfig. Он также доступен в K8S.
Введите root@127.0.0.1
в файле slave.
Теперь настройте доступ без пароля. Сначала используйте команду ssh-keygen
. После ввода команды несколько раз нажмите Enter. Затем используйте команду ssh-copy-id
, чтобы настроить доступ без пароля к IP-адресам 127.0.0.1, localhost и 0.0.0.0.
Установите каталог /usr/local/hadoop-2.8.5/etc/hadoop
как переменную $HADOOP_HOME
.
Затем добавьте каталог $HADOOP_HOME/bin
в переменную $PATH
. Если команда hadoop
может быть выполнена, выполните команду hadoop namenode format
.
Наконец, запустите start-all.sh
в каталоге /usr/local/hadoop-2.8.5/sbin
.
После выполнения этих действий служба HDFS будет запущена. Теперь создайте папку для потоковой тренировки /train_data/
с помощью команды hdfs dfs -mkdir hdfs://$IP:9000/train_data/
.
Далее загрузите набор данных с https://paddle-serving.bj.bcebos.com/criteo_ctr_example/criteo_demo.tar.gz
. Распакуйте его и перейдите в папку criteo_demo. Выполните следующие команды:
hdfs dfs -put * hdfs://$IP:9000/train_data/20200401
.
$IP — это адрес HDFS, указанный ранее.
Таким образом, 5-часовой тренировочный набор будет сохранён в папке train_data в подпапке 20200401. Дата 20200401 может быть изменена на любую другую дату.
В файле data.config на главной странице используется информация о HDFS и информация о дате.
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Опубликовать ( 0 )