Эта статья представляет собой учебное пособие по созданию кластера HDFS для демонстрации, предназначенное для запуска всех процессов ElasticCTR. В этой статье мы построим HDFS на узлах Baidu Cloud и сохраним набор данных Criteo в соответствии с требованиями формата данных ElasticCTR в HDFS.
Процесс создания кластера HDFS довольно сложен. Сначала необходимо приобрести экземпляр BCC.
В экземпляре BCC приобретите большой облачный диск CDS.
После входа в BCC сначала необходимо использовать инструмент fdisk, чтобы убедиться, что раздел уже установлен.
Выберите hadoop-2.8.5.tar.gz. После загрузки распакуйте его и переместите каталог hadoop-2.8.5 в каталог /usr/local. В каталоге /usr/local/hadoop-2.8.5/etc/hadoop/отредактируйте файл core-site.xml, изменив его следующим образом:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://${LOCAL_IP}:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/data/hadoop</value>
</property>
</configuration>
Здесь рекомендуется использовать IP-адрес внутренней сети ($LOCAL_IP), который начинается с 192.168 в ifconfig. Он также доступен в K8S.
Введите root@127.0.0.1
в файле slave.
Далее настройте доступ без пароля. Сначала выполните команду ssh-keygen
, а затем используйте команду ssh-copy-id
, чтобы настроить доступ без пароля к IP-адресам 127.0.0.1, localhost и 0.0.0.0.
Установите каталог /usr/local/hadoop-2.8.5/etc/hadoop
как $HADOOP_HOME
.
Затем добавьте $HADOOP_HOME/bin
в переменную $PATH
. Если команда hadoop
может быть выполнена, выполните hadoop namenode format
.
Наконец, запустите start-all.sh
в каталоге /usr/local/hadoop-2.8.5/sbin
.
После выполнения этих операций служба HDFS будет запущена. Затем создайте папку для потокового обучения /train_data/
с помощью команды hdfs dfs -mkdir hdfs://$IP:9000/train_data/
.
Теперь загрузите набор данных из https://paddle-serving.bj.bcebos.com/criteo_ctr_example/criteo_demo.tar.gz
и распакуйте его. В папке criteo_demo выполните следующие действия:
hdfs dfs -put * hdfs://$IP:9000/train_data/20200401
$IP — это адрес HDFS, указанный ранее.
Таким образом, пятичасовой обучающий набор будет сохранён в папке train_data в подпапке 20200401. Дата 20200401 может быть изменена на любую другую дату.
В файле data.config на главной странице используется информация о HDFS и информация о дате.
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Опубликовать ( 0 )