1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/mirrors-ElasticRec

Клонировать/Скачать
HDFS_TUTORIAL.md 3.8 КБ
Копировать Редактировать Web IDE Исходные данные Просмотреть построчно История
gitlife-traslator Отправлено 26.11.2024 21:30 5f473cf

Как построить кластер HDFS

Обзор

Эта статья представляет собой учебное пособие по созданию кластера HDFS для демонстрации, предназначенное для запуска всех процессов ElasticCTR. В этой статье мы построим HDFS на узлах Baidu Cloud и сохраним набор данных Criteo в соответствии с требованиями формата данных ElasticCTR в HDFS.

Покупка BCC

Процесс создания кластера HDFS довольно сложен. Сначала необходимо приобрести экземпляр BCC.



В экземпляре BCC приобретите большой облачный диск CDS.

Установка и запуск Hadoop

После входа в BCC сначала необходимо использовать инструмент fdisk, чтобы убедиться, что раздел уже установлен.

Выберите hadoop-2.8.5.tar.gz. После загрузки распакуйте его и переместите каталог hadoop-2.8.5 в каталог /usr/local. В каталоге /usr/local/hadoop-2.8.5/etc/hadoop/отредактируйте файл core-site.xml, изменив его следующим образом:

<configuration>
<property>
  <name>fs.defaultFS</name>
  <value>hdfs://${LOCAL_IP}:9000</value>
</property>
<property>
  <name>hadoop.tmp.dir</name>
  <value>/data/hadoop</value>
</property>
</configuration>

Здесь рекомендуется использовать IP-адрес внутренней сети ($LOCAL_IP), который начинается с 192.168 в ifconfig. Он также доступен в K8S.

Введите root@127.0.0.1 в файле slave.

Далее настройте доступ без пароля. Сначала выполните команду ssh-keygen, а затем используйте команду ssh-copy-id, чтобы настроить доступ без пароля к IP-адресам 127.0.0.1, localhost и 0.0.0.0.

Установите каталог /usr/local/hadoop-2.8.5/etc/hadoop как $HADOOP_HOME.

Затем добавьте $HADOOP_HOME/bin в переменную $PATH. Если команда hadoop может быть выполнена, выполните hadoop namenode format.

Наконец, запустите start-all.sh в каталоге /usr/local/hadoop-2.8.5/sbin.

После выполнения этих операций служба HDFS будет запущена. Затем создайте папку для потокового обучения /train_data/ с помощью команды hdfs dfs -mkdir hdfs://$IP:9000/train_data/.

Копирование набора данных Criteo в HDFS

Теперь загрузите набор данных из https://paddle-serving.bj.bcebos.com/criteo_ctr_example/criteo_demo.tar.gz и распакуйте его. В папке criteo_demo выполните следующие действия: hdfs dfs -put * hdfs://$IP:9000/train_data/20200401 $IP — это адрес HDFS, указанный ранее. Таким образом, пятичасовой обучающий набор будет сохранён в папке train_data в подпапке 20200401. Дата 20200401 может быть изменена на любую другую дату. В файле data.config на главной странице используется информация о HDFS и информация о дате.

Опубликовать ( 0 )

Вы можете оставить комментарий после Вход в систему

1
https://api.gitlife.ru/oschina-mirror/mirrors-ElasticRec.git
git@api.gitlife.ru:oschina-mirror/mirrors-ElasticRec.git
oschina-mirror
mirrors-ElasticRec
mirrors-ElasticRec
master