DLFlow — A Deep Learning WorkFlow

DLFlow概述

DLFlow — это набор инструментов для работы с данными глубокого обучения, который объединяет возможности Spark для обработки больших объёмов данных и Tensorflow для построения моделей. С помощью DLFlow можно быстро обрабатывать исходные данные, обучать модели и выполнять крупномасштабное распределённое прогнозирование, что делает его идеальным решением для производственных задач в офлайн-среде. Используя DLFlow, пользователи могут сосредоточиться на разработке моделей, не заботясь о предварительной обработке данных, построении конвейеров и развёртывании в производственной среде.

Функциональные возможности

Конфигурационное управление: DLFlow позволяет легко изменять конфигурации, такие как параметры моделей, параметры предварительной обработки данных и рабочие процессы, что значительно повышает эффективность работы.

Модульная структура: Задачи и модели представлены в виде плагинов, что упрощает их использование и разработку. Пользователи могут легко регистрировать и использовать собственные задачи и модели в рамках фреймворка.

Самоорганизация задач: Встроенный Workflow-фреймворк автоматически решает зависимости между задачами на основе выходных меток, упрощая построение конвейеров глубокого обучения.

Лучшие практики: Интеграция лучших практик из опыта команды глубокого обучения DIDI для решения различных проблем в офлайн-производстве. Объединение Tensorflow и Spark обеспечивает более эффективное решение задач глубокого обучения в офлайн-режиме.

Быстрый старт

Подготовка среды

Перед началом работы убедитесь, что в вашей среде установлены и настроены Hadoop и Spark, а также заданы основные переменные окружения.

Доступ Tensorflow к HDFS:
- Убедитесь, что переменная окружения LD_LIBRARY_PATH включает путь к libjvm.so:
```
export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:${JAVA_HOME}/jre/lib/amd64/server
```
- Убедитесь, что переменная окружения CLASSPATH включает пути к jar-файлам Hadoop:
```
export CLASSPATH=${CLASSPATH}:$(hadoop classpath --glob)
```
Для получения дополнительной информации о доступе Tensorflow к HDFS см. TensorFlow on Hadoop.
Spark читает и записывает TFRecords:
1. Клонируйте проект tensorflow/ecosystem:
```
git clone https://github.com/tensorflow/ecosystem.git
```
2. Перейдите в каталог ecosystem/spark/spark-tensorflow-connector/:
```
cd ecosystem/spark/spark-tensorflow-connector/
```
3. Соберите spark-tensorflow-connector:
```
mvn versions:set -DnewVersion=1.14.0
mvn clean install
```
  После сборки будет создан файл target/spark-tensorflow-connector_2.11-1.14.0.jar, который необходимо добавить в spark.jars.
Дополнительную информацию о чтении и записи TFRecords с помощью Spark см. в spark-tensorflow-connector.

Установка

Вы можете установить DLFlow через pip или из исходного кода:

Через pip:
```
pip install dlflow
```

Из исходного кода:

git clone  https://github.com/didi/dlflow.git
cd dlflow
python setup.py install

Использование

Конфигурационные файлы: Используйте файлы конфигурации в каталоге conf для настройки работы DLFlow. Подробные инструкции см. в разделе CONFIGURATION.md.
Запуск в качестве модуля: Запустите DLFlow как модуль Python:
```
python -m dlflow.main --config <CONFIGURATION FILE>.conf
```
Запуск как скрипт: Убедитесь, что каталог bin вашей среды Python добавлен в переменную окружения PATH:
```
export PATH=$PATH:/usr/local/python/bin
```
Затем запустите DLFlow следующим образом:
```
dlflow --config <CONFIGURATION FILE>.conf
```
Более подробную информацию об использовании см. в разделе USAGE.md.

Предопределённые задачи

Предопределённая задача	Описание
Merge	Задача слияния признаков, см. раздел 特征融合
Encode	Разбор исходных признаков, кодирование и предварительная обработка признаков для непосредственного ввода в модель
Train	Задача обучения модели
Evaluate	Задача оценки модели
Predict	Задача прогнозирования модели, использует Spark для распределённого прогнозирования и обладает способностью обрабатывать большие объёмы данных

Каталог руководства

Техническое решение

Общая архитектура DLFlow:

Архитектура

Pipeline DLFLow:

Pipeline

Contributing

Приглашаем вас использовать и участвовать в развитии этого проекта. Более подробную информацию см. в руководстве по вкладу CONTRIBUTING.md.

License

DLFlow распространяется и используется на условиях лицензии Apache-2.0. Дополнительную информацию см. в файле LICENSE.

OSCHINA-MIRROR/didiopensource-dlflow

DLFlow — A Deep Learning WorkFlow

DLFlow概述

Функциональные возможности

Быстрый старт

Подготовка среды

Установка

Использование

Предопределённые задачи

Каталог руководства

Техническое решение

Contributing

License

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/didiopensource-dlflow .gitee-modal { min-width: 500px !important; } .gitee-modal .close { right: 0.6rem !important; }

DLFlow — A Deep Learning WorkFlow

DLFlow概述

Функциональные возможности

Быстрый старт

Подготовка среды

Установка

Использование

Предопределённые задачи

Каталог руководства

Техническое решение

Contributing

License

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/didiopensource-dlflow