1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/didiopensource-dlflow

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

DLFlow — A Deep Learning WorkFlow

DLFlow概述

DLFlow — это набор инструментов для работы с данными глубокого обучения, который объединяет возможности Spark для обработки больших объёмов данных и Tensorflow для построения моделей. С помощью DLFlow можно быстро обрабатывать исходные данные, обучать модели и выполнять крупномасштабное распределённое прогнозирование, что делает его идеальным решением для производственных задач в офлайн-среде. Используя DLFlow, пользователи могут сосредоточиться на разработке моделей, не заботясь о предварительной обработке данных, построении конвейеров и развёртывании в производственной среде.

Функциональные возможности

Конфигурационное управление: DLFlow позволяет легко изменять конфигурации, такие как параметры моделей, параметры предварительной обработки данных и рабочие процессы, что значительно повышает эффективность работы.

Модульная структура: Задачи и модели представлены в виде плагинов, что упрощает их использование и разработку. Пользователи могут легко регистрировать и использовать собственные задачи и модели в рамках фреймворка.

Самоорганизация задач: Встроенный Workflow-фреймворк автоматически решает зависимости между задачами на основе выходных меток, упрощая построение конвейеров глубокого обучения.

Лучшие практики: Интеграция лучших практик из опыта команды глубокого обучения DIDI для решения различных проблем в офлайн-производстве. Объединение Tensorflow и Spark обеспечивает более эффективное решение задач глубокого обучения в офлайн-режиме.

Быстрый старт

Подготовка среды

Перед началом работы убедитесь, что в вашей среде установлены и настроены Hadoop и Spark, а также заданы основные переменные окружения.

  • Доступ Tensorflow к HDFS:

    • Убедитесь, что переменная окружения LD_LIBRARY_PATH включает путь к libjvm.so:
      export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:${JAVA_HOME}/jre/lib/amd64/server
    • Убедитесь, что переменная окружения CLASSPATH включает пути к jar-файлам Hadoop:
      export CLASSPATH=${CLASSPATH}:$(hadoop classpath --glob)

    Для получения дополнительной информации о доступе Tensorflow к HDFS см. TensorFlow on Hadoop.

  • Spark читает и записывает TFRecords:

    1. Клонируйте проект tensorflow/ecosystem:
      git clone https://github.com/tensorflow/ecosystem.git
    2. Перейдите в каталог ecosystem/spark/spark-tensorflow-connector/:
      cd ecosystem/spark/spark-tensorflow-connector/
    3. Соберите spark-tensorflow-connector:
      mvn versions:set -DnewVersion=1.14.0
      mvn clean install
      После сборки будет создан файл target/spark-tensorflow-connector_2.11-1.14.0.jar, который необходимо добавить в spark.jars.

    Дополнительную информацию о чтении и записи TFRecords с помощью Spark см. в spark-tensorflow-connector.

Установка

Вы можете установить DLFlow через pip или из исходного кода:

  • Через pip:
    pip install dlflow
  • Из исходного кода:
    git clone  https://github.com/didi/dlflow.git
    cd dlflow
    python setup.py install

Использование

  • Конфигурационные файлы: Используйте файлы конфигурации в каталоге conf для настройки работы DLFlow. Подробные инструкции см. в разделе CONFIGURATION.md.

  • Запуск в качестве модуля: Запустите DLFlow как модуль Python:

    python -m dlflow.main --config <CONFIGURATION FILE>.conf
  • Запуск как скрипт: Убедитесь, что каталог bin вашей среды Python добавлен в переменную окружения PATH:

    export PATH=$PATH:/usr/local/python/bin

    Затем запустите DLFlow следующим образом:

    dlflow --config <CONFIGURATION FILE>.conf

    Более подробную информацию об использовании см. в разделе USAGE.md.

Предопределённые задачи

Предопределённая задача Описание
Merge Задача слияния признаков, см. раздел 特征融合
Encode Разбор исходных признаков, кодирование и предварительная обработка признаков для непосредственного ввода в модель
Train Задача обучения модели
Evaluate Задача оценки модели
Predict Задача прогнозирования модели, использует Spark для распределённого прогнозирования и обладает способностью обрабатывать большие объёмы данных

Каталог руководства

Техническое решение

Общая архитектура DLFlow:

Архитектура

Pipeline DLFLow:

Pipeline

Contributing

Приглашаем вас использовать и участвовать в развитии этого проекта. Более подробную информацию см. в руководстве по вкладу CONTRIBUTING.md.

License

DLFlow распространяется и используется на условиях лицензии Apache-2.0. Дополнительную информацию см. в файле LICENSE.

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

DLFlow — это фреймворк глубокого обучения. Развернуть Свернуть
Apache-2.0
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/didiopensource-dlflow.git
git@api.gitlife.ru:oschina-mirror/didiopensource-dlflow.git
oschina-mirror
didiopensource-dlflow
didiopensource-dlflow
master