1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/mindspore-ms-operator

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
README.md 3.4 КБ
Копировать Редактировать Web IDE Исходные данные Просмотреть построчно История
gitlife-traslator Отправлено 01.12.2024 21:01 6d7f116

MindSpore Operator

MindSpore Operator — это плагин для распределённого обучения MindSpore на Kubernetes. В Custom Resource Definition (CRD) определены роли Scheduler, PS и Worker. Пользователю достаточно настроить файл в формате yaml, чтобы легко реализовать распределённое обучение.

Установка

Есть несколько способов установки:

1. Прямая установка с помощью yaml

kubectl apply -f deploy/v1/ms-operator.yaml

После установки можно использовать команду kubectl get pods --all-namespaces, чтобы увидеть развёртывание в пространстве имён ms-operator-system. Также можно использовать команду kubectl describe pod ms-operator-controller-manager-xxx-xxx -n ms-operator-system, чтобы просмотреть подробную информацию о модуле.

2. Установка с помощью make deploy

make deploy IMG=swr.cn-south-1.myhuaweicloud.com/mindspore/ms-operator:latest

3. Локальная среда отладки

make run

Примеры

В настоящее время ms-operator поддерживает обычное обучение с одним Worker, обучение в режиме PS с одним Worker и автоматическое параллельное выполнение (например, параллельное выполнение данных, моделей и т. д.) при запуске Scheduler и Worker.

Примеры выполнения доступны в папке config/samples/. В качестве примера рассмотрим параллельное выполнение данных при запуске Scheduler и Worker. Для этого необходимо заранее подготовить набор данных и сетевой сценарий:

kubectl apply -f config/samples/ms_wide_deep_dataparallel.yaml

Чтобы увидеть запущенные в кластере Scheduler и Worker, а также соответствующую службу Scheduler, используйте команду kubectl get all -o wide.

Руководство по разработке

Основной код:

pkg/apis/v1/msjob_types.go определяет CRD для MSJob. pkg/controllers/v1/msjob_controller.go содержит основную логику контроллера MSJob.

Создание и загрузка образа

make docker-build IMG=swr.cn-south-1.myhuaweicloud.com/mindspore/ms-operator:latest
docker push swr.cn-south-1.myhuaweicloud.com/mindspore/ms-operator:latest

Часто задаваемые вопросы

  • Если во время процесса сборки образа вы обнаружите, что gcr.io/distroless/static не может быть извлечён, обратитесь к issue.
  • Если в процессе установки и развёртывания вы обнаружите, что gcr.io/kubebuilder/kube-rbac-proxy не может быть извлечен, обратитесь к issue.

Опубликовать ( 0 )

Вы можете оставить комментарий после Вход в систему

1
https://api.gitlife.ru/oschina-mirror/mindspore-ms-operator.git
git@api.gitlife.ru:oschina-mirror/mindspore-ms-operator.git
oschina-mirror
mindspore-ms-operator
mindspore-ms-operator
master