OSCHINA-MIRROR/opendilab-DI-engine

Введение в DI-engine

DI-engine — это обобщённый движок интеллектуального принятия решений. Он поддерживает различные алгоритмы глубокого обучения с подкреплением (deep reinforcement learning, DRL). Среди них:

основные алгоритмы DRL, такие как DQN, PPO, SAC, R2D2, IMPALA;
многоагентные алгоритмы RL, например QMIX, MAPPO, ACE;
алгоритмы имитационного обучения (BC/IRL/GAIL), такие как GAIL, SQIL, Guided Cost Learning, Implicit Behavioral Cloning;
алгоритмы исследования, например HER, RND, ICM, NGU;
офлайн-алгоритмы RL: CQL, TD3BC, Decision Transformer;
модельные алгоритмы RL: SVG, MVE, STEVE / MBPO, DDPPO.

Цель DI-engine — стандартизировать различные среды и приложения для интеллектуального принятия решений. Также поддерживаются различные обучающие конвейеры и индивидуальные приложения искусственного интеллекта для принятия решений.

Примеры сред:

традиционные академические среды — DI-zoo;
обучающие курсы — PPOxFamily: PPO x Family DRL Tutorial. DI-engine также имеет некоторые системы оптимизации и проектирования для эффективного и надёжного крупномасштабного обучения с подкреплением:

(Нажмите для деталей)

DI-orchestrator: RL Kubernetes Custom Resource and Operator Lib.
DI-hpc: RL HPC OP Lib.
DI-store: RL Object Store.

Наслаждайтесь исследованием и использованием.

План

— Введение в DI-engine. — План. — Установка. — Быстрый старт. — Функции. — Разнообразие алгоритмов. — Разнообразие сред. — Обратная связь и вклад. — Сторонники. — Звёзды. — Форкеры. — Цитирование. — Лицензия.

Установка

Вы можете просто установить DI-engine из PyPI с помощью следующей команды:

pip install DI-engine

Если вы используете Anaconda или Miniconda, вы можете установить DI-engine от conda-forge с помощью следующей команды:

conda install -c opendilab di-engine

Для получения дополнительной информации об установке см. Установка.

И наш репозиторий dockerhub можно найти здесь, мы подготовили базовый образ и образ среды с общими средами RL. | № | Название | | Ссылки | Команда | | :-- |:--:| --: |:--:|:--:| | 1 | DQN | | DQN doc, DQN中文文档, policy/dqn | python3 -u cartpole_dqn_main.py / ding -m serial -c cartpole_dqn_config.py -s 0 | | 2 | C51 | | C51 doc, policy/c51 | ding -m serial -c cartpole_c51_config.py -s 0 | | 3 | QRDQN | | QRDQN doc, policy/qrdqn | ding -m serial -c cartpole_qrdqn_config.py -s 0 | | 4 | IQN | | IQN doc, policy/iqn | ding -m serial -c cartpole_iqn_config.py -s 0 | | 5 | FQF | | FQF doc, policy/fqf | ding -m serial -c cartpole_fqf_config.py -s 0 | | 6 | Rainbow | | Rainbow doc, policy/rainbow | ding -m serial -c cartpole_rainbow_config.py -s 0 | | 7 | SQL | | SQL doc, policy/sql | ding -m serial -c cartpole_sql_config.py -s 0 | | 8 | R2D2 | | R2D2 doc, policy/r2d2 | ding -m serial -c cartpole_r2d2_config.py -s 0 | | 9 | PG | | PG doc, policy/pg | ding -m serial -c cartpole_pg_config.py -s 0 | | 10 | A2C | | A2C doc, policy/a2c | ding -m | Сериальное обучение — конфигурации и политики

№	Политика	Особенности	Документация	Команда
11	PPO	Ссылки на статьи	—	`serial -c cartpole_a2c_config.py -s 0`
12	PPG	—	—	`python3 -u cartpole_ppg_main.py`
13	ACER	—	—	`ding -m serial -c cartpole_acer_config.py -s 0`
14	IMPALA	Распределённое обучение, дискретное пространство состояний	—	`ding -m serial -c cartpole_impala_config.py -s 0`
15	DDPG/PADDPG	Непрерывное пространство состояний, гибридное обучение	—	`ding -m serial -c pendulum_ddpg_config.py -s 0`
16	TD3	Непрерывное пространство состояний, гибридное обучение	—	`python3 -u pendulum_td3_main.py / ding -m serial -c pendulum_td3_config.py -s 0`
17	D4PG	Непрерывное пространство состояний	—	`python3 -u pendulum_d4pg_config.py`
18	SAC/MASAC	Дискретное и непрерывное пространство состояний, обучение с марковскими цепями	—	`ding -m serial -c pendulum_sac_config.py -s 0`
19	PDQN	Гибридное обучение	—	`ding -m serial -c gym_hybrid_pdqn_config.py -s 0`
20	MPDQN	Гибридное обучение	—	`ding -m serial -c gym_hybrid_mpdqn_config.py -s 0`
—	QMIX
—	COMA
—	QTran
—	WQMIX
—	CollaQ
—	MADDPG
—	GAIL
—	SQIL
—	DQFD
—	R2D3
—	Guided Cost Learning

В запросе присутствуют ссылки на научные статьи и репозиторий с кодом, но нет цельного текста для перевода. Пожалуйста, уточните запрос. Learning 中文文档

reward_model/guided_cost | python3 lunarlander_gcl_config.py | | 33 | TREX | | TREX doc
reward_model/trex | python3 mujoco_trex_main.py | | 34 | Implicit Behavorial Cloning (DFO+MCMC) | | policy/ibc
model/template/ebm | python3 d4rl_ibc_main.py -s 0 -c pen_human_ibc_mcmc_config.py | | 35 | BCO | | entry/bco | python3 -u cartpole_bco_config.py | | 36 | HER | | HER doc
reward_model/her | python3 -u bitflip_her_dqn.py | | 37 | RND | | RND doc
reward_model/rnd | python3 -u cartpole_rnd_onppo_config.py | | 38 | ICM | | ICM doc
ICM中文文档
 reward_model/icm | python3 -u cartpole_ppo_icm_config.py | | 39 | CQL | | CQL doc
policy/cql | python3 -u d4rl_cql_main.py | | 40 | TD3BC | | TD3BC doc
policy/td3_bc | python3 -u d4rl_td3_bc_main.py | | 41 | Decision Transformer | | policy/dt | python3 -u d4rl_dt_main.py | | 42 | MBSAC(SAC+MVE+SVG) | | policy/mbpolicy/mbsac | | No | Среда | Метка | Визуализация | Код и ссылки на документацию | | :--: | :---------------------------------------------------------------------------------: | :--------------------------------------: | :---------------------------:|:------------------------------------------------------------:| | 1 | atari (https://github.com/openai/gym/tree/master/gym/envs/atari) | | original | ссылка на dizoo, учебник по env, руководство по среде | | 2 | | | | | box2d/bipedalwalker