Поддержка алгоритмов
Алгоритм | Пример | Ссылка |
---|---|---|
Глубина Монте-Карло (Deep Monte-Carlo, DMC) | examples/run_dmc.py | https://arxiv.org/abs/2106.06135 |
Глубокое Q-обучение (Deep Q Learning, DQN) | examples/run_rl.py | https://arxiv.org/abs/1312.5602 |
Виртуальное самообучение (Neural Fictitious Self-Play, NFSP) | examples/run_rl.py | https://arxiv.org/abs/1603.01121 |
Минимальное сожаление о контрфактах (Counterfactual Regret Minimization, CFR) | examples/run_cfr.py | http://papers.nips.cc/paper/3306-regret-minimization-in-games-with-incomplete-information.pdf |
Предварительное обучение и модели на основе правил
Мы предоставляем набор моделей в качестве базовой линии.
Модель | Объяснение |
---|---|
leduc-holdem-cfr | Leduc |
Название модели | Описание модели |
:--: | :--: |
leduc-holdem-rule-v1 | Основанная на правилах модель Leduc Hold'em, версия v1 |
leduc-holdem-rule-v2 | Основанная на правилах модель Leduc Hold'em, версия v2 |
uno-rule-v1 | Основанная на правилах модель UNO, версия v1 |
limit-holdem-rule-v1 | Основанная на правилах модель Limit Hold'em, версия v1 |
doudizhu-rule-v1 | Основанная на правилах модель Дудичжу, версия v1 |
gin-rummy-novice-rule | Модель правил для новичков Gin Rummy |
Для создания новой среды можно использовать следующий интерфейс и передать некоторые необязательные параметры конфигурации в виде словаря:
После создания среды мы можем получить доступ к некоторой информации об игре.
Состояние (State) — это словарь Python. Он включает в себя наблюдаемое значение state['obs'], допустимое действие state['legal_actions'], исходное наблюдаемое значение state['raw_obs'] и исходное допустимое действие state['raw_legal_actions'].
Следующие интерфейсы предоставляют основные функции, хотя они просты и удобны в использовании, они делают некоторые предположения о агентах. Агенты должны соответствовать шаблону агента Agent Template.
Для более сложных операций над деревом игр можно использовать следующие интерфейсы. Эти интерфейсы не предполагают агентов.
Основные модули выполняют следующие функции:
Пожалуйста, обратитесь к здесь для получения дополнительной документации Documents. Документация API доступна на нашем веб-сайте.
Мы очень благодарны за ваш вклад в этот проект! Пожалуйста, создайте Issue для обратной связи или ошибок. Если вы хотите поздравить код, пожалуйста, обратитесь к Руководству по вкладу. Если у вас есть какие-либо вопросы, пожалуйста, свяжитесь с Daochen Zha через daochen.zha@rice.edu.
Мы искренне благодарим JJ World Network Technology Co., LTD за их большую поддержку этого проекта, а также за вклад сообщества.
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Опубликовать ( 0 )