1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/daochenzha-rlcard

Клонировать/Скачать
algorithms.md 1.9 КБ
Копировать Редактировать Web IDE Исходные данные Просмотреть построчно История
gitlife-traslator Отправлено 28.11.2024 18:31 21f438a

Индекс

  • DMC (Deep Monte-Carlo)
  • Deep-Q Learning
  • NFSP
  • CFR (chance sampling)

Deep Monte-Carlo

Deep Monte-Carlo (DMC) — это очень эффективный алгоритм для карточных игр. Это единственный алгоритм, который демонстрирует производительность на уровне человека в сложных играх, таких как Dou Dizhu.

Deep-Q Learning

Deep-Q Learning (DQN) — базовый алгоритм обучения с подкреплением (RL). Мы используем DQN в качестве примера, чтобы показать, как алгоритмы RL могут быть связаны со средами. В агенте DQN реализованы следующие классы:

  • DQNAgent: класс агента, взаимодействующий со средой.
  • Memory: буфер памяти, управляющий хранением и выборкой переходов.
  • Estimator: нейронная сеть, которая используется для прогнозирования.

NFSP

Neural Fictitious Self-Play (NFSP) — комплексный подход к решению карточных игр с помощью глубокого обучения с подкреплением. У NFSP есть внутренний агент RL и контролируемый агент, который обучается на основе данных, генерируемых агентом RL. В наборе инструментов мы используем DQN в роли агента RL.

CFR (шанс выборки)

Counterfactual Regret Minimization (CFR) — метод минимизации сожалений для решения игр с несовершенной информацией.

Опубликовать ( 0 )

Вы можете оставить комментарий после Вход в систему

1
https://api.gitlife.ru/oschina-mirror/daochenzha-rlcard.git
git@api.gitlife.ru:oschina-mirror/daochenzha-rlcard.git
oschina-mirror
daochenzha-rlcard
daochenzha-rlcard
master