Deep Monte-Carlo (DMC) — это очень эффективный алгоритм для карточных игр. Это единственный алгоритм, который демонстрирует производительность на уровне человека в сложных играх, таких как Dou Dizhu.
Deep-Q Learning (DQN) — базовый алгоритм обучения с подкреплением (RL). Мы используем DQN в качестве примера, чтобы показать, как алгоритмы RL могут быть связаны со средами. В агенте DQN реализованы следующие классы:
DQNAgent
: класс агента, взаимодействующий со средой.Memory
: буфер памяти, управляющий хранением и выборкой переходов.Estimator
: нейронная сеть, которая используется для прогнозирования.Neural Fictitious Self-Play (NFSP) — комплексный подход к решению карточных игр с помощью глубокого обучения с подкреплением. У NFSP есть внутренний агент RL и контролируемый агент, который обучается на основе данных, генерируемых агентом RL. В наборе инструментов мы используем DQN в роли агента RL.
Counterfactual Regret Minimization (CFR) — метод минимизации сожалений для решения игр с несовершенной информацией.
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Опубликовать ( 0 )