Хотя пользователи могут делать всё, что им нравится, для разработки и тестирования своих алгоритмов, мы рекомендуем оборачивать новый алгоритм в класс Agent
на примере агента (../rlcard/agents/random_agent.py). Чтобы быть совместимым с основными интерфейсами, агент должен иметь следующие функции и атрибут:
step
: на основе текущего состояния предсказать следующее действие.eval_step
: аналогично step
, но для целей оценки. Алгоритмы обучения с подкреплением обычно добавляют некоторый шум для лучшего исследования в процессе обучения. При оценке шум не добавляется, чтобы сделать прогнозы.use_raw
: логический атрибут. True
, если агент использует необработанные состояния для рассуждений; False
, если агент использует числовые значения для игры (например, нейронные сети).Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Опубликовать ( 0 )