Валентин Самохин

Last edited: 27 Jan, 2022

Code	🕸
Poster	📎
Project	Q-Learning: randomized rewards

Reinforcement learning в лучших проектах по оптимизации становится уже доброй традицией. Валентин провел эксперименты с классическим $ Q $ - learning при условии, что награда агенту поступает с шумом. Он запустил OpenAI gym (еще раз, это третий курс👮‍♂️) на примере двух задач: Taxi-v2 и CartPole. Агенты учатся, все работает, код прилагается.