Валентин Самохин
Code | 🕸 |
Poster | 📎 |
Project | Q-Learning: randomized rewards |
Reinforcement learning в лучших проектах по оптимизации становится уже доброй традицией. Валентин провел эксперименты с классическим $ Q $ - learning при условии, что награда агенту поступает с шумом. Он запустил OpenAI gym (еще раз, это третий курс👮♂️) на примере двух задач: Taxi-v2 и CartPole. Агенты учатся, все работает, код прилагается.