Reinforcement learning в лучших проектах по оптимизации становится уже доброй традицией. Валентин провел эксперименты с классическим $ Q $ - learning при условии, что награда агенту поступает с шумом. Он запустил OpenAI gym (еще раз, это третий курс👮‍♂️) на примере двух задач: Taxi-v2 и CartPole. Агенты учатся, все работает, код прилагается.