Кирилл Бобырев
            
            
            
            
            
            
            
            | Project | Empirical Study of TD $ \gamma $ Reinforcement Learning Algorithm | 
| Code | 🕸 | 
| Poster | 📎 | 
Кирилл уже с детства с младших курсов увлекается Reinforcement Learning, читает книжки, ходит на доп. семинары и пишет код. В проекте он сравнивал классический Temporal Difference learning алгоритм с его новой вариацией. Параллельно, в постере он кратко ввел в постановку задачи обучения с подкпреплением, что тоже будет для многих его однокурсников в новинку.