Кирилл уже с детства с младших курсов увлекается Reinforcement Learning, читает книжки, ходит на доп. семинары и пишет код. В проекте он сравнивал классический Temporal Difference learning алгоритм с его новой вариацией. Параллельно, в постере он кратко ввел в постановку задачи обучения с подкпреплением, что тоже будет для многих его однокурсников в новинку.