Известно, что оптимальный шаг градиентного спуска обратно пропорционален константе Липшица градиента, проблема лишь в том, что, вообще говоря, она неизвестна 🌝. В работе Женя тестировал идеи В.Г. Спокойного насчет адаптивного подбора этой константы с помощью проверки выполнения определенных неравенств. Женя написал свой optimizer на PyTorch и провел тесты на всех моднейших датасетах: MNIST, CIFAR10, IMDb. Короче, в кратчайшие сроки освоил море теории и практики.