Квантизация больших языковых моделей с использованием переопределенного базиса
Place | ФКН ВШЭ |
Date | 06 Mar, 2025 |
Presentation | 🕸 |
В докладе мы обсудим нашу прошлогоднюю статью про то, как использование факторизации матрицы в виде суммы двух матриц с маленькими(в некотором смысле) нормами факторов приводит к тому, что значения факторов очень хорошо концентрируются в кластеры, тем самым позволяя использовать этот подход для малобитного представления данных, т.е. квантизации. Мы применили алгоритм к некоторым большим моделям, это неплохо работает. Кроме того, мы предложили ускоренную матричную версию алгоритма. В докладе мы постараемся уделить больше внимания алгоритмической и геометрической составдяющей алгоритма, обсудим математические идеи за подходом и открытые вопросы, которые у нас ещё остались.