Ученые «отрезают» у больших ИИ-моделей все лишнее и создают полезные мини-версии
Сегодня ученые и инженеры все активнее обращают внимание на создание малых языковых моделей, которые способны выполнять специализированные задачи при существенно меньших вычислительных затратах. Одним из ключевых методов, позволяющих добиться такой эффективности, является «обрезка» нейросетей.
Сегодня ученые и инженеры все активнее обращают внимание на создание малых языковых моделей, которые способны выполнять специализированные задачи при существенно меньших вычислительных затратах. Одним из ключевых методов, позволяющих добиться такой эффективности, является «обрезка» нейросетей.
Современные большие языковые модели используют сотни миллиардов параметров. Благодаря этому модели могут обнаруживать сложные закономерности в огромном потоке данных, что позволяет им решать широкий спектр задач с высокой точностью. Однако именно этот масштаб приводит к огромным расходам на обучение и эксплуатацию.
Чтобы решить проблему затрат и энергоэффективности, ведущие компании, среди которых IBM, Google, Microsoft и OpenAI, начали выпускать малые языковые модели. Такие модели, обычно насчитывающие до 10 миллиардов параметров, показывают отличные результаты в узконаправленных приложениях. Они способны выполнять задачи вроде резюмирования разговоров, ответа на специфические вопросы в медицинских чат-ботах или сбора данных в смарт-устройствах.
Исследователи предложили один из наиболее перспективных подходов для создания компактных моделей — это метод «обрезки» нейросетей. Эта техника предполагает удаление избыточных или неэффективных связей в большой модели без значительной потери производительности. Ученых вдохновила работа человеческого мозга, где с возрастом происходит естественная редукция синаптических связей, что позволяет оптимизировать нейронные сети для более эффективной работы.
В 1989 году известный компьютерный ученый Ян Лекун, ныне сотрудничающий с Meta, предложил метод «оптимального удаления синапсов» («optimal brain damage»). Его исследования показали, что можно удалить до 90 % параметров обученной нейросети, сохранив при этом ее функциональность. Именно эта идея легла в основу современных подходов к обрезке нейросетей, позволяющих переходить от громоздких моделей к компактным и специализированным решениям.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.
Обучат малые модели на результатах обучения больших