Ученые «отрезают» у больших ИИ-моделей все лишнее и создают полезные мини-версии

Сегодня ученые и инженеры все активнее обращают внимание на создание малых языковых моделей, которые способны выполнять специализированные задачи при существенно меньших вычислительных затратах. Одним из ключевых методов, позволяющих добиться такой эффективности, является «обрезка» нейросетей.

1 комментарий

Современные большие языковые модели используют сотни миллиардов параметров. Благодаря этому модели могут обнаруживать сложные закономерности в огромном потоке данных, что позволяет им решать широкий спектр задач с высокой точностью. Однако именно этот масштаб приводит к огромным расходам на обучение и эксплуатацию.

Чтобы решить проблему затрат и энергоэффективности, ведущие компании, среди которых IBM, Google, Microsoft и OpenAI, начали выпускать малые языковые модели. Такие модели, обычно насчитывающие до 10 миллиардов параметров, показывают отличные результаты в узконаправленных приложениях. Они способны выполнять задачи вроде резюмирования разговоров, ответа на специфические вопросы в медицинских чат-ботах или сбора данных в смарт-устройствах.

Исследователи предложили один из наиболее перспективных подходов для создания компактных моделей  — это метод «обрезки» нейросетей. Эта техника предполагает удаление избыточных или неэффективных связей в большой модели без значительной потери производительности. Ученых вдохновила работа человеческого мозга, где с возрастом происходит естественная редукция синаптических связей, что позволяет оптимизировать нейронные сети для более эффективной работы.

В 1989 году известный компьютерный ученый Ян Лекун, ныне сотрудничающий с Meta, предложил метод «оптимального удаления синапсов» («optimal brain damage»). Его исследования показали, что можно удалить до 90 % параметров обученной нейросети, сохранив при этом ее функциональность. Именно эта идея легла в основу современных подходов к обрезке нейросетей, позволяющих переходить от громоздких моделей к компактным и специализированным решениям.

ИИ-стартап расклеивает по городу головоломки, чтобы заманить сотрудников
По теме
ИИ-стартап расклеивает по городу головоломки, чтобы заманить сотрудников
ИИ-моделям больше нравится работать с iOS, чем с Android. Даже моделям Google
По теме
ИИ-моделям больше нравится работать с iOS, чем с Android. Даже моделям Google
ИИ-стартап подозревают в обмане: работу выполняли сотни людей, а не ИИ 
По теме
ИИ-стартап подозревают в обмане: работу выполняли сотни людей, а не ИИ

Читать на dev.by