Живете в Польше? Поддержите devby 1,5% налога: бесплатно и за 5 минут 🤗
Support us

Ученые «отрезают» у больших ИИ-моделей все лишнее и создают полезные мини-версии

Сегодня ученые и инженеры все активнее обращают внимание на создание малых языковых моделей, которые способны выполнять специализированные задачи при существенно меньших вычислительных затратах. Одним из ключевых методов, позволяющих добиться такой эффективности, является «обрезка» нейросетей.

1 комментарий
Ученые «отрезают» у больших ИИ-моделей все лишнее и создают полезные мини-версии

Сегодня ученые и инженеры все активнее обращают внимание на создание малых языковых моделей, которые способны выполнять специализированные задачи при существенно меньших вычислительных затратах. Одним из ключевых методов, позволяющих добиться такой эффективности, является «обрезка» нейросетей.

Современные большие языковые модели используют сотни миллиардов параметров. Благодаря этому модели могут обнаруживать сложные закономерности в огромном потоке данных, что позволяет им решать широкий спектр задач с высокой точностью. Однако именно этот масштаб приводит к огромным расходам на обучение и эксплуатацию.

Чтобы решить проблему затрат и энергоэффективности, ведущие компании, среди которых IBM, Google, Microsoft и OpenAI, начали выпускать малые языковые модели. Такие модели, обычно насчитывающие до 10 миллиардов параметров, показывают отличные результаты в узконаправленных приложениях. Они способны выполнять задачи вроде резюмирования разговоров, ответа на специфические вопросы в медицинских чат-ботах или сбора данных в смарт-устройствах.

Исследователи предложили один из наиболее перспективных подходов для создания компактных моделей  — это метод «обрезки» нейросетей. Эта техника предполагает удаление избыточных или неэффективных связей в большой модели без значительной потери производительности. Ученых вдохновила работа человеческого мозга, где с возрастом происходит естественная редукция синаптических связей, что позволяет оптимизировать нейронные сети для более эффективной работы.

В 1989 году известный компьютерный ученый Ян Лекун, ныне сотрудничающий с Meta, предложил метод «оптимального удаления синапсов» («optimal brain damage»). Его исследования показали, что можно удалить до 90 % параметров обученной нейросети, сохранив при этом ее функциональность. Именно эта идея легла в основу современных подходов к обрезке нейросетей, позволяющих переходить от громоздких моделей к компактным и специализированным решениям.

ИИ-стартап расклеивает по городу головоломки чтобы заманить сотрудников
ИИ-стартап расклеивает по городу головоломки, чтобы заманить сотрудников
По теме
ИИ-стартап расклеивает по городу головоломки, чтобы заманить сотрудников
ИИ-моделям больше нравится работать с iOS чем с Android. Даже моделям Google
ИИ-моделям больше нравится работать с iOS, чем с Android. Даже моделям Google
По теме
ИИ-моделям больше нравится работать с iOS, чем с Android. Даже моделям Google
ИИ-стартап подозревают в обмане: работу выполняли сотни людей, а не ИИ
ИИ-стартап подозревают в обмане: работу выполняли сотни людей, а не ИИ 
По теме
ИИ-стартап подозревают в обмане: работу выполняли сотни людей, а не ИИ
🎊 Dzik Pic Store открыт и готов принимать заказы!

Заходи к нам в магазин

Читайте также
ИИ сократит не всех: учёные вспомнили об одном важном факторе
ИИ сократит не всех: учёные вспомнили об одном важном факторе
ИИ сократит не всех: учёные вспомнили об одном важном факторе
Как чат-боты подталкивают к неверным решениям — исследование
Как чат-боты подталкивают к неверным решениям — исследование
Как чат-боты подталкивают к неверным решениям — исследование
Кофаундер a16z: катастрофа — не то, что ИИ отберёт работу, а то, что случилось бы, если бы его не было
Кофаундер a16z: катастрофа — не то, что ИИ отберёт работу, а то, что случилось бы, если бы его не было
Кофаундер a16z: катастрофа — не то, что ИИ отберёт работу, а то, что случилось бы, если бы его не было
Reddit для ИИ-агентов: в новой соцсети можно наблюдать, как боты общаются между собой
Reddit для ИИ-агентов: в новой соцсети можно наблюдать, как боты общаются между собой
Reddit для ИИ-агентов: в новой соцсети можно наблюдать, как боты общаются между собой

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Яна Пильник
Яна Пильник Дрессировщик программистов в Филиал БГУ ЦИРК
0

Обучат малые модели на результатах обучения больших