BA CompSci: CTRL+C, CTRL+V, pray(), compile(), cry(), repeat() ➡️ Get your degree
Support us

Ученые «отрезают» у больших ИИ-моделей все лишнее и создают полезные мини-версии

Сегодня ученые и инженеры все активнее обращают внимание на создание малых языковых моделей, которые способны выполнять специализированные задачи при существенно меньших вычислительных затратах. Одним из ключевых методов, позволяющих добиться такой эффективности, является «обрезка» нейросетей.

1 комментарий
Ученые «отрезают» у больших ИИ-моделей все лишнее и создают полезные мини-версии

Сегодня ученые и инженеры все активнее обращают внимание на создание малых языковых моделей, которые способны выполнять специализированные задачи при существенно меньших вычислительных затратах. Одним из ключевых методов, позволяющих добиться такой эффективности, является «обрезка» нейросетей.

Современные большие языковые модели используют сотни миллиардов параметров. Благодаря этому модели могут обнаруживать сложные закономерности в огромном потоке данных, что позволяет им решать широкий спектр задач с высокой точностью. Однако именно этот масштаб приводит к огромным расходам на обучение и эксплуатацию.

Чтобы решить проблему затрат и энергоэффективности, ведущие компании, среди которых IBM, Google, Microsoft и OpenAI, начали выпускать малые языковые модели. Такие модели, обычно насчитывающие до 10 миллиардов параметров, показывают отличные результаты в узконаправленных приложениях. Они способны выполнять задачи вроде резюмирования разговоров, ответа на специфические вопросы в медицинских чат-ботах или сбора данных в смарт-устройствах.

Исследователи предложили один из наиболее перспективных подходов для создания компактных моделей  — это метод «обрезки» нейросетей. Эта техника предполагает удаление избыточных или неэффективных связей в большой модели без значительной потери производительности. Ученых вдохновила работа человеческого мозга, где с возрастом происходит естественная редукция синаптических связей, что позволяет оптимизировать нейронные сети для более эффективной работы.

В 1989 году известный компьютерный ученый Ян Лекун, ныне сотрудничающий с Meta, предложил метод «оптимального удаления синапсов» («optimal brain damage»). Его исследования показали, что можно удалить до 90 % параметров обученной нейросети, сохранив при этом ее функциональность. Именно эта идея легла в основу современных подходов к обрезке нейросетей, позволяющих переходить от громоздких моделей к компактным и специализированным решениям.

ИИ-стартап расклеивает по городу головоломки чтобы заманить сотрудников
ИИ-стартап расклеивает по городу головоломки, чтобы заманить сотрудников
По теме
ИИ-стартап расклеивает по городу головоломки, чтобы заманить сотрудников
ИИ-моделям больше нравится работать с iOS чем с Android. Даже моделям Google
ИИ-моделям больше нравится работать с iOS, чем с Android. Даже моделям Google
По теме
ИИ-моделям больше нравится работать с iOS, чем с Android. Даже моделям Google
ИИ-стартап подозревают в обмане: работу выполняли сотни людей, а не ИИ
ИИ-стартап подозревают в обмане: работу выполняли сотни людей, а не ИИ 
По теме
ИИ-стартап подозревают в обмане: работу выполняли сотни людей, а не ИИ
Как поддержать редакцию, если вы в Польше?

Помогите нам делать больше полезного контента

Читайте также
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
«Будут проблемы». Что нас ждёт, когда картинок от нейросетей станет слишком много
«Будут проблемы». Что нас ждёт, когда картинок от нейросетей станет слишком много
Bubble
«Будут проблемы». Что нас ждёт, когда картинок от нейросетей станет слишком много
Синий свет экранов гаджетов может ускорять старение клеток
Синий свет экранов гаджетов может ускорять старение клеток
Синий свет экранов гаджетов может ускорять старение клеток

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Lars Ulrich
Lars Ulrich MENA\GCC Representative в EPAM
0

Обучат малые модели на результатах обучения больших