Техногиганты делают ставку на малые ИИ-модели из-за дороговизны больших

ИИ-компании тратят миллиарды долларов на создание больших языковых моделей, но теперь отдают предпочтение их малым «собратьям»: за последнее время Apple, Microsoft, Meta и Google выпустили модели с меньшим числом параметров, но при этом довольно мощных, пишет Financial Times.

Оставить комментарий

Чем больше параметров у модели, тем лучше её производительность и тем более сложные задачи она может выполнять. У новейших GPT-4o от OpenAI и Gemini 1.5 Pro от Google более 1 трлн параметров, а Meta тренирует версию опенсорсной модели Llama на 400 млрд параметров.

Малые модели дешевле и требуют меньше вычислительных мощностей, поэтому их и продукты на базе генеративного ИИ, в основе которых они лежат, проще продать корпоративным клиентам.

В результате разработчики стали продвигать модели, у которых всего несколько миллиардов параметров, как более доступные, энергоэффективные и кастомизируемые альтернативы, требующие меньше ресурсов для обучения и работы и гарантирующие защиту чувствительных данных.

Microsoft: 3 из 4 сотрудников используют ИИ на работе
По теме
Microsoft: 3 из 4 сотрудников используют ИИ на работе

Google, Meta, Microsoft и французский стартап Mistral выпустили малые языковые модели с продвинутыми возможностями, которые могут быть заточены под конкретные задачи. Именно такие модели выгоднее иметь клиентам, и это будет способствовать более широкому внедрению ИИ. К тому же вычисления в случае малых моделей могут выполняться локально на устройстве без необходимости отправлять данные в облако и без опасений в утечках.

Meta заявляет, что новая версия Llama 3 на 8 млрд параметров сравнима по производительности с GPT-4. Microsoft утверждает, что её малая модель Phi-3 на 7 млрд параметров превосходит GPT-3.5. Gemini Nano от Google поддерживается на смартфонах, Apple тоже намекнула, что готовит модель, которая будет работать на айфонах.

OpenAI тоже предлагает модели поменьше, которые предназначены для некоторых более узких целей. Но остаётся сосредоточена именно на больших моделях, которые в конечном счёте должны достичь интеллектуального уровня человека.

Meta выпустила Llama 3 — лучшую среди открытых моделей
По теме
Meta выпустила Llama 3 — лучшую среди открытых моделей
Конференция Google I/O 2024: главное
По теме
Конференция Google I/O 2024: главное
Microsoft показала малую ИИ-модель, которая может конкурировать с «большими» LLM
По теме
Microsoft показала малую ИИ-модель, которая может конкурировать с «большими» LLM

Читать на dev.by