Новая языковая модель DeepMind оказалась в 25 раз быстрее конкурентов

Компания выпустила свою языковую модель, которую называет самой эффективной, быстрой и прозрачной на рынке.

Оставить комментарий

Ключевой особенностью модели является то, что она использует внешнюю память в форме обширной базе данных, которая содержит отрывки самых разных текстов. Авторы назвали модель RETRO (от Retrieval-Enhanced Transformer). По производительности модель не уступает нейросетям в 25 раз больше размера.

Языковые модели пишут тексты, предсказывая слово в предложении или фразе. Ранее ведущие ИИ-лаборатории Google, Facebook, Microsoft выпустили свои языковые модели после появления модели GPT-3 OpenAI. У GPT-3 свыше 175 миллиардов параметров, у модели Megatron (Microsoft) — 530 миллиардов.

Разработчики RETRO пошли по пути сокращения расходов на обучение языковой модели. У RETRO всего 7 миллиардов параметров, однако есть база на 2 триллиона фраз и предложений. Внешняя память позволяет добиться лучшего результата с меньшими затратами. Также RETRO способна справиться с проблемой предвзятости, дезинформации и «риторики ненависти».

Разработчик ИИ DeepMind впервые отчиталась о прибыли
По теме
Разработчик ИИ DeepMind впервые отчиталась о прибыли
DeepMind с помощью ИИ создаст коллекцию всех известных белков. Ученые получат доступ к архиву бесплатно
По теме
DeepMind с помощью ИИ создаст коллекцию всех известных белков. Ученые получат доступ к архиву бесплатно

Читать на dev.by