Аддзел навін 9 снежня 2021, 15:50

Новая языковая модель DeepMind оказалась в 25 раз быстрее конкурентов

Компания выпустила свою языковую модель, которую называет самой эффективной, быстрой и прозрачной на рынке.

Ключевой особенностью модели является то, что она использует внешнюю память в форме обширной базе данных, которая содержит отрывки самых разных текстов. Авторы назвали модель RETRO (от Retrieval-Enhanced Transformer). По производительности модель не уступает нейросетям в 25 раз больше размера.

Языковые модели пишут тексты, предсказывая слово в предложении или фразе. Ранее ведущие ИИ-лаборатории Google, Facebook, Microsoft выпустили свои языковые модели после появления модели GPT-3 OpenAI. У GPT-3 свыше 175 миллиардов параметров, у модели Megatron (Microsoft) — 530 миллиардов.

Разработчики RETRO пошли по пути сокращения расходов на обучение языковой модели. У RETRO всего 7 миллиардов параметров, однако есть база на 2 триллиона фраз и предложений. Внешняя память позволяет добиться лучшего результата с меньшими затратами. Также RETRO способна справиться с проблемой предвзятости, дезинформации и «риторики ненависти».