🇵🇱 Заполняете e-PIT? Оставьте 1,5% налога своим: поддержите devby (это бесплатно) 🤝
Support us

ИИ-модели, которые меньше всего «галлюцинируют»

Инструменты и приложения на основе ИИ-моделей всё прочнее входят в нашу жизнь. Однако они не идеальны и могут выдавать искажённую или несуществующую информацию — это явление называют «галлюцинациями». Visual Capitalist приводит 15 больших языковых моделей с наименьшей частотой подобных ошибок.

1 комментарий

Инструменты и приложения на основе ИИ-моделей всё прочнее входят в нашу жизнь. Однако они не идеальны и могут выдавать искажённую или несуществующую информацию — это явление называют «галлюцинациями». Visual Capitalist приводит 15 больших языковых моделей с наименьшей частотой подобных ошибок.

За основу взяты данные компании Vectara по состоянию на 11 декабря 2024 года. Для вычисления «галлюцинаторности» каждой LLM скормили 1000 небольших документов, которые они должны были резюмировать. Ошибки выявляла специальная модель.

Оказалось, что меньше всего галлюцинациям подвержены менее крупные и более специализированные модели, например GLM-4-9B-Chat китайской компании Zhipu AI, а также o1-mini и 4o-mini от OpenAI. У них доля галлюцинаций не выше 1,5%.

Среди фундаментальных моделей Google Gemini 2.0 слегка превосходит GPT-4 от OpenAI, модели которой занимают в топе с 3 по 8 место. Примерно посередине расположилась и модель DeepSeek-V2.5 нашумевшего китайского стартапа. Его новинка (версия под номером 3) по обновлённым на этой неделе данным ошибается гораздо чаще — в 3,9% случаев.

Точность ИИ-моделей приобретает всё более важное значение, потому что они всё шире используются в приложениях в таких отраслях, как медицина, право и финансы, где ошибки могут стоить очень дорого.

Обычно крупные модели дают более качественные результаты по сравнению с малыми. Но они сложнее и «прожорливее» в плане вычислительных и денежных ресурсов. Между тем модели поменьше хорошо показывают себя на специализированных задачах.

OpenAI представила модель o3 — она первой в мире обошла людей в тесте на общий ИИ
OpenAI представила модель o3 — она первой в мире обошла людей в тесте на общий ИИ 
По теме
OpenAI представила модель o3 — она первой в мире обошла людей в тесте на общий ИИ
Alibaba выпустила ИИ-модель которая может управлять ПК и телефонами
Alibaba выпустила ИИ-модель, которая может управлять ПК и телефонами
По теме
Alibaba выпустила ИИ-модель, которая может управлять ПК и телефонами
DeepSeek начали блокировать в Европе. Эксперты уже нашли утечку
DeepSeek начали блокировать в Европе. Эксперты уже нашли утечку
По теме
DeepSeek начали блокировать в Европе. Эксперты уже нашли утечку
Google использует модель Anthropic для обучения Gemini
Google использует модель Anthropic для обучения Gemini
По теме
Google использует модель Anthropic для обучения Gemini
Поддержите редакцию 1,5% налога: бесплатно и за 5 минут

Как помочь, если вы в Польше

Читайте также
Youtube запускает непропускаемую рекламу до 30 секунд
Youtube запускает непропускаемую рекламу до 30 секунд
Youtube запускает непропускаемую рекламу до 30 секунд
1 комментарий
78-летний пенсионер вайбкодит сам и учит 100-летних ИИ
78-летний пенсионер вайбкодит сам и учит 100-летних ИИ
78-летний пенсионер вайбкодит сам и учит 100-летних ИИ
Догоняя Anthropic: OpenAI пытается повторить успех суперпопулярного Claude Code
Догоняя Anthropic: OpenAI пытается повторить успех суперпопулярного Claude Code
Догоняя Anthropic: OpenAI пытается повторить успех суперпопулярного Claude Code
В БГУ рассказали, сколько студентов используют ИИ
В БГУ рассказали, сколько студентов используют ИИ
В БГУ рассказали, сколько студентов используют ИИ
1 комментарий

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

vials
vials Admin в Universe
0

А че не одной модели дороже 10к баксов нету в списке?