Claude 3 вытеснила GPT-4 с вершины рейтинга языковых моделей
Большая языковая модель Claude 3 Opus от Anthropic впервые превзошла GPT-4 от OpenAI на платформе Chatbot Arena, где ИИ-исследователи оценивают качество чат-ботов, пишет Ars Technica.
Большая языковая модель Claude 3 Opus от Anthropic впервые превзошла GPT-4 от OpenAI на платформе Chatbot Arena, где ИИ-исследователи оценивают качество чат-ботов, пишет Ars Technica.
Пользователи Chatbot Arena вводят запрос и получают два результата от языковых моделей, названия которых скрыты. Нужно выбрать наиболее понравившийся результат. Площадка проводит тысячи сравнений и заполняет обновляемую рейтинговую таблицу. Сайтом управляет исследовательская организация Large Model Systems Organization (LMSYS ORG), которая занимается открытыми ИИ-моделями.
«Впервые лучшими среди доступных ИИ-моделей стали разработанные не OpenAI: Opus для сложных задач, Haiku — для случаев, когда нужно дёшево и быстро. Это обнадёживает: от конкуренции разработчиков все только выиграют. Но GPT-4 уже больше года, а конкуренты догнали её только сейчас», — прокомментировал событие независимый ИИ-исследователь Саймон Уиллисон.
Сейчас в рейтинге Chatbot Arena представлены четыре версии GPT-4, поскольку с каждым обновлением вывод модели менялся, и некоторые пользователи предпочитают конкретные версии или пользуются всеми для большей стабильности результатов. GPT-4 появилась в Chatbot Arena 10 мая 2023 года, через неделю после запуска рейтинга, и с тех пор различные её версии неизменно занимали верхние строчки. Исследователи ценят Chatbot Arena за возможность более или менее объективно сравнить эффективность чат-ботов. Ключевым фактором здесь является множество оценок, складывающихся в общую картину.
Успех Claude 3 уже подтолкнул некоторых пользователей перейти на неё с GPT-4. Также набирает популярность Gemini Advanced от Google. Позиции OpenAI пошатнулись, но компания готовит новые модели, например GPT-5.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.