Александра Кукуть 28 июня 2024, 11:57

OpenAI представила модель, которая исправляет ошибки в ответах ChatGPT

OpenAI показала новую модель CriticGPT, которая ищет ошибки в коде, сгенерированном ChatGPT.

Модель-критик построена на базе GPT-4. Её тренировали на наборе фрагментов кода, в который были намеренно добавлены баги, чтобы она училась опознавать различные виды ошибок.

CriticGPT должна помогать людям проверять код в ответах чат-бота и подмечать ошибки, которые могли быть упущены. Критику CriticGPT человеческой аннотаторы предпочитали в 63% случаев. А команды, использующие модель, писали более качественные отзывы по сравнению с теми, которые работали самостоятельно.

Также разработчики создали новую технику под названием Force Sampling Beam Search (FSBS), благодаря которой CriticGPT способна писать более подробные ревью кода. Она позволяет контролировать тщательность поиска и то, как часто модель выдумывает проблемы, которых на самом деле нет.

OpenAI представила модель GPT-4o — она «умнее» предыдущей и доступна бесплатно

По теме

OpenAI представила модель GPT-4o — она «умнее» предыдущей и доступна бесплатно

CriticGPT в перспективе может работать не только с кодом. Исследователи опробовали модель на наборе обучающих данных ChatGPT, которые «кожаными» проверяющими были оценены как безупречные. CriticGPT нашла ошибки в них в 24% случаев, и эти ошибки подтвердили проверяющие.

Впрочем, у CriticGPT, как и у прочих ИИ-моделей, случаются галлюцинации. Она обучалась на относительно небольших ответах ChatGPT и может быть не готова к работе с более длинными и сложными задачами, с которыми столкнутся ИИ-системы в будущем. Ошибки в ответах также могут случаться и из-за некачественной разметки данных людьми.

Anthropic выпустила Claude 3.5 Sonnet — ИИ-модель опережает GPT-4o и Gemini

По теме

Anthropic выпустила Claude 3.5 Sonnet — ИИ-модель опережает GPT-4o и Gemini

OpenAI отключит API для китайских компаний — местные конкуренты уже ждут наплыв клиентов

По теме

OpenAI отключит API для китайских компаний — местные конкуренты уже ждут наплыв клиентов

Читать на dev.by