«Я застрял». Исследователи придумали, как помочь ИИ не теряться в мыслях
Исследователи из Nvidia, Google и Foundry представили открытый фреймворк Ember, который оптимизирует процесс обработки запросов большими языковыми моделями. Проблема таких систем в том, что они «застревают» в чрезмерном анализе, что снижает качество ответов. Новый метод решает эту проблему.
Большие языковые модели обладают способностью к рассуждению и самопроверке. Однако, если процесс обдумывания затягивается, качество генерируемых ответов начинает ухудшаться. Джаред Куинси Дэвис, основатель и генеральный директор Foundry, сравнивает это с ситуацией, когда студент тратит слишком много времени на первый вопрос экзамена, зацикливаясь на нем.
Для решения этой проблемы Дэвис совместно с исследователями из Nvidia, Google, IBM, MIT, Stanford и DataBricks разработали фреймворк Ember. Он предполагает создание «сетей сетей», в которых один запрос может обрабатываться множеством моделей с различной продолжительностью анализа, в зависимости от оптимальных параметров для каждой модели и конкретного вопроса.
Идея Ember берет свое начало из более раннего подхода Дэвиса, который заключался в многократном обращении к ChatGPT 4 с одним и тем же вопросом и выборе лучшего ответа. Теперь этот метод масштабирован и формализован в виде структуры, которая позволяет создавать сложные системы, где задействованы различные модели.
Используя GPT 4, GPT 3, Anthropic, Gemini, DeepSeek с разными запросами и временем обдумывания, можно достичь лучшего результата ответа. Это означает переход от бинарной модели «вопрос-ответ» к многомерному процессу обработки информации, что особенно важно в контексте развития ИИ-агентов, способных выполнять задачи без вмешательства человека.
Хотя концепция «переосмысления» может показаться противоречащей идее масштабирования во время инференса (когда модели, тратящие больше времени на обдумывание, считались более перспективными), Дэвис отмечает, что оба подхода остаются важными, но будут использоваться разработчиками по-новому.
В будущем, по мнению Дэвиса, пользователи не будут напрямую выбирать модель (как в Perplexity или ChatGPT сейчас), а сложные системы сами будут маршрутизировать вопросы через оптимальные комбинации моделей. Количество вызовов различных моделей достигнет триллионов или квадриллионов, что потребует эффективных механизмов для их сортировки и выбора.
Читать на dev.by