Стал доступен крупнейший открытый датасет для обучения ИИ-агентов
Исследователи из MIT, IBM Watson AI Lab и Университета Вашингтона представили TOUCAN — крупнейший на сегодняшний день открытый набор данных для обучения агентов с искусственным интеллектом.
TOUCAN стал ответом на проблему отсутствия открытых обучающих данных, показывающих, как языковые модели используют реальные инструменты. В отличие от предыдущих наборов вроде ToolLLM и ToolACE, основанных на симулированных вызовах API, новый датасет фиксирует реальные цепочки действий — от исходного запроса до финального результата, включая ошибки, задержки и контекстные зависимости.
В набор вошли 1,5 миллиона реальных взаимодействий с инструментами с 495 серверов Model Context Protocol (MCP) и более 2000 инструментов — от веб-поиска и финансовых сервисов до платформ для разработки и работы с погодными данными.
Датасет создавался в пять этапов: сначала исследователи собрали и проверили публичные MCP-серверы на платформе Smithery.ai, затем пять языковых моделей, включая Mistral, Kimi-K2 и Qwen3-32B, сгенерировали задачи, которые были отфильтрованы по качеству и реализму. Три другие модели выполнили эти задачи в реальной среде, создав истории взаимодействий с инструментами.
Модели, дообученные на TOUCAN, показали заметный рост производительности. Так, Qwen-2.5-32B улучшила результат на 8,7 пунктов по бенчмарку BFCL V3 и превзошла GPT-4.5-Preview в ряде задач. На тестах MCP-Universe, проверяющих работу с реальными интерфейсами инструментов, модели, обученные на TOUCAN, опередили даже более крупные системы, включая Llama-3.3 и GLM-4.5.
Исследователи заявили, что TOUCAN сдвигает «границу эффективности» для открытых моделей, доказывая, что даже относительно небольшие языковые модели могут догонять проприетарные аналоги при наличии качественных данных. Все данные были очищены от персональной информации и опубликованы под открытой лицензией на GitHub и Hugging Face. Команда планирует добавить экспертную модель для симуляции инструментов и новый бенчмарк веб-поиска.
Читать на dev.by