Дапамажыце dev.by 🤍
Падтрымаць

Стаў даступны найбуйнейшы адкрыты датасэт для навучання ШІ-агентаў

Даследчыкі з MIT, IBM Watson AI Lab і Універсітэта Вашынгтона прэзентавалі TOUCAN — найбуйнейшы на сённяшні дзень адкрыты набор дадзеных для навучання агентаў са штучным інтэлектам.

Пакінуць каментарый
Стаў даступны найбуйнейшы адкрыты датасэт для навучання ШІ-агентаў

Даследчыкі з MIT, IBM Watson AI Lab і Універсітэта Вашынгтона прэзентавалі TOUCAN — найбуйнейшы на сённяшні дзень адкрыты набор дадзеных для навучання агентаў са штучным інтэлектам.

TOUCAN стаў адказам на праблему адсутнасці адкрытых навучальных дадзеных, якія паказваюць, як моўныя мадэлі выкарыстоўваюць рэальныя інструменты. У адрозненне ад папярэдніх набораў кшталту ToolLLM і ToolACE, заснаваных на сімуляваных выкліках API, новы датасэт фіксуе рэальныя ланцужкі дзеянняў — ад зыходнага запыту да фінальнага выніку, уключаючы памылкі, затрымкі і кантэкстныя залежнасці.

У набор увайшлі 1,5 мільёна рэальных узаемадзеянняў з інструментамі з 495 сервераў Model Context Protocol (MCP) і больш за 2000 інструментаў — ад вэб-пошуку і фінансавых сэрвісаў да платформаў для распрацоўкі і працы з дадзенымі надвор’я.

Датасэт ствараўся ў пяць этапаў: спачатку даследчыкі сабралі і праверылі публічныя MCP-серверы на платформе Smithery.ai, затым пяць моўных мадэляў, уключаючы Mistral, Kimi-K2 і Qwen3-32B, згенеравалі задачы, якія былі адфільтраваны па якасці і рэалізму. Тры іншыя мадэлі выканалі гэтыя задачы ў рэальным асяроддзі, стварыўшы гісторыі ўзаемадзеянняў з інструментамі.

Мадэлі, дадаткова навучаныя на TOUCAN, паказалі прыкметны рост прадукцыйнасці. Так, Qwen-2.5-32B палепшыла вынік на 8,7 пунктаў па бэнчмарку BFCL V3 і перасягнула GPT-4.5-Preview у шэрагу задач. На тэстах MCP-Universe, якія правяраюць працу з рэальнымі інтэрфэйсамі інструментаў, мадэлі, навучаныя на TOUCAN, апярэдзілі нават больш буйныя сістэмы, уключаючы Llama-3.3 і GLM-4.5.

Даследчыкі заявілі, што TOUCAN зрушвае «мяжу эфектыўнасці» для адкрытых мадэляў, даказваючы, што нават адносна невялікія моўныя мадэлі могуць даганяць прапрыетарныя аналагі пры наяўнасці якасных дадзеных. Усе дадзеныя былі ачышчаны ад персанальнай інфармацыі і апублікаваны пад адкрытай ліцэнзіяй на GitHub і Hugging Face. Каманда плануе дадаць экспертную мадэль для сімуляцыі інструментаў і новы бэнчмарк вэб-пошуку.

Google прэзентавала CodeMender — ШІ-агент сам знаходзіць і выпраўляе багі
Google прэзентавала CodeMender — ШІ-агент сам знаходзіць і выпраўляе багі
Па тэме
Google прэзентавала CodeMender — ШІ-агент сам знаходзіць і выпраўляе багі
OpenAI запусціла канструктар ШІ-агентаў і зрабіла Codex даступным для ўсіх
OpenAI запусціла канструктар ШІ-агентаў і зрабіла Codex даступным для ўсіх
Па тэме
OpenAI запусціла канструктар ШІ-агентаў і зрабіла Codex даступным для ўсіх
Google упарадкавала свайго ШІ-агента для праграмістаў
Google упарадкавала свайго ШІ-агента для праграмістаў
Па тэме
Google упарадкавала свайго ШІ-агента для праграмістаў
Чытайце таксама
Разработка роботов, дронов и робомобилей: где учат специалистов с зарплатой $100k+
Разработка роботов, дронов и робомобилей: где учат специалистов с зарплатой $100k+
Разработка роботов, дронов и робомобилей: где учат специалистов с зарплатой $100k+
Искусственный интеллект уже стал повседневностью: голосовой помощник включает музыку, робот-пылесос сканирует пространство и убирает квартиру, алгоритм ранжирования настраивает ленту в TikTok, а беспилотные такси уже свободно курсируют по городам. Получить профессию в сфере ИИ с зарплатой от $100k в год тоже стало проще — собрали 5 интересных курсов от Udacity. 
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
2 каментарыя
Hyundai запустила институт искусственного интеллекта
Hyundai запустила институт искусственного интеллекта
Hyundai запустила институт искусственного интеллекта
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
1 каментарый

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.