Дапамажыце dev.by 🤍
Падтрымаць

Стаў даступны найбуйнейшы адкрыты датасэт для навучання ШІ-агентаў

Даследчыкі з MIT, IBM Watson AI Lab і Універсітэта Вашынгтона прэзентавалі TOUCAN — найбуйнейшы на сённяшні дзень адкрыты набор дадзеных для навучання агентаў са штучным інтэлектам.

Пакінуць каментарый
Стаў даступны найбуйнейшы адкрыты датасэт для навучання ШІ-агентаў

Даследчыкі з MIT, IBM Watson AI Lab і Універсітэта Вашынгтона прэзентавалі TOUCAN — найбуйнейшы на сённяшні дзень адкрыты набор дадзеных для навучання агентаў са штучным інтэлектам.

TOUCAN стаў адказам на праблему адсутнасці адкрытых навучальных дадзеных, якія паказваюць, як моўныя мадэлі выкарыстоўваюць рэальныя інструменты. У адрозненне ад папярэдніх набораў кшталту ToolLLM і ToolACE, заснаваных на сімуляваных выкліках API, новы датасэт фіксуе рэальныя ланцужкі дзеянняў — ад зыходнага запыту да фінальнага выніку, уключаючы памылкі, затрымкі і кантэкстныя залежнасці.

У набор увайшлі 1,5 мільёна рэальных узаемадзеянняў з інструментамі з 495 сервераў Model Context Protocol (MCP) і больш за 2000 інструментаў — ад вэб-пошуку і фінансавых сэрвісаў да платформаў для распрацоўкі і працы з дадзенымі надвор’я.

Датасэт ствараўся ў пяць этапаў: спачатку даследчыкі сабралі і праверылі публічныя MCP-серверы на платформе Smithery.ai, затым пяць моўных мадэляў, уключаючы Mistral, Kimi-K2 і Qwen3-32B, згенеравалі задачы, якія былі адфільтраваны па якасці і рэалізму. Тры іншыя мадэлі выканалі гэтыя задачы ў рэальным асяроддзі, стварыўшы гісторыі ўзаемадзеянняў з інструментамі.

Мадэлі, дадаткова навучаныя на TOUCAN, паказалі прыкметны рост прадукцыйнасці. Так, Qwen-2.5-32B палепшыла вынік на 8,7 пунктаў па бэнчмарку BFCL V3 і перасягнула GPT-4.5-Preview у шэрагу задач. На тэстах MCP-Universe, якія правяраюць працу з рэальнымі інтэрфэйсамі інструментаў, мадэлі, навучаныя на TOUCAN, апярэдзілі нават больш буйныя сістэмы, уключаючы Llama-3.3 і GLM-4.5.

Даследчыкі заявілі, што TOUCAN зрушвае «мяжу эфектыўнасці» для адкрытых мадэляў, даказваючы, што нават адносна невялікія моўныя мадэлі могуць даганяць прапрыетарныя аналагі пры наяўнасці якасных дадзеных. Усе дадзеныя былі ачышчаны ад персанальнай інфармацыі і апублікаваны пад адкрытай ліцэнзіяй на GitHub і Hugging Face. Каманда плануе дадаць экспертную мадэль для сімуляцыі інструментаў і новы бэнчмарк вэб-пошуку.

Google прэзентавала CodeMender — ШІ-агент сам знаходзіць і выпраўляе багі
Google прэзентавала CodeMender — ШІ-агент сам знаходзіць і выпраўляе багі
Па тэме
Google прэзентавала CodeMender — ШІ-агент сам знаходзіць і выпраўляе багі
OpenAI запусціла канструктар ШІ-агентаў і зрабіла Codex даступным для ўсіх
OpenAI запусціла канструктар ШІ-агентаў і зрабіла Codex даступным для ўсіх
Па тэме
OpenAI запусціла канструктар ШІ-агентаў і зрабіла Codex даступным для ўсіх
Google упарадкавала свайго ШІ-агента для праграмістаў
Google упарадкавала свайго ШІ-агента для праграмістаў
Па тэме
Google упарадкавала свайго ШІ-агента для праграмістаў
Чытайце таксама
У Cisco да пошуку спецыялістаў па ШІ падключаюць топ-менеджараў
У Cisco да пошуку спецыялістаў па ШІ падключаюць топ-менеджараў
У Cisco да пошуку спецыялістаў па ШІ падключаюць топ-менеджараў
Хочаце павышэнне? Укладайцеся ў ШІ
Хочаце павышэнне? Укладайцеся ў ШІ
Хочаце павышэнне? Укладайцеся ў ШІ
Карыстальнікі стварылі групу дапамогі для людзей, якія перажылі ШІ-псіхоз
Карыстальнікі стварылі групу дапамогі для людзей, якія перажылі ШІ-псіхоз
Карыстальнікі стварылі групу дапамогі для людзей, якія перажылі ШІ-псіхоз
«Вікіпедыя» прымусіла ШІ-кампаніі плаціць за выкарыстанне дадзеных
«Вікіпедыя» прымусіла ШІ-кампаніі плаціць за выкарыстанне дадзеных
«Вікіпедыя» прымусіла ШІ-кампаніі плаціць за выкарыстанне дадзеных

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.