Дапамажыце dev.by 🤍
Падтрымаць

Стаў даступны найбуйнейшы адкрыты датасэт для навучання ШІ-агентаў

Даследчыкі з MIT, IBM Watson AI Lab і Універсітэта Вашынгтона прэзентавалі TOUCAN — найбуйнейшы на сённяшні дзень адкрыты набор дадзеных для навучання агентаў са штучным інтэлектам.

Пакінуць каментарый
Стаў даступны найбуйнейшы адкрыты датасэт для навучання ШІ-агентаў

Даследчыкі з MIT, IBM Watson AI Lab і Універсітэта Вашынгтона прэзентавалі TOUCAN — найбуйнейшы на сённяшні дзень адкрыты набор дадзеных для навучання агентаў са штучным інтэлектам.

TOUCAN стаў адказам на праблему адсутнасці адкрытых навучальных дадзеных, якія паказваюць, як моўныя мадэлі выкарыстоўваюць рэальныя інструменты. У адрозненне ад папярэдніх набораў кшталту ToolLLM і ToolACE, заснаваных на сімуляваных выкліках API, новы датасэт фіксуе рэальныя ланцужкі дзеянняў — ад зыходнага запыту да фінальнага выніку, уключаючы памылкі, затрымкі і кантэкстныя залежнасці.

У набор увайшлі 1,5 мільёна рэальных узаемадзеянняў з інструментамі з 495 сервераў Model Context Protocol (MCP) і больш за 2000 інструментаў — ад вэб-пошуку і фінансавых сэрвісаў да платформаў для распрацоўкі і працы з дадзенымі надвор’я.

Датасэт ствараўся ў пяць этапаў: спачатку даследчыкі сабралі і праверылі публічныя MCP-серверы на платформе Smithery.ai, затым пяць моўных мадэляў, уключаючы Mistral, Kimi-K2 і Qwen3-32B, згенеравалі задачы, якія былі адфільтраваны па якасці і рэалізму. Тры іншыя мадэлі выканалі гэтыя задачы ў рэальным асяроддзі, стварыўшы гісторыі ўзаемадзеянняў з інструментамі.

Мадэлі, дадаткова навучаныя на TOUCAN, паказалі прыкметны рост прадукцыйнасці. Так, Qwen-2.5-32B палепшыла вынік на 8,7 пунктаў па бэнчмарку BFCL V3 і перасягнула GPT-4.5-Preview у шэрагу задач. На тэстах MCP-Universe, якія правяраюць працу з рэальнымі інтэрфэйсамі інструментаў, мадэлі, навучаныя на TOUCAN, апярэдзілі нават больш буйныя сістэмы, уключаючы Llama-3.3 і GLM-4.5.

Даследчыкі заявілі, што TOUCAN зрушвае «мяжу эфектыўнасці» для адкрытых мадэляў, даказваючы, што нават адносна невялікія моўныя мадэлі могуць даганяць прапрыетарныя аналагі пры наяўнасці якасных дадзеных. Усе дадзеныя былі ачышчаны ад персанальнай інфармацыі і апублікаваны пад адкрытай ліцэнзіяй на GitHub і Hugging Face. Каманда плануе дадаць экспертную мадэль для сімуляцыі інструментаў і новы бэнчмарк вэб-пошуку.

Google прэзентавала CodeMender — ШІ-агент сам знаходзіць і выпраўляе багі
Google прэзентавала CodeMender — ШІ-агент сам знаходзіць і выпраўляе багі
Па тэме
Google прэзентавала CodeMender — ШІ-агент сам знаходзіць і выпраўляе багі
OpenAI запусціла канструктар ШІ-агентаў і зрабіла Codex даступным для ўсіх
OpenAI запусціла канструктар ШІ-агентаў і зрабіла Codex даступным для ўсіх
Па тэме
OpenAI запусціла канструктар ШІ-агентаў і зрабіла Codex даступным для ўсіх
Google упарадкавала свайго ШІ-агента для праграмістаў
Google упарадкавала свайго ШІ-агента для праграмістаў
Па тэме
Google упарадкавала свайго ШІ-агента для праграмістаў
Чытайце таксама
CEO Airbnb: калі не браць зумераў, кіраваць хутка будзе няма каму
CEO Airbnb: калі не браць зумераў, кіраваць хутка будзе няма каму
CEO Airbnb: калі не браць зумераў, кіраваць хутка будзе няма каму
ШІ заўважыў, што яго «ўзламалі» падчас эксперыменту
ШІ заўважыў, што яго «ўзламалі» падчас эксперыменту
ШІ заўважыў, што яго «ўзламалі» падчас эксперыменту
Meta абвінавацілі ў спампоўванні порна для ШІ. Кампанія заявіла, што спампоўвала
Meta абвінавацілі ў спампоўванні порна для ШІ. Кампанія заявіла, што спампоўвала "для сябе"
Meta абвінавацілі ў спампоўванні порна для ШІ. Кампанія заявіла, што спампоўвала "для сябе"
7 каментарыяў
Стваральнік ШІ-бота для тэхнічных сумоўяў назваў галоўную прычыну правалаў стартапаў
Стваральнік ШІ-бота для тэхнічных сумоўяў назваў галоўную прычыну правалаў стартапаў
Стваральнік ШІ-бота для тэхнічных сумоўяў назваў галоўную прычыну правалаў стартапаў

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.