Николай Чикишев world 8 кастрычніка 2025, 15:10

Стаў даступны найбуйнейшы адкрыты датасэт для навучання ШІ-агентаў

Даследчыкі з MIT, IBM Watson AI Lab і Універсітэта Вашынгтона прэзентавалі TOUCAN — найбуйнейшы на сённяшні дзень адкрыты набор дадзеных для навучання агентаў са штучным інтэлектам.

Пакінуць каментарый

Стаў даступны найбуйнейшы адкрыты датасэт для навучання ШІ-агентаў

Даследчыкі з MIT, IBM Watson AI Lab і Універсітэта Вашынгтона прэзентавалі TOUCAN — найбуйнейшы на сённяшні дзень адкрыты набор дадзеных для навучання агентаў са штучным інтэлектам.

TOUCAN стаў адказам на праблему адсутнасці адкрытых навучальных дадзеных, якія паказваюць, як моўныя мадэлі выкарыстоўваюць рэальныя інструменты. У адрозненне ад папярэдніх набораў кшталту ToolLLM і ToolACE, заснаваных на сімуляваных выкліках API, новы датасэт фіксуе рэальныя ланцужкі дзеянняў — ад зыходнага запыту да фінальнага выніку, уключаючы памылкі, затрымкі і кантэкстныя залежнасці.

У набор увайшлі 1,5 мільёна рэальных узаемадзеянняў з інструментамі з 495 сервераў Model Context Protocol (MCP) і больш за 2000 інструментаў — ад вэб-пошуку і фінансавых сэрвісаў да платформаў для распрацоўкі і працы з дадзенымі надвор’я.

Датасэт ствараўся ў пяць этапаў: спачатку даследчыкі сабралі і праверылі публічныя MCP-серверы на платформе Smithery.ai, затым пяць моўных мадэляў, уключаючы Mistral, Kimi-K2 і Qwen3-32B, згенеравалі задачы, якія былі адфільтраваны па якасці і рэалізму. Тры іншыя мадэлі выканалі гэтыя задачы ў рэальным асяроддзі, стварыўшы гісторыі ўзаемадзеянняў з інструментамі.

Мадэлі, дадаткова навучаныя на TOUCAN, паказалі прыкметны рост прадукцыйнасці. Так, Qwen-2.5-32B палепшыла вынік на 8,7 пунктаў па бэнчмарку BFCL V3 і перасягнула GPT-4.5-Preview у шэрагу задач. На тэстах MCP-Universe, якія правяраюць працу з рэальнымі інтэрфэйсамі інструментаў, мадэлі, навучаныя на TOUCAN, апярэдзілі нават больш буйныя сістэмы, уключаючы Llama-3.3 і GLM-4.5.

Даследчыкі заявілі, што TOUCAN зрушвае «мяжу эфектыўнасці» для адкрытых мадэляў, даказваючы, што нават адносна невялікія моўныя мадэлі могуць даганяць прапрыетарныя аналагі пры наяўнасці якасных дадзеных. Усе дадзеныя былі ачышчаны ад персанальнай інфармацыі і апублікаваны пад адкрытай ліцэнзіяй на GitHub і Hugging Face. Каманда плануе дадаць экспертную мадэль для сімуляцыі інструментаў і новы бэнчмарк вэб-пошуку.