Стартап экс-CTO OpenAI паказаў ШІ, які адначасова размаўляе і слухае
Былы тэхнічны дырэктар OpenAI Міра Мураці ўпершыню падрабязна прадставіла распрацоўку свайго стартапа Thinking Machines Lab — TML-Interaction, мадэль новага тыпу для ўзаемадзеяння з ШІ ў рэальным часе.
Былы тэхнічны дырэктар OpenAI Міра Мураці ўпершыню падрабязна прадставіла распрацоўку свайго стартапа Thinking Machines Lab — TML-Interaction, мадэль новага тыпу для ўзаемадзеяння з ШІ ў рэальным часе.
Мураці пакінула OpenAI ў верасні 2024 года і неўзабаве заснавала Thinking Machines Lab. Да гэтага часу пра кампанію было вядома няшмат, акрамя вялікай угоды з Nvidia. Цяпер стартап прадставіў даследчую версію TML-Interaction-Small — мадэль, якая павінна змяніць сам прынцып узаемадзеяння чалавека з ШІ.
Кампанія называе яе не моўнай мадэллю, а «мадэллю ўзаемадзеяння»: яна адначасова апрацоўвае аўдыё, відэа і тэкст, можа гаварыць і слухаць паралельна, рэагаваць на паўзы і перапынкі, а таксама выконваць фонавыя задачы падчас размовы.
У Thinking Machines Lab лічаць, што сучасныя галасавыя і тэкставыя ШІ-сістэмы працуюць занадта жорстка: карыстальнік гаворыць ці піша, мадэль чакае, затым апрацоўвае запыт і адказвае. Гэты падыход стварае штучнае абмежаванне: пакуль мадэль адказвае, яна не ўспрымае новую інфармацыю, а пакуль карыстальнік гаворыць, яна бяздзейнічае.
«Мы лічым, што можам вырашыць гэтае абмежаванне прапускной здольнасці, зрабіўшы ШІ інтэрактыўным у рэальным часе і ва ўсіх мадальнасцях. Гэта дазволіць ШІ-інтэрфейсам сустракаць людзей там, дзе яны ёсць, а не прымушаць людзей адаптавацца да ШІ-інтэрфейсаў», — заявілі распрацоўшчыкі.
ІІ дрэнна працуе на працяглай дыстанцыі — такога супрацоўніка ўжо звольнілі б
Для больш складаных задач мадэль можа падключаць асінхронную фонавую мадэль. Яна бярэ на себе глыбокае разважанне, пошук у інтэрнэце або агентныя працоўныя працэсы, пакуль асноўная interaction-мадэль працягвае падтрымліваць кантакт з карыстальнікам і ўбудае вынік у размову.
Кампанія сцвярджае, што TML-Interaction-Small хутчэйшая за канкурэнтаў у рэжыме рэальнага часу. У апублікаваным параўнанні сярэдняя затрымка адказу складае 0,40 с супраць 1,18 с у GPT-Realtime-2.0 у мінімальным рэжыме, 0,59 с у GPT-Realtime-1.5 і 0,57 с у Gemini-3.1-Flash-Live.
Бягучая версія мадэлі — Mixture-of-Experts з 276 мільярдамі параметраў, з якіх у кожны момант актыўныя каля 12 мільярдаў. У кампаніі прызнаюць, што большыя мадэлі пакуль занадта павольныя для сцэнару сінхроннага ўзаемадзеяння, але абяцаюць пазней прадставіць версіі з большай колькасцю параметраў.
У сістэмы ёсць і абмежаванні. Доўгія сесіі з пастаянным аўдыё- і відэапатокам хутка ствараюць вялікі аб’ём кантэксту, што ўскладняе кіраванне. Акрамя таго, для стабільнай працы патрэбна якаснае інтэрнэт-злучэнне: пры дрэннай сувязі якасць узаемадзеяння рэзка пагаршаецца.
Thinking Machines Lab плануе адкрыць доступ да TML-Interaction у рэжыме навуковага папярэдняга прагляду ў бліжэйшыя месяцы. На працягу 2026 года кампанія абяцае выпусціць мадэль у адкрытым доступе і запусціць даследчую праграму, каб разам з навуковай супольнасцю распрацаваць новыя стандарты ацэнкі такіх мадэляў.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.