ШІ не ўмее зарабляць: усе топ-мадэлі прайгралі ў стаўках на спорт
Папулярныя мадэлі штучнага інтэлекту не змаглі зарабіць на стаўках на матчы Прэм’ер-лігі і ў большасці выпадкаў сышлі ў мінус. Эксперымент паказаў, што нават перадавыя сістэмы дрэнна спраўляюцца з доўгатэрміновымі прагнозамі ў складаных і непрадказальных умовах рэальнага свету.
Папулярныя мадэлі штучнага інтэлекту не змаглі зарабіць на стаўках на матчы Прэм’ер-лігі і ў большасці выпадкаў сышлі ў мінус. Эксперымент паказаў, што нават перадавыя сістэмы дрэнна спраўляюцца з доўгатэрміновымі прагнозамі ў складаных і непрадказальных умовах рэальнага свету.
Пра гэта паведамляе Financial Times са спасылкай на даследаванне стартапа General Reasoning, у якім правяралася здольнасць ШІ прымаць рашэнні ва ўмовах доўгатэрміновага і зменлівага асяроддзя.
У межах эксперыменту даследчыкі пратэставалі восем перадавых мадэляў, якім далі падрабязныя гістарычныя дадзеныя, статыстыку каманд і вынікі папярэдніх гульняў. Задача заключалася ў тым, каб пабудаваць стратэгіі стаўкі з максімальнай даходнасцю і кіраваннем рызыкамі.
Пасля гэтага ШІ-агенты рабілі стаўкі на зыход матчаў і колькасць галоў, адаптуючыся да змяненняў у ходзе сезона, у тым новыя дадзеныя пра каманды і гульцоў. Пры гэтым мадэлі не мелі доступу да інтэрнэту і атрымлівалі тры спробы, каб выйсці ў плюс.
Усе сістэмы пачыналі з умоўнага банка ў £100 тысяч, аднак ніводная з іх не змагла паказаць устойлівы прыбытак. Лепшы вынік прадэманстравала мадэль Claude Opus 4.6 ад Anthropic з сярэднім стратамі каля 11%, пры гэтым у адной са спробаў яна амаль выйшла ў нуль.
Мадэль Grok ад xAI у адным выпадку цалкам страціла банк і не змагла завяршыць астатнія спробы. Gemini ад Google паказала прыбытак каля 34% у адной сімуляцыі, але ў іншай цалкам збанкрутавала. Шэраг іншых мадэляў, у тым Trinity, таксама страцілі ўвесь капітал.
Аўтары даследавання адзначаюць, што ўсе пратэставаныя мадэлі ў выніку прайгралі грошы і ў многіх выпадках саступалі чалавеку ў прыняцці рашэнняў.
Паводле генеральнага дырэктара General Reasoning Роса Тэйлара, вакол аўтаматызацыі з дапамогай ШІ існуе значны ажыятаж, аднак рэальныя вымярэнні эфектыўнасці ў доўгатэрміновых і дынамічных задачах практычна адсутнічаюць. Ён падкрэсліў, што большасць бенчмаркаў ацэньваюць сістэмы ў статычных умовах, якія дрэнна адлюстроўваюць складанасць рэальнага свету.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.