Николай Чикишев 15 мая 2024, 13:04

Канферэнцыя Google I/O 2024: галоўнае

На канферэнцыі Google I/O кампанія паказала адразу некалькі новых версій АІ-мадэляў і прызнала відавочнае: цяпер Google укараняе штучны інтэлект ва ўсе этапы працэсу пошуку.

Пакінуць каментарый

Чат-бот Gemini стаў балбатлівым і абзавёўся памяццю

Google паказала Gemini Live — АІ-асістэнта, які можа весці «паглыбленыя» дыялогі з карыстальнікам са смартфона. Карыстальнікі могуць перарываць бота, задаваць удакладняльныя пытанні, а сам памочнік адаптуецца да маўлення карыстальніка ў рэжыме рэальнага часу. Gemini можа бачыць і рэагаваць на асяроддзе карыстальніка, выкарыстоўваючы фатаграфіі і відэа, знятыя камерамі смартфона.

Распрацоўшчыкі сцвярджаюць, што сістэма выкарыстоўвае новыя метады генератыўнага АІ, каб знізіць рызыку памылак пры аналізе выяў. Таксама бот спалучае гэтыя метады з палепшаным моўным рухавіком для больш паслядоўнага, эмацыйнага і рэалістычнага дыялогу. Gemini Live стаў свайго роду працягам развіцця платформы камп’ютарнага зроку Google Lens і віртуальнага памочніка Google Assistant.

Пры стварэнні асістэнта былі выкарыстаныя напрацоўкі праекта Project Astra — новай ініцыятывы DeepMind па стварэнні праграм на базе АІ з падтрымкай «разумення» ў рэальным часе розных даных — у выглядзе тэксту, аўдыя і выяў. Гендырэктар DeepMind Дэміс Хасабіс заявіў, што кампанія імкнецца стварыць агентаў, «якія могуць бачыць і чуць тое, што мы робім, лепш разумець кантэкст, у якім мы знаходзімся, і хутка рэагаваць у размове».

Карыстальнік зможа паказаць на частку кода, а памочнік растлумачыць, за што яна адказвае. Таксама асістэнт дапаможа адрэпеціраваць прамову да мерапрыемства, абдумаць ідэі, даць параду наконт публічнага выступу, падказаць, якія навыкі варта падкрэсліць на будучым сумоўі або стажыроўцы.

«Памяць» асістэнта стала магчымай дзякуючы архітэктуры, якая ляжыць у аснове базавай мадэлі — Gemini 1.5 Pro, а таксама іншых генератыўных мадэляў. У Gemini 1.5 Pro даволі ёмістае кантэкстнае акно, такім чынам бот можа прыняць і апрацаваць вялікую колькасць даных, напрыклад, каля 1 гадзіны відэа. Gemini Live нагадвае генератыўны АІ, які ўжываецца ў акулярах Meta: ён здольны праглядаць выявы, знятыя камерай, і інтэрпрэтаваць іх.

Gemini Live будзе запушчаны пры канцы гэтага года. У адрозненне ад ChatGPT, сэрвіс не будзе бясплатным. Пасля запуску Live будзе эксклюзівам для Gemini Advanced, складанейшай версіі Gemini. Яна стане даступная падпісчыкам плана Google One AI Premium Plan за $20 на месяц.

Gemini 1.5 Flash — хуткая мадэль для хуткіх адказаў

Кампанія пашырыла лінейку сваіх АІ-мадэляў. Новая версія Gemini 1.5 Flash арыентавана на задачы, якія патрабуюць высокай хуткасці. Паводле слоў віцэ-прэзідэнта Google Labs Джоша Вудварда, мадэль аптымізаваная для «вузкіх, прыярытэтных задач, дзе патрабуецца нізкая затрымка». Нейрасетка здольная апрацоўваць тэкст, выявы і відэа з высокай хуткасцю. Яна падыходзіць для праграм, якім неабходныя імгненныя адказы ў рэжыме рэальнага часу, напрыклад, для камунікацыі з карыстальнікамі або кліентамі.

У астатніх выпадках лепш падыдзе абноўленая версія Gemini 1.5 Pro. Яна можа аналізаваць вялікія аб’ёмы тэксту, робіць абагульненні і пераклады. Мадэль атрымала пашыраныя магчымасці машыннага лагічнага разважання і напісання праграмнага кода. У абедзвюх мадэляў кантэкстнае акно роўнае 1 мільёну токенаў, пры гэтым у канкурэнта GPT-4 — 128 тысяч токенаў. Акрамя AI Studio мадэль Pro стане даступная ў Google Workspace. Падпісанты пашыранай версіі Gemini Advanced атрымаюць доступ да мадэлі на 35 мовах.

Project Astra — універсальны асістэнт

Project Astra — гэта мультымадальны АІ-асістэнт, які, як спадзяюцца ў кампаніі, стане віртуальным памочнікам, здольным рабіць усё што заўгодна: глядзець і разумець, што ён бачыць праз камеру вашай прылады, запамінаць, дзе знаходзяцца вашыя рэчы, і рабіць усё за вас.

Посмотреть эту публикацию в Instagram

Публікацыя ад The Verge (@verge)

У апублікаваных відэа супрацоўніца Google просіць асістэнта паведаміць, калі ён «убачыць» што-небудзь, здольнае выдаваць гукі. Затым яна паварочвае смарфтон — і алгарытм выяўляе на стале калонку. Затым нейрасетка «бачыць» каляровую крэйду, тлумачыць частку кода на маніторы, вызначае месца знаходжання офіса Google па ўбачаным за акном пейзажы і выконвае шэраг іншых задач.

Gemma 2 — яшчэ больш токенаў

Распрацоўшчыкі анансавалі скорае з’яўленне АІ-мадэлі Gemma 2 з адкрытым зыходным кодам. Раней былі выпушчаныя мадэлі Gemma 2B і Gemma 7B з 2 мільярдамі і 7 мільярдамі параметраў адпаведна. Новая версія мае 27 мільярдаў параметраў. Паводле слоў віцэ-прэзідэнта Google Labs Джоша Вудварда, мадэлі былі загружаныя больш з, а «мільён разоў» у розныя сэрвісы, дзе працягваюць працаваць. Нейрасетка прапаноўвае найлепшую ў галіне прадукцыйнасць у кампактных памерах праз аптымізацыю для працы на новых працэсарах Nvidia або адным хосце Google Cloud TPU, дадаў Вудвард. Нібыта Gemma 2 пераўзыходзіць у прадукцыйнасці ўдвая буйнейшыя моўныя мадэлі. Праверыць гэта можна будзе ў чэрвені, калі адбудзецца публічны запуск сістэмы.

У Sora з’явіўся канкурэнт — Veo

У адказ на рэліз нашумелай генератыўнай нейрасеткі Sora ад OpenAI была паказаная свая нейрасетка Veo. Яе алгарытм мае «прасунутае разуменне натуральнай мовы». Гэта дазваляе мадэлі разумець кінематаграфічныя тэрміны, напрыклад, «таймлапс» або «здымка пейзажу з паветра». Для атрымання жаданага выніку карыстальнік можа не толькі ўводзіць тэкставыя запыты, але таксама паказаць АІ выявы або відэа. Таксама генерацыю ролікаў можна карэктаваць з дапамогай дадатковых падказак. Нейрасетка стварае ролікі з разрознасцю Full HD працягласцю большай за 1 хвіліну.

У далейшым Google плануе інтэграваць дадатковыя функцыі, якія дазволяць Veo ствараць раскадроўкі і больш працяглыя відэа. Цяпер кампанія запрашае да тэсціравання папярэдняй версіі нейрасеткі абмежаваную колькасць стваральнікаў кантэнту. Затым распрацоўшчыкі вызначаць, якім чынам будзе выглядаць падтрымка актараў і супрацоўніцтва з імі. Некаторыя функцыі Veo стануць даступнымі найбліжэйшым часам абмежаванай колькасці карыстальнікаў сэрвісу VideoFX, калі яны пададуць заяўкі на ўдзел у тэсціраванні. Таксама ў планах інтэграцыя некаторых функцый Veo ў Youtube Shorts.

Google Lens цяпер дазваляе шукаць, запісваючы відэа

У інструмента візуальнага пошуку Lens з’явілася новая функцыя. Цяпер карыстальнікі змогуць ажыццяўляць пошук у інтэрнэце па знятым відэа. Раней Google Lens мог апрацоўваць запыты толькі са статычнымі выявамі, але неўзабаве карыстальнікі змогуць запісваць як відэа, так і аўдыя, каб задаць сваё пытанне. Абнаўленне можа выявіцца карысным у многіх сітуацыях, напрыклад, пры паломцы аўтамабіля або пры пошуку інфармацыі аб нейкім прадмеце, які знаходзіцца ў поле зроку карыстальніка.

Пры аналізе выявы неабходна даваць удакладненні, што менавіта цікавіць карыстальніка на тым ці іншым здымку. У выпадку з відэа ён можа навесці камеру на нейкую дэталь і проста спытаць, што гэта і навошта яно трэба. Распрацоўшчыкі імкнуцца зрабіць Lens менш падобным да камп’ютарнага сэрвісу і ператварыць яго ў паўнавартаснага памочніка, якому можна адправіць відэа з пытаннямі і атрымаць адказ без удакладняльных тлумачэнняў.

Gmail стане яшчэ зручнейшым

Тэхналогіі АІ інтэгравалі ў паштовы сэрвіс Gmail. Гэта самы папулярны вэб-інтэрфейс для працы з электроннай поштай у свеце. Аднак у сэрвісу ёсць свае недахопы, у першую чаргу, гэта звязана з вялікай колькасцю лістоў і ўкладанняў. Распрацоўшчыкі Google інтэгравалі Gemini: цяпер сістэма зможа аналізаваць змест лістоў, здабываць ключавую інфармацыю і фармуляваць варыянты адказаў.

Асаблівасць памочніка — у магчымасці задаваць пытанні непасрэдна ў ланцужках лістоў. Карыстальнік зможа спытаць у сістэмы, які быў прапанаваны кошт таго ці іншага прадукту. Gemini прааналізуе адпаведныя лісты і па кантэксце зразумее, аб якім праекце ідзе гаворка, і выдасць дакладны адказ. Або параўнае канкуруючыя камерцыйныя прапановы ад розных кампаній, стварыўшы зводную табліцу.

Іншая карысная функцыя — апрацоўка шматлікіх уваходных укладанняў да лістоў. Асістэнт зоймецца іх арганізацыяй у воблачным сховішчы Google, таксама фармуючы зводныя табліцы. Акрамя таго, інтэграцыя персанальнага чат-бота дазволіць шукаць інфармацыю і вырашаць задачы па запытах проста ў паштовым сэрвісе, для гэтага не трэба карыстацца іншымі праграмамі і выходзіць з пошты.

Новыя функцыі Gmail з’явяцца спачатку ў тэставым рэжыме Google Labs гэтай восенню. Агульнадаступнымі функцыі стануць пры канцы гэтага года або пазней. Доступ да пашыраных магчымасцяў Gemini будзе платным і складзе $19,95 на месяц у рамках падпіскі Google AI Premium.

Новая версія генератара Imagen 3

Кампанія прадставіла Imagen 3 — новую версію свайго самага прасунутага генератара выяў. Мадэль дакладней за папярэднюю версію Imagen 2 разумее тэставыя запыты. Алгарытм працуе больш «крэатыўна і дэталізавана», а таксама радзей памыляецца і стварае менш «адцягвальных артэфактаў».

Для абароны ад дыпфэйкаў пры генерацыі выяў выкарыстоўваецца тэхналогія SynthID: на медыяфайлы наносяцца нябачныя крыптаграфічныя вадзяныя знакі. Мяркуецца, што такім чынам будзе бескарысна выкарыстоўваць генератар для стварэння фэйкавага кантэнту. Карыстальнікі могуць аформіць падпіску на генератар праз сэрвіс Google ImageFX. Распрацоўшчыкі і і карпаратыўныя кліенты атрымаюць доступ да сэрвісу праз платформу машыннага навучання Vertex AI.

Circle to Search для лянівых школьнікаў

Раней распрацоўшчыкі Google паказалі функцыю візуальнага пошуку Circle to Search, якая дазваляе карыстальнікам Android абвесці фрагмент на экране смартфона, які іх цікавіць, і атрымаць пра яго інфармацыю ў пашукавіку. Цяпер магчымасці інструмента пашырылі.

З дапамогай смартфона або планшэта на базе Android карыстальнік можа вырашаць матэматычныя задачы. Абвёўшы прыклад, які яго цікавіць, карыстальнік убачыць усплывальнае акно, у якім будуць паказаныя падказкі. Функцыя будзе карыснай пры вырашэнні складаных ураўненняў і задач, у тым ліку з формуламі, дыяграмамі, графікамі і інш.

Gemini Nano ад назойлівых ашуканцаў

Для барацьбы з тэлефонным махлярствам распрацоўшчыкі кампаніі стварылі адмысловую моўную мадэль Gemini Nano, якая можа цалкам працаваць на карыстальніцкай прыладзе. Функцыя будзе выяўляць патэнцыйна ашуканскія званкі ў новай версіі Android. Напрыклад, ашуканцы часта выдаюць сябе за супрацоўнікаў банкаў. Алгарытм можа вызначаць такія падазроныя паводзіны, пасля чаго на экране смартфона з’явіцца папярэджанне аб тым, што званок патэнцыйна з’яўляецца ашуканскім.

Канкрэтныя тэрміны запуску новай функцыі не былі агучаныя. Кампанія ўдакладніла, што не стане навязваць інструмент карыстальнікам. Пры жаданні функцыю можна адключыць у наладах смартфона. Паводле слоў распрацоўшчыкаў, мадэль працуе на прыладзе аўтаномна і не перадае даных на аддаленыя серверы Google.

Таксама Gemini Nano з’явіцца ў браўзеры Chrome для ПК. Мадэль стане часткай фірмовага браўзера, пачынаючы з Chrome 126. Паводле заявы Google, гэта дазволіць іншым распрацоўшчыкам рэалізоўваць уласныя АІ-функцыі на аснове мадэлі, якая працуе лакальна на прыладах карыстальнікаў. Дзякуючы рэалізацыі падтрымкі WebGPU і WASM АІ-мадэлі будуць працаваць з разумнай хуткасцю на камп’ютарах з рознымі характарыстыкамі. Кампанія вядзе перамовы з іншымі браўзерамі, прапаноўваючы інтэграваць свае АІ-функцыі.

Новы АІ-чып Trillium

Кампанія паказала шостае пакаленне свайго фірмовага тэнзарнага працэсара з кодавай назвай Trillium. Ён прызначаны для цэнтраў апрацоўкі даных, арыентаваных на працу са штучным інтэлектам. Паводле слоў распрацоўшчыкаў чыпа, ён амаль у пяць разоў прадукцыйнейшы за папярэднікаў. Аналітыкі называюць навінку канкурэнтам працэсарам Nvidia, якая фактычна манапалізавала гэты рынак. Nvidia па-ранейшаму дамінуе на рынку чыпаў для АІ-дата-цэнтраў з доляй 80%.

Вылічальная прадукцыйнасць Trillium павысілася ў 4,7 разу ў параўнанні з TPU пятага пакалення ў задачах, звязаных з генерацыяй тэксту і медыякантэнту з дапамогай вялікіх моўных мадэляў. Trillium на 67% энергаэфектыўнейшая. Такіх поспехаў удалося дамагчыся дзякуючы павелічэнню колькасці матрычных памнажальнікаў (MXU), павышэнню тактавай частоты працэсара і падваенню прапускной здольнасці памяці. Працэсары стануць даступныя для кліентаў воблачных сэрвісаў Google пры канцы гэтага года.

Apple і Google дадалі ў смартфоны дадатковую абарону ад сачэння

Па тэме

Apple і Google дадалі ў смартфоны дадатковую абарону ад сачэння

CEO Google патлумачыў, чаму ў кампаніі ўсё трываюць і трываюць звальненні

Па тэме

CEO Google патлумачыў, чаму ў кампаніі ўсё трываюць і трываюць звальненні

У праграме для сэкс-цацак з Google Play выявілі траяна-клікера

Па тэме

У праграме для сэкс-цацак з Google Play выявілі траяна-клікера

Читать на dev.by