Конференция Google I/O 2024: главное
На конференции Google I/O компания показала сразу несколько новых версий ИИ-моделей и признала очевидное: теперь Google внедряет искусственный интеллект во все этапы процесса поиска.
Чат-бот Gemini стал болтливым и обзавелся памятью
Google показала Gemini Live — ИИ-ассистента, который может вести «углубленные» диалоги с пользователем со смартфона. Пользователи могут прерывать бота, задавать уточняющие вопросы, а сам помощник адаптируется к речи пользователя в режиме реального времени. Gemini может видеть и реагировать на окружение пользователя, используя фотографии и видео, снятые камерами смартфона.
Разработчики утверждают, что система использует новые методы генеративного ИИ, чтобы снизить риск ошибок при анализе изображений. Также бот сочетает эти методы с улучшенным речевым движком для более последовательного, эмоционального и реалистичного диалога. Gemini Live стал своего рода продолжением развития платформы компьютерного зрения Google Lens и виртуального помощника Google Assistant.
При создании ассистента были использованы наработки проекта Project Astra — новой инициативы DeepMind по созданию приложений на базе ИИ с поддержкой «понимания» в реальном времени различных данных — в виде текста, аудио и изображения. Гендиректор DeepMind Демис Хассабис заявил, что компания стремится создать агентов, «которые могут видеть и слышать то, что мы делаем, лучше понимать контекст, в котором мы находимся, и быстро реагировать в разговоре».
Пользователь сможет указать на часть кода, а помощник объяснит, за что она отвечает. Также ассистент поможет отрепетировать речь к мероприятию, обдумать идеи, дать совет по публичному выступлению, подсказать, какие навыки следует подчеркнуть на предстоящем собеседовании или стажировке.
«Память» ассистента стала возможной благодаря архитектуре лежащей в его основе базовой модели — Gemini 1.5 Pro, а также других генеративных моделей. У Gemini 1.5 Pro довольно емкое контекстное окно, таким образом бот может принять и обработать большое количество данных, например, около 1 часа видео. Gemini Live напоминает генеративный ИИ, который применяется в очках Meta: он способен просматривать изображения, снятые камерой, и интерпретировать их.
Gemini Live будет запущен в конце этого года. В отличие от ChatGPT, сервис не будет бесплатным. После запуска Live будет эксклюзивом для Gemini Advanced, более сложной версии Gemini. Она станет доступна подписчикам плана Google One AI Premium Plan за $20 в месяц.
Gemini 1.5 Flash — быстрая модель для быстрых ответов
Компания расширила линейку своих ИИ-моделей. Новая версия Gemini 1.5 Flash ориентирована на задачи, требующие высокую скорость. По словам вице-президента Google Labs Джоша Вудворда, модель оптимизирована для «узких, приоритетных задач, где требуется низкая задержка». Нейросеть способна обрабатывать текст, изображения и видео с высокой скоростью. Она подходит для приложений, которым необходимы мгновенные ответы в режиме реального времени, например, для общения с пользователями или клиентами.
В остальных случаях лучше подойдет обновленная версия Gemini 1.5 Pro. Она может анализировать большие объемы текста, делает обобщения и переводы. Модель получила расширенные возможности машинного логического рассуждения и написания программного кода. У обеих моделей контекстное окно равно 1 миллиону токенов, при этом у конкурента GPT-4 — 128 тысяч токенов. Кроме AI Studio, модель Pro станет доступна в Google Workspace. Подписчики расширенной версии Gemini Advanced получат доступ к модели на 35 языках.
Project Astra — универсальный ассистент
Project Astra — это мультимодальный ИИ-ассистент, который, как надеются в компании, станет виртуальным помощником, способным делать все, что угодно: смотреть и понимать, что он видит через камеру вашего устройства, запоминать, где находятся ваши вещи, и делать все за вас.
В опубликованным видео сотрудница Google просит сообщить ассистента, когда он «увидит» что-либо, способное издавать звуки. Затем она поворачивает смарфтон — и алгоритм обнаруживает на столе колонку. Затем нейросеть «видит» цветные мелки, объясняет часть кода на мониторе, определяет местонахождение офиса Google по увиденному за окном пейзажу и выполняет ряд других задач.
Gemma 2— еще больше токенов
Разработчики анонсировали скорое появление ИИ-модели Gemma 2 с открытым исходным кодом. Ранее была выпущена модели Gemma 2B и Gemma 7B с 2 миллиардами и 7 миллиардами параметров соответственно. Новая версия обладает 27 миллиардами параметров. По словам вице-президента Google Labs Джоша Вудворда, модели были загружены более «миллиона раз» в различные сервисы, где продолжают работать. Нейросеть предлагает лучшую в отрасли производительность в компактных размерах из-за оптимизации для работы на новых процессорах Nvidia или одном хосте Google Cloud TPU, добавил Вудворд. Якобы Gemma 2 превосходит в производительности вдвое более крупные языковые модели. Проверить это можно будет в июне, когда состоится публичный запуск системы.
У Sora появился конкурент — Veo
В ответ на релиз нашумевшей генеративной нейросети Sora от OpenAI была представлена своя нейросеть Veo. Ее алгоритм обладает «продвинутым пониманием естественного языка». Это позволяет модели понимать кинематографические термины, например, «таймлапс» или «съемка пейзажа с воздуха». Для получения желаемого результата пользователь может не только вводить текстовые запросы, но также показать ИИ изображения или видео. Также генерацию роликов можно корректировать с помощью дополнительных подсказок. Нейросеть создает ролики с разрешением Full HD продолжительностью более 1 минуты.
В дальнейшем Google планирует интегрировать дополнительные функции, которые позволят Veo создавать раскадровки и более продолжительные видео. Сейчас компания приглашает к тестированию предварительной версии нейросети ограниченное количество создателей контента. Затем разработчики определят, каким образом будет выглядеть поддержка акторов и сотрудничество с ними. Некоторые функции Veo станут доступными в ближайшее время ограниченному числу пользователей сервиса VideoFX, если они подадут заявки на участие в тестировании. Также в планах интеграция некоторых функций Veo в Youtube Shorts.
Google Lens теперь позволяет искать, записывая видео
У инструмента визуального поиска Lens появилась новая функция. теперь пользователи смогут осуществлять поиск в интернете по снятому видео. Ранее Google Lens мог обрабатывать запросы только со статическими изображениями, но скоро пользователи смогут записывать как видео, так и аудио, чтобы задать свой вопрос. Обновление может оказаться полезным во многих ситуациях, например, при поломке автомобиля или при поиске информации о каком-то предмете, который находится в поле зрения пользователя.
При анализе изображения необходимо давать уточнения, что именно интересует пользователя на том или ином снимке. В случае с видео он может навести камеру на какую-то деталь и просто спросить, что это и зачем оно нужно. Разработчики стремятся сделать Lens менее похожим на компьютерный сервис и превратить его в полноценного помощника, которому можно отправить видео с вопросами и получить ответ без уточняющих пояснений.
Gmail станет еще удобнее
Технологии ИИ интегрировали в почтовый сервис Gmail. Это самый популярный веб-интерфейс для работы с электронной почтой в мире. Однако у сервиса есть свои недостатки, в первую очередь, это связано с большим количеством писем и вложений. Разработчики Google интегрировали Gemini: теперь система сможет анализировать содержание писем, извлекать ключевую информацию и формулировать варианты ответов.
Особенность помощника — в возможности задавать вопросы непосредственно в цепочках писем. Пользователь сможет спросить у системы, какова была предложенная стоимость того или иного продукта. Gemini проанализирует соответствующие письма и по контексту поймет, о каком проекте идет речь, и выдаст точный ответ. Или сравнит конкурирующие коммерческие предложения от разных компаний, создав сводную таблицу.
Другая полезная функция — обработка многочисленных входящих вложений к письмам. Ассистент займется их организацией в облачном хранилище Google, также формируя сводные таблицы. Кроме того, интеграция персонального чат-бота позволит искать информацию и решать задачи по запросам прямо в почтовом сервисе, для этого не нужно пользоваться другими программами и выходить из почты.
Новые функции Gmail появятся сначала в тестовом режиме Google Labs этой осенью. Общедоступными функции станут в конце этого года или позднее. Доступ к расширенным возможностям Gemini будет платным и составит $19,95 в месяц в рамках подписки Google AI Premium.
Новая версия генератора Imagen 3
Компания представила Imagen 3 — новую версию своего самого продвинутого генератора изображений. Модель более точно понимает тестовые запросы, чем предыдущая версия Imagen 2. Алгоритм работает более «креативно и детализированно», а также реже ошибается и создает меньше «отвлекающих артефактов».
Для защиты от дипфейков при генерации изображений используется технология SynthID: на медифайлы наносятся невидимые криптографические водяные знаки. Предполагается, что таким образом будет бесполезно использовать генератор для создания фейкового контента. Пользователи могут оформить подписку на генератор через сервис Google ImageFX. Разработчики и и корпоративные клиенты получат доступ к сервису через платформу машинного обучения Vertex AI.
Circle to Search для ленивых школьников
Ранее разработчики Google представили функцию визуального поиска Circle to Search, которая позволяет пользователям Android обвести интересующий фрагмент на экране смартфона и получить о нем информацию в поисковике. Теперь возможности инструмента расширили.
С помощью смартфона или планшета на базе Android пользователь может решать математические задачи. Обведя интересующий пример, пользователь увидит всплывающее окно, в котором будут представлены подсказки. Функция будет полезна при решении сложный уравнений и задач, в том числе с формулами, диаграммами, графиками и др.
Gemini Nano от назойливых мошенников
Для борьбы с телефонным мошенничеством разработчики компании создали специальную языковую модель Gemini Nano, которая может полностью работать на пользовательском устройстве. Функция будет выявлять потенциально мошеннические звонки в новой версии Android. Например, мошенники часто выдают себя за сотрудников банков. Алгоритм может определять такое подозрительное поведение, после чего на экране смартфона появится предупреждение о том, что звонок потенциально является мошенническим.
Конкретные сроки запуска новой функции не были озвучены. Компания уточнила, что не станет навязывать инструмент пользователям. При желании функцию можно отключить в настройках смартфона. По словам разработчиков, модель работает на устройстве автономно и не передает данные на удаленные серверы Google.
Также Gemini Nano появится в браузере Chrome для ПК. Модель станет частью фирменного браузера начиная с Chrome 126. По заявлению Google, это позволит сторонним разработчикам реализовывать собственные ИИ-функции на основе модели, которая работает локально на устройствах пользователей. Благодаря реализации поддержки WebGPU и WASM ИИ-модели будут работать с разумной скоростью на компьютерах с разными характеристиками. Компания ведет переговоры с другими браузерами, предлагая интегрировать свои ИИ-функции.
Новый ИИ-чип Trillium
Компания представила шестое поколение своего фирменного тензорного процессора с кодовым названием Trillium. Он предназначен для центров обработки данных, которые ориентированы на работу с искусственным интеллектом. По словам разработчиков чипа, он почти в пять раз производительнее предшественников. Аналитики называют новинку конкурентом процессорам Nvidia, которая фактически монополизировала этот рынок. Nvidia по-прежнему доминирует на рынке чипов для ИИ-дата-центров с долей 80%.
Вычислительная производительность Trillium повысилась в 4,7 раза по сравнению с TPU пятого поколения в задачах, связанных с генерацией текста и медиаконтента с помощью больших языковых моделей. Trillium на 67% энергоэффективнее. Таких успехов удалось добиться благодаря увеличению количества матричных умножителей (MXU), повышению тактовой частоты процессора и удвоению пропускной способности памяти. Процессоры станут доступны для клиентов облачных сервисов Google к концу этого года.
Читать на dev.by