Николай Чикишев 9 декабря 2024, 15:15

Какой поиск лучше: генеративный или традиционный?

Чат-боты начали наступление на традиционные поисковики: с каждым месяцем все больше разработчиков добавляют поисковые функции в ИИ-сервисы. Насколько они надежны? И когда мы закончим гуглить?

1 комментарий

Какой поиск лучше: генеративный или традиционный?

Чат-боты начали наступление на традиционные поисковики: с каждым месяцем все больше разработчиков добавляют поисковые функции в ИИ-сервисы. Насколько они надежны? И когда мы закончим гуглить?

Какие генеративные поисковики существуют?

Вот несколько популярных сервисов генеративного поиска:

ChatGPT search от OpenAI

Запущенный в июле этого года, SearchGPT сочетал традиционные функции поиска с форматом диалога. В октябре функцию назвали ChatGPT search и открыли доступ подписчикам чат-бота. Поисковик сопровождает ответы ссылками на внешние сайты. В дополнение к более широкому веб-поиску поисковая система использует информацию, которую предоставляют издатели, подписавшие соглашения с OpenAI (например, Vox Media, The Atlantic, News Corp и Financial Times). ChatGPT search использует продвинутую модель OpenAI ChatGPT-4o

AI Overviews от Google

Изначально сервис назывался Search Generative Experience (SGE), затем его переименовали в AI Overviews. Эта функция интегрирует сводки, созданные с помощью искусственного интеллекта, в результаты поиска Google: краткую информацию можно найти в интерфейсе поисковика под поисковой строкой.

Copilot от Microsoft

Microsoft, основной инвестор OpenAI, была одной из первых компаний, выпустивших генеративную поисковую систему ИИ, когда запустила версию Bing на базе ИИ в 2023 году. Поисковик использовал модели OpenAI. Затем корпорация дополнила свой поисковик новыми функциями, назвав их Copilot. Интеграция позволяет получать аналитические сводки и данные наряду с традиционными результатами поиска.

Perplexity AI от Perplexity

Perplexity AI сочетает возможности поисковой системы и чат-бота, используя большие языковые модели для генерации ответов. Поисковик выдает прямые ответы, а не список ссылок: источники можно посмотреть в отдельной вкладке, как у ChatGPT search. По мнению многих экспертов, поисковая система Perplexity лучше всего справляется с новостным контентом из всех представленных на рынке моделей.

Andi Search

Andi позиционирует себя как «поиск следующего поколения». Поисковая система показывает результат в основной области ответа, а также дополнительные веб-ссылки на боковой панели. Можно сортировать ответы по различным категориям в зависимости от запроса. Andi менее разговорчив, чем популярные чат-боты, и не поддерживает контекст последующих запросов. Систем использует ИИ-модели Claude

Насколько они точны?

Это главный вопрос при работе с такими поисковиками. Хотя они могут давать обширные и прямые ответы, в отличие от традиционных поисковиков, однако исследования показывают, что точность и надежность генеративного поиска оставляет желать лучшего.

Галлюцинации. Модели генеративного ИИ подвержены «галлюцинациям», когда они выдают информацию, которая кажется достоверной, но фактически неверна или полностью сфабрикована. Этим же страдают и генеративные поисковики, так как используют в своей работе те же ИИ-модели. Скандал со странными советами AI Overviews (например, добавлять клей в соус для пиццы или есть камни) вынудил Google отложить на время интеграцию функции.

Ошибки в атрибуции. Исследователи обнаружили, что в результатах поиска, сгенерированных с помощью искусственного интеллекта, неверно указаны цитаты и другая информация. Часто ChatGPT не может правильно идентифицировать источники цитат, что приводит к дезинформации: чат-бот приписывает цитаты другим изданиям или тем, которые запретили доступ к своим материалам. То же самое периодически делают и другие чат-боты.

В ответ на критику разработчики признают ограниченность своих моделей и активно работают над усовершенствованием своих систем, чтобы уменьшить количество ошибок и повысить надежность поиска. Тем не менее пользователям следует проявлять осторожность и перепроверять важную информацию из нескольких источников, чтобы обеспечить ее точность.

Почему генеративный поиск галлюцинирует?

Базовые модели искусственного интеллекта предназначены для генерации текста на основе шаблонов, полученных из обширных наборов данных. В этом заключается загвоздка: модель не оценивает, насколько информация фактологична, а лишь предсказывает последовательность слов на основе наблюдаемых закономерностей. Это приводит к созданию контента, который кажется правдоподобным, но фактически неверен или полностью сфабрикован.

Большие языковые модели обучаются на огромных объемах данных, которые также содержат как точную, так и ложную информацию, а еще различные предубеждения и стереотипы. Поскольку модели имитируют закономерности, которые находят в обучающих данных, они могут воспроизводить любую ложь или искажения, присутствующие в этих наборах. Обнаруженные закономерности могут влиять на другие запросы, которые никак не связаны с предыдущим.

Технологии, которые повышают разнообразие в ответах, могут даже увеличить вероятность галлюцинаций, потому что создают менее вероятные последовательности слов. До сих пор нет известных способов проверки достоверности информации при генерации текста: разработчики признают проблему галлюцинаций, но надеются, что она станет менее актуальной со временем при развитии ИИ-технологий.

Какой поиск лучше: генеративный или традиционный?

Выбор между генеративным и традиционным поиском зависит от ваших предпочтений.

Традиционный поиск основан на подборе ключевых слов и предопределен алгоритмом. Он предоставляет ранжированный список веб-страниц. Пользователи могут видеть источник информации и оценить его достоверность. Годы совершенствования позволили традиционным поисковикам предоставлять актуальную и точную информацию. Google потратил десятки лет на свой поисковой алгоритм, тогда как генеративному поиску всего лишь несколько месяцев.

Однако у традиционного поиска есть свои очевидные минусы. Например, может потребоваться просмотреть десятки ссылки, прежде чем найти необходимую информацию. Сейчас поисковая выдача перегружена SEO-текстами, которые оптимизированы для алгоритмов, но бесполезны для читателя. Также традиционный поиск легко справляется с короткими запросами, но не способен дать развернутый ответ на сложные вопросы.

Генеративный поиск предлагает обобщенные ответы, избавляя пользователя тратить время на поиск необходимого источника. Также формат диалога помогает уточнять запрос и изучать конкретную тему. ИИ может работать с многосоставными вопросами, которые требуют развернутого, исчерпывающего ответа, а не просто список источников.

Тем не менее генеративный поиск до сих пор склонен к галлюцинациям и выдает неточную информацию, а ссылки могут вести совершенно на другие источники или даже отсутствовать. Также возможность генерировать контент без четкого указания на источники вызывает вопросы об авторских правах.

Вне зависимости от того, какой вариант поиска выглядит эффективным, это не снимает ответственности с пользователя, которому в любом случае приходится перепроверять информацию: стопроцентной точности и надежности не может дать ни один алгоритм или самая передовая нейросеть.

Вы помните, как беларусское ИТ превратилось в феномен? Мы учились друг у друга, делились первыми успехами, вместе радовались, когда наши компании, продукты и команды получали мировое признание. Сегодня многие из нас — в разных странах, поэтому еще важнее сохранять связи и продолжить развитие. 16 лет dev.by — «дефолтный» источник информации о беларусском ИТ, площадка для общения и обмена опытом. Вместе мы преодолеваем кризисы, держим удары, радуемся успехам, надеемся.

Сейчас вы можете помочь dev.by. Когда все способы монетизации беларусских медиа почти исчезли, регулярные донаты позволяют платить зарплату редакторам и авторам, готовить важные материалы.

Если у вас есть возможность и вы считаете нашу работу важной, поддержите dev.by.