🇵🇱 Дедлайн по e-PIT всё ближе ⏳ Поддержите devby из уже уплаченных налогов 💙
Support us

Что вы хотели узнать о поисковом алгоритме Google: детали громадной утечки

Беспрецедентная утечка документов об алгоритме Google взбудоражила специалистов по поисковой оптимизации. Многие догадки подтвердились, а компания была вынуждена признать подлинность утечки. Но верить всему не стоит.

1 комментарий
Что вы хотели узнать о поисковом алгоритме Google: детали громадной утечки

Беспрецедентная утечка документов об алгоритме Google взбудоражила специалистов по поисковой оптимизации. Многие догадки подтвердились, а компания была вынуждена признать подлинность утечки. Но верить всему не стоит.

Поисковый алгоритм Google — это «священный Грааль» интернета: все строят догадки, из чего он состоит, но никто толком не знает принципы его работы. Недавно возникшая утечка «Content API Warehouse» состоит из 2500 внутренних документов. Она включала информацию о том, какие данные собирают алгоритмы поисковика. В течение нескольких дней Google не комментировала документы и все-таки подтвердила их подлинность.

«Мы предостерегает от неверных предположений о поиске, основанных на внеконтекстной, устаревшей или неполной информации. Мы предоставляем обширную информацию о том, как работает поиск и какие факторы учитывают наши системы. Мы также работаем над тем, чтобы защитить целостность наших результатов от манипуляций», — заявил представитель компании Дэвис Томпсон.

Скриншот документов Google из утечки с описанием атрибутов. Источник: Rand Fishkin.

О существовании утекших документов впервые сообщили эксперты по поисковой оптимизации (SEO) Рэнд Фишкин и Майк Кинг, каждый из которых опубликовал первоначальных анализ утечки. Фишкин заявил, что документы ему передал анонимный источник, у которого был доступ к файлам отдела поиска Google. Позднее была раскрыта его личность — это SEO-специалист и основатель EA Eagle Digital Эрфан Азими (Erfan Azimi).

По словам аналитиков, утечке дает беспрецедентный взгляд на работу поисковика. Главное, что показали эти документы, — разительное отличие принципов работы алгоритмов и заявлений компании, которые она делала на протяжении многих лет. Благодаря описанию поискового API можно понять, как в целом функционирует вся поисковая система.

Утечка раскрывает сбор и использование данных Google, алгоритмы ранжирования, предпочтения, которые поисковик отдает сайтам на такие спорные темы, как выборы, работу с небольшими сайтами и многое другое. Тем не менее остается неясным, какие именно детали используются для ранжирования поискового контента. Кроме того, информация может быть устаревшей или собранной в образовательных целях.

В документах содержатся технические детали, какие именно данные с веб-страниц и сайтов собирает Google, как обрабатывает запросы по политически чувствительным темам, какие сигналы используют для анализа небольших сайтов и многое другое. Например:

  • В документе упоминается использование данных из браузера Google Chrome для анализа и ранжирования веб-страниц. Ранее компания неоднократно отрицала, что данные браузера каким-либо образом влияют на рейтинг сайтов в поиске.
  • В утечке сказано, что Google активно отслеживает атрибуты авторства контента на страницах, что может влиять на рейтинг EEAT (Expertise, Authoritativeness, Trustworthiness)& Ранее представители Google заявляли, что EEAT не является факторо ранжирования.
  • Google периодически формирует белые списки сайтов, которые имеют более высокий рейтинг при выдаче. Эти списки использовали во время выборов в США или во время начала пандемии коронавируса.
  • Компания по непонятным причинам специально помечает «небольшие личные сайты». У поисковика есть специальный флаг, который присваивается этим ресурсам. Неясно, каким образом Google определяет, что такое «маленький» или «личный веб-сайт» и зачем это нужно.
  • Оказалось, что клики пользователей играют большую роль в ранжировании, чем заявлялось ранее. Один из ключевых факторов — это соотношение коротких кликов (быстрых уход с сайта) и длинных кликов.
  • Доменные имена с точным соответствием запросу могут негативно сказываться на позиции в поиске: Google фактически рассматривает такие сайты как потенциальный спам. Ранее считалось, что поисковик вознаграждает доменные имена с точным соответствием.
  • Скорее всего, «песочница» существует: в документе фигурирует атрибут «hostAge», который используется для ограничения свежих доменов при отображении результатов поиска.

Фишкин в своем анализе описывает работу системы под названием NavBoost, которая собирает данные о кликах через браузер Chrome. Об этой системе ранее говорил во время слушаний по делу Министерства юстиции США вице-президент по поиску Google Панду Наяк. К примеру, Google использует историю файлов cookie, данные входа в Chrome и обнаружение шаблонов в качестве эффективных средств борьбы со спамом.

NavBoost анализирует данные о кликах по геозонам с учетом уровня региона, а также использование мобильных устройств по сравнению с ПК. Если у Google нет данных для определенных регионов или пользователей, они могут применить универсальные правила к результатам запроса.

Кошки на луне и клей для пиццы: Google вручную удаляет странные ответы своего ИИ-поисковика
Кошки на луне и клей для пиццы: Google вручную удаляет странные ответы своего ИИ-поисковика
По теме
Кошки на луне и клей для пиццы: Google вручную удаляет странные ответы своего ИИ-поисковика

Эксперты сходятся во мнении, что скрытность Google способствовала разрастанию индустрии SEO, которая во многом построена на догадках и теориях. По мнению Фишкина, не стоит принимать на веру все, что заявляет Google, а утечка должна стать поводом для более пристального анализа реальной работы поискового алгоритма компании.

Google, как правило, соблюдает большую секретность в отношении того, как работает его поисковый алгоритм, но эти документы — наряду с недавними показаниями по антимонопольному делу Министерства юстиции США — предоставили больше ясности относительно того, на какие сигналы обращает внимание компания при ранжировании сайтов.

Конференция Google I/O 2024: главное
Конференция Google I/O 2024: главное
По теме
Конференция Google I/O 2024: главное
Конференция Microsoft Build 2024: главное
Конференция Microsoft Build 2024: главное
По теме
Конференция Microsoft Build 2024: главное
ЕС до сих пор не знает что делать с обработкой личных данных в ChatGPT
ЕС до сих пор не знает, что делать с обработкой личных данных в ChatGPT
По теме
ЕС до сих пор не знает, что делать с обработкой личных данных в ChatGPT
Поддержите редакцию 1,5% налога: бесплатно и за 5 минут

Как помочь, если вы в Польше

Читайте также
У разрабов Google появилась кодинг-иерархия: элита на Claude, остальные на Gemini — Business Insider
У разрабов Google появилась кодинг-иерархия: элита на Claude, остальные на Gemini — Business Insider
У разрабов Google появилась кодинг-иерархия: элита на Claude, остальные на Gemini — Business Insider
Бывший инженер Google заявил, что компания отстаёт по внедрению ИИ. Она публично огрызнулась
Бывший инженер Google заявил, что компания отстаёт по внедрению ИИ. Она публично огрызнулась
Бывший инженер Google заявил, что компания отстаёт по внедрению ИИ. Она публично огрызнулась
Техдир Meta говорил, что ИИ убьёт приложения. Но в магазинах Apple и Google взрыв релизов
Техдир Meta говорил, что ИИ убьёт приложения. Но в магазинах Apple и Google взрыв релизов
Техдир Meta говорил, что ИИ убьёт приложения. Но в магазинах Apple и Google взрыв релизов
Google собирает «спецназ»: Брин требует догнать Anthropic разработке ИИ-агентов для кодинга
Google собирает «спецназ»: Брин требует догнать Anthropic разработке ИИ-агентов для кодинга
Google собирает «спецназ»: Брин требует догнать Anthropic разработке ИИ-агентов для кодинга

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

0

Утечка раскрывает сбор и использование данных Google, алгоритмы ранжирования, предпочтения, которые поисковик отдает сайтам на такие спорные темы, как выборы, работу с небольшими сайтами и многое другое. Тем не менее остается неясным, какие именно детали используются для ранжирования поискового контента. Кроме того, информация может быть устаревшей или собранной в образовательных целях.

И опять без ссылок. Одна бабка где-то сказала и весь базар начал разносить. Что-то где-то утекло, мы не знаем что, у нас нету ссылок, но это огромнейшая утечка, баба зина не "урот".