Support us

Что вы хотели узнать о поисковом алгоритме Google: детали громадной утечки

Беспрецедентная утечка документов об алгоритме Google взбудоражила специалистов по поисковой оптимизации. Многие догадки подтвердились, а компания была вынуждена признать подлинность утечки. Но верить всему не стоит.

1 комментарий
Что вы хотели узнать о поисковом алгоритме Google: детали громадной утечки

Беспрецедентная утечка документов об алгоритме Google взбудоражила специалистов по поисковой оптимизации. Многие догадки подтвердились, а компания была вынуждена признать подлинность утечки. Но верить всему не стоит.

Поисковый алгоритм Google — это «священный Грааль» интернета: все строят догадки, из чего он состоит, но никто толком не знает принципы его работы. Недавно возникшая утечка «Content API Warehouse» состоит из 2500 внутренних документов. Она включала информацию о том, какие данные собирают алгоритмы поисковика. В течение нескольких дней Google не комментировала документы и все-таки подтвердила их подлинность.

«Мы предостерегает от неверных предположений о поиске, основанных на внеконтекстной, устаревшей или неполной информации. Мы предоставляем обширную информацию о том, как работает поиск и какие факторы учитывают наши системы. Мы также работаем над тем, чтобы защитить целостность наших результатов от манипуляций», — заявил представитель компании Дэвис Томпсон.

Скриншот документов Google из утечки с описанием атрибутов. Источник: Rand Fishkin.

О существовании утекших документов впервые сообщили эксперты по поисковой оптимизации (SEO) Рэнд Фишкин и Майк Кинг, каждый из которых опубликовал первоначальных анализ утечки. Фишкин заявил, что документы ему передал анонимный источник, у которого был доступ к файлам отдела поиска Google. Позднее была раскрыта его личность — это SEO-специалист и основатель EA Eagle Digital Эрфан Азими (Erfan Azimi).

По словам аналитиков, утечке дает беспрецедентный взгляд на работу поисковика. Главное, что показали эти документы, — разительное отличие принципов работы алгоритмов и заявлений компании, которые она делала на протяжении многих лет. Благодаря описанию поискового API можно понять, как в целом функционирует вся поисковая система.

Утечка раскрывает сбор и использование данных Google, алгоритмы ранжирования, предпочтения, которые поисковик отдает сайтам на такие спорные темы, как выборы, работу с небольшими сайтами и многое другое. Тем не менее остается неясным, какие именно детали используются для ранжирования поискового контента. Кроме того, информация может быть устаревшей или собранной в образовательных целях.

В документах содержатся технические детали, какие именно данные с веб-страниц и сайтов собирает Google, как обрабатывает запросы по политически чувствительным темам, какие сигналы используют для анализа небольших сайтов и многое другое. Например:

  • В документе упоминается использование данных из браузера Google Chrome для анализа и ранжирования веб-страниц. Ранее компания неоднократно отрицала, что данные браузера каким-либо образом влияют на рейтинг сайтов в поиске.
  • В утечке сказано, что Google активно отслеживает атрибуты авторства контента на страницах, что может влиять на рейтинг EEAT (Expertise, Authoritativeness, Trustworthiness)& Ранее представители Google заявляли, что EEAT не является факторо ранжирования.
  • Google периодически формирует белые списки сайтов, которые имеют более высокий рейтинг при выдаче. Эти списки использовали во время выборов в США или во время начала пандемии коронавируса.
  • Компания по непонятным причинам специально помечает «небольшие личные сайты». У поисковика есть специальный флаг, который присваивается этим ресурсам. Неясно, каким образом Google определяет, что такое «маленький» или «личный веб-сайт» и зачем это нужно.
  • Оказалось, что клики пользователей играют большую роль в ранжировании, чем заявлялось ранее. Один из ключевых факторов — это соотношение коротких кликов (быстрых уход с сайта) и длинных кликов.
  • Доменные имена с точным соответствием запросу могут негативно сказываться на позиции в поиске: Google фактически рассматривает такие сайты как потенциальный спам. Ранее считалось, что поисковик вознаграждает доменные имена с точным соответствием.
  • Скорее всего, «песочница» существует: в документе фигурирует атрибут «hostAge», который используется для ограничения свежих доменов при отображении результатов поиска.

Фишкин в своем анализе описывает работу системы под названием NavBoost, которая собирает данные о кликах через браузер Chrome. Об этой системе ранее говорил во время слушаний по делу Министерства юстиции США вице-президент по поиску Google Панду Наяк. К примеру, Google использует историю файлов cookie, данные входа в Chrome и обнаружение шаблонов в качестве эффективных средств борьбы со спамом.

NavBoost анализирует данные о кликах по геозонам с учетом уровня региона, а также использование мобильных устройств по сравнению с ПК. Если у Google нет данных для определенных регионов или пользователей, они могут применить универсальные правила к результатам запроса.

Кошки на луне и клей для пиццы: Google вручную удаляет странные ответы своего ИИ-поисковика
Кошки на луне и клей для пиццы: Google вручную удаляет странные ответы своего ИИ-поисковика
По теме
Кошки на луне и клей для пиццы: Google вручную удаляет странные ответы своего ИИ-поисковика

Эксперты сходятся во мнении, что скрытность Google способствовала разрастанию индустрии SEO, которая во многом построена на догадках и теориях. По мнению Фишкина, не стоит принимать на веру все, что заявляет Google, а утечка должна стать поводом для более пристального анализа реальной работы поискового алгоритма компании.

Google, как правило, соблюдает большую секретность в отношении того, как работает его поисковый алгоритм, но эти документы — наряду с недавними показаниями по антимонопольному делу Министерства юстиции США — предоставили больше ясности относительно того, на какие сигналы обращает внимание компания при ранжировании сайтов.

Конференция Google I/O 2024: главное
Конференция Google I/O 2024: главное
По теме
Конференция Google I/O 2024: главное
Конференция Microsoft Build 2024: главное
Конференция Microsoft Build 2024: главное
По теме
Конференция Microsoft Build 2024: главное
ЕС до сих пор не знает что делать с обработкой личных данных в ChatGPT
ЕС до сих пор не знает, что делать с обработкой личных данных в ChatGPT
По теме
ЕС до сих пор не знает, что делать с обработкой личных данных в ChatGPT
16 лет dev.by — «дефолтный» источник информации о беларусском ИТ

Вы можете...

Читайте также
10+ сертификаций Coursera, которые могут изменить вашу карьеру
10+ сертификаций Coursera, которые могут изменить вашу карьеру
10+ сертификаций Coursera, которые могут изменить вашу карьеру
Бюджетный способ прокачать навыки и повысить зарплату — это профессиональный сертификат от Google, IBM или крупного зарубежного университета. На Coursera как раз можно найти десятки полезных обучающих программ по машинному обучению, проджект-менеджменту и не только. Собрали 10+ сертификаций, которые будут выигрышно смотреться в резюме как новичка, так и опытного специалиста.
Дизайн, VR и интернет вещей: 10 доступных онлайн-курсов от Google, Amazon и других гигантов
Дизайн, VR и интернет вещей: 10 доступных онлайн-курсов от Google, Amazon и других гигантов
Дизайн, VR и интернет вещей: 10 доступных онлайн-курсов от Google, Amazon и других гигантов
На платформе Coursera можно найти сотни курсов от крупных корпораций, включая Google, Amazon и HubSpot. Это отличная возможность начать новую карьеру, повысить квалификацию и просто получить плюс в профессиональную карму. Мы собрали 10 программ от ИТ-компаний, которые помогут освоить машинное обучение, UX-дизайн, продакт-менеджмент, кибербезопасность и многое другое.
Google урезает бюджеты, СЕО намекает на сокращения
Google урезает бюджеты, СЕО намекает на сокращения
Google урезает бюджеты, СЕО намекает на сокращения
1 комментарий
Производительность должна измеряться в IT не так, как у других. Наглядный кейс — Google
Производительность должна измеряться в IT не так, как у других. Наглядный кейс — Google
Bubble
Производительность должна измеряться в IT не так, как у других. Наглядный кейс — Google

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

0

Утечка раскрывает сбор и использование данных Google, алгоритмы ранжирования, предпочтения, которые поисковик отдает сайтам на такие спорные темы, как выборы, работу с небольшими сайтами и многое другое. Тем не менее остается неясным, какие именно детали используются для ранжирования поискового контента. Кроме того, информация может быть устаревшей или собранной в образовательных целях.

И опять без ссылок. Одна бабка где-то сказала и весь базар начал разносить. Что-то где-то утекло, мы не знаем что, у нас нету ссылок, но это огромнейшая утечка, баба зина не "урот".