Николай Чикишев 31 мая 2024, 14:10

Что вы хотели узнать о поисковом алгоритме Google: детали громадной утечки

Беспрецедентная утечка документов об алгоритме Google взбудоражила специалистов по поисковой оптимизации. Многие догадки подтвердились, а компания была вынуждена признать подлинность утечки. Но верить всему не стоит.

1 комментарий

Поисковый алгоритм Google — это «священный Грааль» интернета: все строят догадки, из чего он состоит, но никто толком не знает принципы его работы. Недавно возникшая утечка «Content API Warehouse» состоит из 2500 внутренних документов. Она включала информацию о том, какие данные собирают алгоритмы поисковика. В течение нескольких дней Google не комментировала документы и все-таки подтвердила их подлинность.

«Мы предостерегает от неверных предположений о поиске, основанных на внеконтекстной, устаревшей или неполной информации. Мы предоставляем обширную информацию о том, как работает поиск и какие факторы учитывают наши системы. Мы также работаем над тем, чтобы защитить целостность наших результатов от манипуляций», — заявил представитель компании Дэвис Томпсон.

Скриншот документов Google из утечки с описанием атрибутов. Источник: Rand Fishkin.

О существовании утекших документов впервые сообщили эксперты по поисковой оптимизации (SEO) Рэнд Фишкин и Майк Кинг, каждый из которых опубликовал первоначальных анализ утечки. Фишкин заявил, что документы ему передал анонимный источник, у которого был доступ к файлам отдела поиска Google. Позднее была раскрыта его личность — это SEO-специалист и основатель EA Eagle Digital Эрфан Азими (Erfan Azimi).

По словам аналитиков, утечке дает беспрецедентный взгляд на работу поисковика. Главное, что показали эти документы, — разительное отличие принципов работы алгоритмов и заявлений компании, которые она делала на протяжении многих лет. Благодаря описанию поискового API можно понять, как в целом функционирует вся поисковая система.

Утечка раскрывает сбор и использование данных Google, алгоритмы ранжирования, предпочтения, которые поисковик отдает сайтам на такие спорные темы, как выборы, работу с небольшими сайтами и многое другое. Тем не менее остается неясным, какие именно детали используются для ранжирования поискового контента. Кроме того, информация может быть устаревшей или собранной в образовательных целях.

В документах содержатся технические детали, какие именно данные с веб-страниц и сайтов собирает Google, как обрабатывает запросы по политически чувствительным темам, какие сигналы используют для анализа небольших сайтов и многое другое. Например:

В документе упоминается использование данных из браузера Google Chrome для анализа и ранжирования веб-страниц. Ранее компания неоднократно отрицала, что данные браузера каким-либо образом влияют на рейтинг сайтов в поиске.
В утечке сказано, что Google активно отслеживает атрибуты авторства контента на страницах, что может влиять на рейтинг EEAT (Expertise, Authoritativeness, Trustworthiness)& Ранее представители Google заявляли, что EEAT не является факторо ранжирования.
Google периодически формирует белые списки сайтов, которые имеют более высокий рейтинг при выдаче. Эти списки использовали во время выборов в США или во время начала пандемии коронавируса.
Компания по непонятным причинам специально помечает «небольшие личные сайты». У поисковика есть специальный флаг, который присваивается этим ресурсам. Неясно, каким образом Google определяет, что такое «маленький» или «личный веб-сайт» и зачем это нужно.
Оказалось, что клики пользователей играют большую роль в ранжировании, чем заявлялось ранее. Один из ключевых факторов — это соотношение коротких кликов (быстрых уход с сайта) и длинных кликов.
Доменные имена с точным соответствием запросу могут негативно сказываться на позиции в поиске: Google фактически рассматривает такие сайты как потенциальный спам. Ранее считалось, что поисковик вознаграждает доменные имена с точным соответствием.
Скорее всего, «песочница» существует: в документе фигурирует атрибут «hostAge», который используется для ограничения свежих доменов при отображении результатов поиска.

Фишкин в своем анализе описывает работу системы под названием NavBoost, которая собирает данные о кликах через браузер Chrome. Об этой системе ранее говорил во время слушаний по делу Министерства юстиции США вице-президент по поиску Google Панду Наяк. К примеру, Google использует историю файлов cookie, данные входа в Chrome и обнаружение шаблонов в качестве эффективных средств борьбы со спамом.

NavBoost анализирует данные о кликах по геозонам с учетом уровня региона, а также использование мобильных устройств по сравнению с ПК. Если у Google нет данных для определенных регионов или пользователей, они могут применить универсальные правила к результатам запроса.

Кошки на луне и клей для пиццы: Google вручную удаляет странные ответы своего ИИ-поисковика

По теме

Кошки на луне и клей для пиццы: Google вручную удаляет странные ответы своего ИИ-поисковика

Эксперты сходятся во мнении, что скрытность Google способствовала разрастанию индустрии SEO, которая во многом построена на догадках и теориях. По мнению Фишкина, не стоит принимать на веру все, что заявляет Google, а утечка должна стать поводом для более пристального анализа реальной работы поискового алгоритма компании.

Google, как правило, соблюдает большую секретность в отношении того, как работает его поисковый алгоритм, но эти документы — наряду с недавними показаниями по антимонопольному делу Министерства юстиции США — предоставили больше ясности относительно того, на какие сигналы обращает внимание компания при ранжировании сайтов.

Конференция Google I/O 2024: главное

По теме

Конференция Google I/O 2024: главное

Конференция Microsoft Build 2024: главное

По теме

Конференция Microsoft Build 2024: главное

ЕС до сих пор не знает, что делать с обработкой личных данных в ChatGPT

По теме

ЕС до сих пор не знает, что делать с обработкой личных данных в ChatGPT

Читать на dev.by