Что вы хотели узнать о поисковом алгоритме Google: детали громадной утечки
Беспрецедентная утечка документов об алгоритме Google взбудоражила специалистов по поисковой оптимизации. Многие догадки подтвердились, а компания была вынуждена признать подлинность утечки. Но верить всему не стоит.
Поисковый алгоритм Google — это «священный Грааль» интернета: все строят догадки, из чего он состоит, но никто толком не знает принципы его работы. Недавно возникшая утечка «Content API Warehouse» состоит из 2500 внутренних документов. Она включала информацию о том, какие данные собирают алгоритмы поисковика. В течение нескольких дней Google не комментировала документы и все-таки подтвердила их подлинность.
«Мы предостерегает от неверных предположений о поиске, основанных на внеконтекстной, устаревшей или неполной информации. Мы предоставляем обширную информацию о том, как работает поиск и какие факторы учитывают наши системы. Мы также работаем над тем, чтобы защитить целостность наших результатов от манипуляций», — заявил представитель компании Дэвис Томпсон.
О существовании утекших документов впервые сообщили эксперты по поисковой оптимизации (SEO) Рэнд Фишкин и Майк Кинг, каждый из которых опубликовал первоначальных анализ утечки. Фишкин заявил, что документы ему передал анонимный источник, у которого был доступ к файлам отдела поиска Google. Позднее была раскрыта его личность — это SEO-специалист и основатель EA Eagle Digital Эрфан Азими (Erfan Azimi).
По словам аналитиков, утечке дает беспрецедентный взгляд на работу поисковика. Главное, что показали эти документы, — разительное отличие принципов работы алгоритмов и заявлений компании, которые она делала на протяжении многих лет. Благодаря описанию поискового API можно понять, как в целом функционирует вся поисковая система.
Утечка раскрывает сбор и использование данных Google, алгоритмы ранжирования, предпочтения, которые поисковик отдает сайтам на такие спорные темы, как выборы, работу с небольшими сайтами и многое другое. Тем не менее остается неясным, какие именно детали используются для ранжирования поискового контента. Кроме того, информация может быть устаревшей или собранной в образовательных целях.
В документах содержатся технические детали, какие именно данные с веб-страниц и сайтов собирает Google, как обрабатывает запросы по политически чувствительным темам, какие сигналы используют для анализа небольших сайтов и многое другое. Например:
- В документе упоминается использование данных из браузера Google Chrome для анализа и ранжирования веб-страниц. Ранее компания неоднократно отрицала, что данные браузера каким-либо образом влияют на рейтинг сайтов в поиске.
- В утечке сказано, что Google активно отслеживает атрибуты авторства контента на страницах, что может влиять на рейтинг EEAT (Expertise, Authoritativeness, Trustworthiness)& Ранее представители Google заявляли, что EEAT не является факторо ранжирования.
- Google периодически формирует белые списки сайтов, которые имеют более высокий рейтинг при выдаче. Эти списки использовали во время выборов в США или во время начала пандемии коронавируса.
- Компания по непонятным причинам специально помечает «небольшие личные сайты». У поисковика есть специальный флаг, который присваивается этим ресурсам. Неясно, каким образом Google определяет, что такое «маленький» или «личный веб-сайт» и зачем это нужно.
- Оказалось, что клики пользователей играют большую роль в ранжировании, чем заявлялось ранее. Один из ключевых факторов — это соотношение коротких кликов (быстрых уход с сайта) и длинных кликов.
- Доменные имена с точным соответствием запросу могут негативно сказываться на позиции в поиске: Google фактически рассматривает такие сайты как потенциальный спам. Ранее считалось, что поисковик вознаграждает доменные имена с точным соответствием.
- Скорее всего, «песочница» существует: в документе фигурирует атрибут «hostAge», который используется для ограничения свежих доменов при отображении результатов поиска.
Фишкин в своем анализе описывает работу системы под названием NavBoost, которая собирает данные о кликах через браузер Chrome. Об этой системе ранее говорил во время слушаний по делу Министерства юстиции США вице-президент по поиску Google Панду Наяк. К примеру, Google использует историю файлов cookie, данные входа в Chrome и обнаружение шаблонов в качестве эффективных средств борьбы со спамом.
NavBoost анализирует данные о кликах по геозонам с учетом уровня региона, а также использование мобильных устройств по сравнению с ПК. Если у Google нет данных для определенных регионов или пользователей, они могут применить универсальные правила к результатам запроса.
Эксперты сходятся во мнении, что скрытность Google способствовала разрастанию индустрии SEO, которая во многом построена на догадках и теориях. По мнению Фишкина, не стоит принимать на веру все, что заявляет Google, а утечка должна стать поводом для более пристального анализа реальной работы поискового алгоритма компании.
Google, как правило, соблюдает большую секретность в отношении того, как работает его поисковый алгоритм, но эти документы — наряду с недавними показаниями по антимонопольному делу Министерства юстиции США — предоставили больше ясности относительно того, на какие сигналы обращает внимание компания при ранжировании сайтов.
Читать на dev.by