Што вы хацелі даведацца пра пошукавы алгарытм Google: дэталі велічэзнай уцечкі

Беспрэцэдэнтная ўцечка дакументаў пра алгарытм Google узбаламуціла спецыялістаў па пошукавай аптымізацыі. Многія здагадкі пацвердзіліся, а кампанія была вымушаная прызнаць сапраўднасць уцечкі. Але верыць усяму не варта.

1 каментарый

Пошукавы алгарытм Google — гэта «святы Грааль» інтэрнэту: усе робяць здагадкі, з чаго ён складаецца, але ніхто толкам не знае прынцыпаў яго працы. Нядаўна ўзніклая ўцечка «Content API Warehouse» складаецца з 2500 унутраных дакументаў. Яна ўключала інфармацыю пра тое, якія даныя збіраюць алгарытмы пашукавіка. Цягам некалькіх дзён Google не каментавала дакументаў і ўсё ж пацвердзіла іх сапраўднасць.

«Мы перасцерагае ад няслушных здагадак пра пошук, заснаваных на пазакантэкснай, састарэлай або няпоўнай інфармацыі. Мы даем шырокую інфармацыю пра тое, як працуе пошук і якія фактары ўлічваюць нашыя сістэмы. Мы таксама працуем над тым, каб абараніць цэласнасць нашых вынікаў ад маніпуляцый», — заявіў прадстаўнік кампаніі Дэвіс Томпсан.

Скрыншот дакументаў Google з уцечкі з апісаннем атрыбутаў. Крыніца: Rand Fishkin.

Пра існаванне ўцеклых дакументаў упершыню паведамілі эксперты па пошукавай аптымізацыі (SEO) Рэнд Фішкін і Майк Кінг, кожны з якіх апублікаваў першапачатковы аналіз уцечкі. Фішкін заявіў, што дакументы яму перадала ананімная крыніца, у якой быў доступ да файлаў аддзела пошуку Google. Пазней была раскрытая яе асоба — гэта SEO-спецыяліст і заснавальнік EA Eagle Digital Эрфан Азімі (Erfan Azimi).

Паводле слоў аналітыкаў, уцечка дае беспрэцэдэнтны погляд на працу пашукавіка. Галоўнае, што паказалі гэтыя дакументы, — ашаламляльнае адрозненне прынцыпаў працы алгарытмаў і заяў кампаніі, якія яна рабіла на працягу многіх гадоў. Дзякуючы апісанню пошукавага API можна зразумець, як у цэлым функцыянуе ўся пошукавая сістэма.

Уцечка раскрывае збор і выкарыстанне даных Google, алгарытмы ранжыравання, перавагі, якія пашукавік аддае сайтам на такія спрэчныя тэмы, як выбары, працу з невялікімі сайтамі і многае іншае. Тым не менш застаецца незразумелым, якія менавіта дэталі выкарыстоўваюцца для ранжыравання пошукавага кантэнту. Акрамя таго, інфармацыя можа быць састарэлай або сабранай у адукацыйных мэтах.

У дакументах змяшчаюцца тэхнічныя дэталі, якія менавіта даныя з вэб-старонак і сайтаў збірае Google, як апрацоўвае запыты, а палітычна адчувальныя тэмы, якія сігналы выкарыстоўваюць для аналізу невялікіх сайтаў і многае іншае. Напрыклад:

  • У дакуменце згадваецца выкарыстанне даных з браўзера Google Chrome для аналізу і ранжыравання вэб-старонак. Раней кампанія неаднаразова адмаўляла, што даныя браўзера якім-небудзь чынам уплываюць на рэйтынг сайтаў у пошуку.
  • Ва ўцечцы сказана, што Google актыўна адсочвае атрыбуты аўтарства кантэнту на старонках, што можа ўплываць на рэйтынг EEAT (Expertise, Authoritativeness, Trustworthiness). Раней прадстаўнікі Google заяўлялі, што EEAT не з’яўляецца фактарам ранжыравання.
  • Google перыядычна фармуе белыя спісы сайтаў, якія маюць вышэйшы рэйтынг пры выдачы. Гэтыя спісы выкарыстоўвалі падчас выбараў у ЗША або ў часе пачатку пандэміі каранавіруса.
  • Кампанія з незразумелых прычын спецыяльна пазначае «невялікія асабістыя сайты». У пашукавіка ёсць спецыяльны сцяг, які прысвойваецца гэтым рэсурсам. Незразумела, якім чынам Google вызначае, што такое «маленькі» або «асабісты вэб-сайт» і навошта гэта трэба.
  • Выявілася, што клікі карыстальнікаў граюць большую ролю ў ранжыраванні, чым заяўлялася раней. Адзін з ключавых фактараў — гэта суадносіны кароткіх клікаў (хуткі сыход з сайта) і доўгіх клікаў.
  • Даменныя імёны з дакладнай адпаведнасцю запыту могуць негатыўна адбівацца на пазіцыі ў пошуку: Google фактычна разглядае такія сайты як патэнцыйны спам. Раней лічылася, што пашукавік узнагароджвае даменныя імёны з дакладнай адпаведнасцю.
  • Хутчэй за ўсё, «пясочніца» існуе: у дакуменце фігуруе атрыбут «hostAge», які выкарыстоўваецца для абмежавання свежых даменаў пры адлюстраванні вынікаў пошуку.

Фішкін у сваім аналізе апісвае працу сістэмы пад назвай NavBoost, якая збірае даныя пра клікі праз браўзер Chrome. Пра гэтую сістэму раней казаў у часе слуханняў у справе Міністэрства юстыцыі ЗША віцэ-прэзідэнт па пошуку Google Панду Наяк. Напрыклад, Google выкарыстоўвае гісторыю файлаў cookie, даныя ўваходу ў Chrome і выяўленне шаблонаў у якасці эфектыўных сродкаў барацьбы са спамам.

NavBoost аналізуе даныя пра клікі па геазонах з улікам узроўню рэгіёна, а таксама выкарыстанне мабільных прылад у параўнанні з ПК. Калі Google не мае даных для пэўных рэгіёнаў і карыстальнікаў, яны могуць прымяніць універсальныя правілы да вынікаў запыту.

Каты на Месяцы і клей для піцы: Google уручную выдаляе дзіўныя адказы свайго АІ-пашукавіка
Па тэме
Каты на Месяцы і клей для піцы: Google уручную выдаляе дзіўныя адказы свайго АІ-пашукавіка

Эксперты сыходзяцца ў меркаванні, што скрытнасць Google спрыяла разрастанню індустрыі SEO, якая шмат у чым пабудаваная на здагадках і тэорыях. На думку Фішкіна, не варта прымаць на веру ўсё, што заяўляе Google, а ўцечка мае стаць падставай для больш пільнага аналізу рэальнай працы пошукавага алгарытму кампаніі.

Google, як правіла, захоўвае вялікую сакрэтнасць у дачыненні да таго, як працуе яго пошукавы алгарытм, але гэтыя дакументы — разам з нядаўнімі паказаннямі ў антыманапольнай справе Міністэрства юстыцыі ЗША — далі больш яснасці адносна таго, на якія сігналы звяртае ўвагу кампанія пры ранжыраванні сайтаў.

Канферэнцыя Google I/O 2024: галоўнае
Па тэме
Канферэнцыя Google I/O 2024: галоўнае
Канферэнцыя Microsoft Build 2024: галоўнае
Па тэме
Канферэнцыя Microsoft Build 2024: галоўнае
ЕС дагэтуль не ведае, што рабіць з апрацоўкай асабістых даных у ChatGPT
Па тэме
ЕС дагэтуль не ведае, што рабіць з апрацоўкай асабістых даных у ChatGPT

Читать на dev.by