Николай Чикишев 31 мая 2024, 14:10

Што вы хацелі даведацца пра пошукавы алгарытм Google: дэталі велічэзнай уцечкі

Беспрэцэдэнтная ўцечка дакументаў пра алгарытм Google узбаламуціла спецыялістаў па пошукавай аптымізацыі. Многія здагадкі пацвердзіліся, а кампанія была вымушаная прызнаць сапраўднасць уцечкі. Але верыць усяму не варта.

1 каментарый

Пошукавы алгарытм Google — гэта «святы Грааль» інтэрнэту: усе робяць здагадкі, з чаго ён складаецца, але ніхто толкам не знае прынцыпаў яго працы. Нядаўна ўзніклая ўцечка «Content API Warehouse» складаецца з 2500 унутраных дакументаў. Яна ўключала інфармацыю пра тое, якія даныя збіраюць алгарытмы пашукавіка. Цягам некалькіх дзён Google не каментавала дакументаў і ўсё ж пацвердзіла іх сапраўднасць.

«Мы перасцерагае ад няслушных здагадак пра пошук, заснаваных на пазакантэкснай, састарэлай або няпоўнай інфармацыі. Мы даем шырокую інфармацыю пра тое, як працуе пошук і якія фактары ўлічваюць нашыя сістэмы. Мы таксама працуем над тым, каб абараніць цэласнасць нашых вынікаў ад маніпуляцый», — заявіў прадстаўнік кампаніі Дэвіс Томпсан.

Скрыншот дакументаў Google з уцечкі з апісаннем атрыбутаў. Крыніца: Rand Fishkin.

Пра існаванне ўцеклых дакументаў упершыню паведамілі эксперты па пошукавай аптымізацыі (SEO) Рэнд Фішкін і Майк Кінг, кожны з якіх апублікаваў першапачатковы аналіз уцечкі. Фішкін заявіў, што дакументы яму перадала ананімная крыніца, у якой быў доступ да файлаў аддзела пошуку Google. Пазней была раскрытая яе асоба — гэта SEO-спецыяліст і заснавальнік EA Eagle Digital Эрфан Азімі (Erfan Azimi).

Паводле слоў аналітыкаў, уцечка дае беспрэцэдэнтны погляд на працу пашукавіка. Галоўнае, што паказалі гэтыя дакументы, — ашаламляльнае адрозненне прынцыпаў працы алгарытмаў і заяў кампаніі, якія яна рабіла на працягу многіх гадоў. Дзякуючы апісанню пошукавага API можна зразумець, як у цэлым функцыянуе ўся пошукавая сістэма.

Уцечка раскрывае збор і выкарыстанне даных Google, алгарытмы ранжыравання, перавагі, якія пашукавік аддае сайтам на такія спрэчныя тэмы, як выбары, працу з невялікімі сайтамі і многае іншае. Тым не менш застаецца незразумелым, якія менавіта дэталі выкарыстоўваюцца для ранжыравання пошукавага кантэнту. Акрамя таго, інфармацыя можа быць састарэлай або сабранай у адукацыйных мэтах.

У дакументах змяшчаюцца тэхнічныя дэталі, якія менавіта даныя з вэб-старонак і сайтаў збірае Google, як апрацоўвае запыты, а палітычна адчувальныя тэмы, якія сігналы выкарыстоўваюць для аналізу невялікіх сайтаў і многае іншае. Напрыклад:

У дакуменце згадваецца выкарыстанне даных з браўзера Google Chrome для аналізу і ранжыравання вэб-старонак. Раней кампанія неаднаразова адмаўляла, што даныя браўзера якім-небудзь чынам уплываюць на рэйтынг сайтаў у пошуку.
Ва ўцечцы сказана, што Google актыўна адсочвае атрыбуты аўтарства кантэнту на старонках, што можа ўплываць на рэйтынг EEAT (Expertise, Authoritativeness, Trustworthiness). Раней прадстаўнікі Google заяўлялі, што EEAT не з’яўляецца фактарам ранжыравання.
Google перыядычна фармуе белыя спісы сайтаў, якія маюць вышэйшы рэйтынг пры выдачы. Гэтыя спісы выкарыстоўвалі падчас выбараў у ЗША або ў часе пачатку пандэміі каранавіруса.
Кампанія з незразумелых прычын спецыяльна пазначае «невялікія асабістыя сайты». У пашукавіка ёсць спецыяльны сцяг, які прысвойваецца гэтым рэсурсам. Незразумела, якім чынам Google вызначае, што такое «маленькі» або «асабісты вэб-сайт» і навошта гэта трэба.
Выявілася, што клікі карыстальнікаў граюць большую ролю ў ранжыраванні, чым заяўлялася раней. Адзін з ключавых фактараў — гэта суадносіны кароткіх клікаў (хуткі сыход з сайта) і доўгіх клікаў.
Даменныя імёны з дакладнай адпаведнасцю запыту могуць негатыўна адбівацца на пазіцыі ў пошуку: Google фактычна разглядае такія сайты як патэнцыйны спам. Раней лічылася, што пашукавік узнагароджвае даменныя імёны з дакладнай адпаведнасцю.
Хутчэй за ўсё, «пясочніца» існуе: у дакуменце фігуруе атрыбут «hostAge», які выкарыстоўваецца для абмежавання свежых даменаў пры адлюстраванні вынікаў пошуку.

Фішкін у сваім аналізе апісвае працу сістэмы пад назвай NavBoost, якая збірае даныя пра клікі праз браўзер Chrome. Пра гэтую сістэму раней казаў у часе слуханняў у справе Міністэрства юстыцыі ЗША віцэ-прэзідэнт па пошуку Google Панду Наяк. Напрыклад, Google выкарыстоўвае гісторыю файлаў cookie, даныя ўваходу ў Chrome і выяўленне шаблонаў у якасці эфектыўных сродкаў барацьбы са спамам.

NavBoost аналізуе даныя пра клікі па геазонах з улікам узроўню рэгіёна, а таксама выкарыстанне мабільных прылад у параўнанні з ПК. Калі Google не мае даных для пэўных рэгіёнаў і карыстальнікаў, яны могуць прымяніць універсальныя правілы да вынікаў запыту.

Каты на Месяцы і клей для піцы: Google уручную выдаляе дзіўныя адказы свайго АІ-пашукавіка

Па тэме

Каты на Месяцы і клей для піцы: Google уручную выдаляе дзіўныя адказы свайго АІ-пашукавіка

Эксперты сыходзяцца ў меркаванні, што скрытнасць Google спрыяла разрастанню індустрыі SEO, якая шмат у чым пабудаваная на здагадках і тэорыях. На думку Фішкіна, не варта прымаць на веру ўсё, што заяўляе Google, а ўцечка мае стаць падставай для больш пільнага аналізу рэальнай працы пошукавага алгарытму кампаніі.

Google, як правіла, захоўвае вялікую сакрэтнасць у дачыненні да таго, як працуе яго пошукавы алгарытм, але гэтыя дакументы — разам з нядаўнімі паказаннямі ў антыманапольнай справе Міністэрства юстыцыі ЗША — далі больш яснасці адносна таго, на якія сігналы звяртае ўвагу кампанія пры ранжыраванні сайтаў.

Канферэнцыя Google I/O 2024: галоўнае

Па тэме

Канферэнцыя Google I/O 2024: галоўнае

Канферэнцыя Microsoft Build 2024: галоўнае

Па тэме

Канферэнцыя Microsoft Build 2024: галоўнае

ЕС дагэтуль не ведае, што рабіць з апрацоўкай асабістых даных у ChatGPT

Па тэме

ЕС дагэтуль не ведае, што рабіць з апрацоўкай асабістых даных у ChatGPT

Читать на dev.by