Дапамажыце dev.by 🤍
Падтрымаць

«Цяпер нам вельмі сорамна»: што ўжо вядома з уцечкі кода «Яндэкса»

Маштабная ўцечка зыходнага кода сэрвісаў «Яндэкса» нарабіла багата шуму ў індустрыі. Эксперты і аналітыкі публікуюць новыя дэталі, якія дазваляюць зразумець, як уладкаваны найбуйнейшы расійскі пашукавік і праца сэрвісаў кампаніі. Напрыклад, ужо стала зразумела, як адбываецца цэнзура пошукавай выдачы. Разбіраемся, што вядома пра ўцечку на гэты момант.

5 каментарыяў
«Цяпер нам вельмі сорамна»: што ўжо вядома з уцечкі кода «Яндэкса»

Маштабная ўцечка зыходнага кода сэрвісаў «Яндэкса» нарабіла багата шуму ў індустрыі. Эксперты і аналітыкі публікуюць новыя дэталі, якія дазваляюць зразумець, як уладкаваны найбуйнейшы расійскі пашукавік і праца сэрвісаў кампаніі. Напрыклад, ужо стала зразумела, як адбываецца цэнзура пошукавай выдачы. Разбіраемся, што вядома пра ўцечку на гэты момант.

Карыстальнікі знайшлі ў сеціве амаль 45 Гб зыходнага кода з унутранага рэпазіторыя буйных сэрвісаў «Яндэкса», у тым ліку Search Engine and Indexing Bot, «Карты», «Таксі», «Дырэкт», «Пошта», «Дыск», «Маркет», «Падарожжы», «Яндэкс360», Yandex Cloud, плацежны сэрвіс Yandex Pay і пошук. Адным з першых звярнуў на гэта ўвагу карыстальнік Twitter Dmitry Balakov, затым з’явіўся пост пра ўцечку. Механізм уцечкі дакладна невядомы, аднак крыніцы сцвярджаюць, што гэта здарылася не па віне хакераў, а праз дзеянні супрацоўнікаў кампаніі.

Крыніца: Dmitry Balakov.

У архіве на ўсіх файлах выстаўленая дата апошняй мадыфікацыі — 24.02.2022, але з ускосных прыкмет можна зразумець, што самыя познія змены былі ўнесеныя пры канцы ліпеня 2022 года. Сам аўтар публікацыі з архівам сцвярджае, што атрымаў да яго доступ у ліпені 2022 года. Адразу паўстала пытанне, якая частка кода апынулася ў адкрытым доступе. Першапачаткова ў кампаніі заявілі пра «фрагменты кода». Аднак, на думку тэхнічнага дырэктара Hack The Publisher Арсенія Шастакова, гаворка вядзецца пра значную частку сервернага кода сэрвісаў кампаніі.

«Яндэкс» абвясціў пра першыя вынікі расследавання ўцечкі. Кампанія пацвердзіла, што апублікаваны код сапраўды быў узяты з унутранага рэпазіторыя. «Яндэкс» сцвярджае, што выцекла састарэлая версія і бяспецы карыстальнікаў інцыдэнт не пагражае. Аднак пасля ўцечкі правялі маштабны аўдыт усяго змесціва рэпазіторыя і знайшлі некалькі сур’ёзных парушэнняў.

Крыніца: Arseniy Shestakov.

Напрыклад, у кодзе ўтрымліваюцца даныя некаторых партнёраў (кіроўцаў). Некаторыя часткі кода ўтрымлівалі словы, якія ніяк не ўплывалі на працу сэрвісаў, але былі самі сабою абразлівыя для людзей розных рас і нацыянальнасцей. Часам логіку працы сэрвісаў карэктавалі не алгарытмічным спосабам, а мыліцамі. Праз такія мыліцы выпраўлялі асобныя памылкі сістэмы рэкамендацый і рэгулявалі налады пошуку па выявах і відэа.

Што яшчэ вядома з уцечкі кода:

  • Код «Яндэкс Крамы» дазваляў уручную наладжваць рэкамендацыі любых тавараў — без пазнакі пра тое, што гэта рэклама.
  • Фрагменты з сэрвісаў «Ежа» і «Таксі» паказалі, што некаторыя групы карыстальнікаў атрымлівалі «прыярытэтную падтрымку».
  • Мікрафон калонкі «Аліса» можа ўключацца «без папытання» і незаўважна для карыстальніка. У бэта-версіі ёсць налада, якая ўключае мікрафон прылады на некалькі секунд у выпадковы момант. «Яндэкс» сцвярджае, што гэты тэставы алгарытм выкарыстоўваўся толькі ўнутры кампаніі для праверкі карэктнасці працы сэрвісаў.
  • Карыстальнік @bantg заўважыў, што пошук фота і відэа быў скарэктаваны, каб выявы Пуціна і сімвалы Z не з’яўляліся ў непрыемных кантэкстах. На фота расійскага прэзідэнта нельга натрапіць па запытах «пляшывы», «галоўны злодзей» або «бункерны дзед». Гэтыя правілы павінныя прымяняцца незалежна ад таго, у якой краіне знаходзіцца карыстальнік.
  • Пры запыце «сімвал Z» або «z спецаперацыя лагатып» карыстальнік не павінны быў убачыць нацысцкую сімволіку. У выпадку з Пуціным праграма мае блакаваць выявы прэзідэнта. У выпадку з Z праграме даводзіцца шукаць «забароненыя» сімвалы, што зрабіць складаней.
  • Цяпер у пошуку атрымліваецца знайсці выявы Пуціна паводле ўсіх запытаў, таксама пры запыце Z сустракаецца свастыка. Невядома, калі з’явіліся гэтыя правілы і ці дзейнічаюць дагэтуль: ці звязана гэта з тым, што фільтр ужо выключаны, ці проста дрэнна працуе.
  • Ва ўцечцы можна знайсці спісы забароненых і дазволеных слоў для выкарыстання ў капчы. Напрыклад, ёсць словы «піндосы!», «смерць», «смерцю», «google», «львоў» і «здацца». Яны не адсартаваныя паводле алфавіта, хутчэй за ўсё, асобныя новыя забароненыя словы або спісы запісвалі ў канец файла.
Крыніца: Meduza.

Search Engine Land паведамляе, што ў сеціве можна знайсці спіс з 1922 фактараў ранжыравання пашукавіка «Яндэкса». Сярод тых, што ўлічваюцца пры пошукавай выдачы алгарытмаў, ёсць «вага» старонкі PageRank з улікам спасылак на яе, узрост спасылак, рэлевантнасць тэксту, свежасць кантэнту, надзейнасць хоста, колькасць унікальных наведвальнікаў і адсотак «арганічнага трафіку».

Крыніца: Meduza.

244 фактары маркіраваныя як невыкарыстоўваныя, 988 — як састарэлыя. Гэта азначае, што 64% фактараў альбо не прымяняюцца, альбо замененыя іншымі. Паводле слоў эксперта Майкла Кінга, насамрэч фактараў нашмат больш — 17 854, кожны з якіх дадае альбо станоўчую, альбо адмоўную «вагу» рэсурсу. Уцечка дазваляе лепш зразумець, як працуе не толькі пашукавік «Яндэкса», а пошукавыя сістэмы наогул.

Кампанія папрасіла прабачэння за ўцечку і памылкі перад карыстальнікамі, а таксама паабяцала аднавіць працу па фармаванні стандартаў і прынцыпаў тэхнаэтыкі. «Яны будуць апублікаваныя на сайце кампаніі і стануць часткай нашых агульных палітык. Усе фрагменты кода, якія ім супярэчаць, будуць выпраўленыя», — сказана ў паведамленні. Акрамя таго, «Яндэкс» створыць новую службу, якая будзе адказваць за адпаведнасць кода прынцыпам і палітыкам кампаніі. Даныя з рэпазіторыя атрымаюць дадатковую абарону.

Са звароту «Яндэкса»:

«[Адное з нашых правілаў] абвяшчае: „Нашая праца будуецца на прынцыпах сумленнасці і празрыстасці. Мы зыходзім з таго, што любы ўнутраны дыялог, дакумент або код пры пэўных абставінах можа стаць публічным. І калі гэта здарыцца, нам не павінна быць сорамна“. Цяпер нам вельмі сорамна».

Для кампаніі гэта ў першую чаргу рэпутацыйны ўдар, паколькі год таму ўжо адбывалася маштабная ўцечка карыстальніцкіх даных сэрвісу «Яндэкс.Ежа», якая адбылася па віне супрацоўніка кампаніі. Усяго за мінулы год выцеклі даныя 75% усіх расійскіх карыстальнікаў, перадае DLBI. У сеціва трапіла 99,8 мільёна ўнікальных адрасоў электроннай пошты і 109,7 мільёна ўнікальных нумароў тэлефонаў.

Уцечка зыходнага кода не нясе беспасярэдняй пагрозы карыстальніцкім даным, але доступ да зыходнікаў можа спрасціць атакі на інфраструктуру кампаніі. Акрамя таго, эксперты чакаюць большай колькасці фішынгавых нападаў, калі злачынцы выдаюць свае сайты за сайты «Яндэкса». Скампраметаванымі выявіліся і патэнты, распрацоўкі і тэхналогіі кампаніі.

Ва ўцечцы могуць знайсціся і некаторыя інструменты бяспекі, напрыклад, плагіны для пэнтэсцераўскіх утыліт, якія кампанія стварае сама. Зламыснікі могуць з дапамогай гэтых плагінаў правесці атакі. «У кодзе, хутчэй за ўсё, ёсць лагіны і паролі, якія „Яндэкс“, калі гэта праўда, цяпер спрабуе экстранна закрыць, але калі зламыснікі змогуць іх знайсці, то змогуць іх таксама зліць, скрасці, зашыфраваць і замацавацца ў сістэме», — адзначае крыніца Forbes.

Сузаснавальнік «Яндэкса» развітаўся з супрацоўнікамі кампаніі
Сузаснавальнік «Яндэкса» развітаўся з супрацоўнікамі кампаніі
Па тэме
Сузаснавальнік «Яндэкса» развітаўся з супрацоўнікамі кампаніі
«Яндэкс.Ежу» прызналі пацярпелай у справе аб уцечцы даных кліентаў
«Яндэкс.Ежу» прызналі пацярпелай у справе аб уцечцы даных кліентаў
Па тэме
«Яндэкс.Ежу» прызналі пацярпелай у справе аб уцечцы даных кліентаў
«Яндэкс» паказаў прасунутую версію пашукавіка
«Яндэкс» паказаў прасунутую версію пашукавіка
Па тэме
«Яндэкс» паказаў прасунутую версію пашукавіка

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

fallinmyhand
fallinmyhand Патриот в Мерси Софтваре
9

Zндекс

bugmenot
bugmenot комментатор в dev.by
6

Микрофон колонки «Алиса» может включаться «без спроса» и незаметно для пользователя

Буду тыкать носом в код каждого "не параноика".

Карыстальнік адрэдагаваў каментарый 31 студзеня 2023, 18:39

1

Вот Яндекс Алиса в небытие и уйдет, в целом, по той же причине почему и Гугл Хоум

slacker
slacker DevOops в dev/null
2

Ну, агента Джона Смита я меньше опасаюсь чем товарища майора

7

Пра якую рэпутацыю наогул можна казаць, калі кампанія ўжо фактычна перайшла пад кіраванне дзяржавы?