Google опубликовала под лицензией Apache 2.0 код С++ библиотеки для разбора файлов robots.txt, содержащих правила (REP, Robots Exclusion Protocol) для исключения контента из области индексации ботами поисковых систем, сообщает OpenNet.
Также Google выступила с инициативой продвижения протокола REP в качестве официального интернет-стандарта после 25 лет его существования в роли стандарта де-факто.
Библиотека развивается уже около 20 лет, соответствует стандарту C++11 и учитывает различные нюансы оформления, встречающиеся в обиходе. Вместе с библиотекой также предложен код утилиты для проверки правильности определения правил в robots.txt. Представленный код используется в рабочих системах Google, выполняющих обработку robots.txt.
Исходный код библиотеки доступен на GitHub.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.