GitHub сегодня объявил об открытии доступа к данным 2,8 млн репозиториев с открытым исходным кодом, предоставляя таким образом возможность для их анализа с помощью облачного сервиса Google BigQuery, пишет VentureBeat.
Сервис BigQuery позволяет бесплатно обрабатывать до 1 терабайта данных каждый месяц.
Новый набор данных включает в себя информацию о «более 145 млн уникальных коммитов, более 2 млрд различных путей к файлам, а также содержимое последней ревизии на 163 млн файлов, все из которых будут доступны для поиска с помощью обычных выражений», — написал в блоге представитель GitHub Арфон Смит, собрав некоторые стартовые запросы.
Представитель Google Фелипе Хоффа в своём посте на Medium дал несколько советов для работы с наборами данных.
Этот набор данных может быть полезным для желающих получить представление о тенденциях в области использования ПО с открытым исходным кодом. Конечно, GitHub с его более чем 15 млн пользователей — далеко не единственное место в интернете, где выкладывают ПО с открытым исходным кодом, но, пожалуй, самое популярное.
Сегодняшний шаг, отмечает издание, фактически сводится к расширению архива GitHub, впервые представленного в 2012 году инженером Google Ильёй Григориком.
GitHub обещает обновлять набор данных каждую неделю.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.