Дапамажыце dev.by 🤍
Падтрымаць

«Индекс Дежавю». 70% кода на GitHub — копии других проектов

Пакінуць каментарый
«Индекс Дежавю». 70% кода на GitHub — копии других проектов

Совместное исследование специалистов Microsoft, University of California в Irvine и Чешского технического универсистета показало, что более 70 процентов кода на GitHub представляет собой копии и копии копий проектов, зачастую не претерпевшие никакой обработки, сообщает The Register.

Читать далее

Изначально целью восьми исследователей было определение того, как сильно отличается ранее скопированный код при использовании в новых проектах. В ходе работы выяснилось, что огромное количество проектов использует «шокирующее количество копий, сделанных на уровне файлов».

Из 428 млн файлов, изученных в ходе исследования, только 85 млн оказались уникальными. А при проведении проектного анализа выяснили, что от 9 до 31 процента проектов содержит по крайней мере 80 процентов файлов из других проектов. Эта находка побудила исследователей сместить акценты, что привело к созданию публичного индекса дублирования кода («индекс Дежавю»).

Иллюстрация: University of California at Irvine

По оси Y показано количество коммитов в проект, на оси X — количество файлов в проекте. Значение каждого квадрата укзывает на процент скопированных файлов. Чем темнее цвет — тем больше клонов.

В соответствии с расчётами, самым «закопированным» языком программирования назвали JavaScript. Во всём массиве кода лишь 6 процентов кода оказались оригинальными. Исследователи отнесли к дубликатам 73 процента кода экосистемы C++ и 71 процент Python-кода.

Самым «индивидуалистичным» языком программирования назвали Java — но и в ней объём дублированного кода достигает 40 процентов.

Очевидно, на показатели «индекса Дежавю» влияет и характер языка. В JavaScript, к примеру, медианное количество подключённых проектов (а этот язык многие любят именнно благодаря огромному количеству подключаемых библиотек) оказалось на уровне 63, а максимальное количество «зависимостей» достигало 1261.

С помощью опубликованного отчёта авторы надеются помочь другим исследователям учесть особенности повторяемости при изучении тенденций в разработке.

Чытайце таксама
ШІ-інжынер не пісаў код уручную ўжо некалькі месяцаў. Падзяліўся адчуваннямі
ШІ-інжынер не пісаў код уручную ўжо некалькі месяцаў. Падзяліўся адчуваннямі
ШІ-інжынер не пісаў код уручную ўжо некалькі месяцаў. Падзяліўся адчуваннямі
Claude Code навучыўся сам выконваць задачы за праграміста
Claude Code навучыўся сам выконваць задачы за праграміста
Claude Code навучыўся сам выконваць задачы за праграміста
«Прыбяры сябе як вузкае месца»: аўтар «вайб-кодынгу» заявіў пра новую ролю людзей у ШІ-распрацоўцы
«Прыбяры сябе як вузкае месца»: аўтар «вайб-кодынгу» заявіў пра новую ролю людзей у ШІ-распрацоўцы
«Прыбяры сябе як вузкае месца»: аўтар «вайб-кодынгу» заявіў пра новую ролю людзей у ШІ-распрацоўцы
1 каментарый
Cursor выпусціла новую кодынг-мадэль — танную альтэрнатыву Codex і Claude Code
Cursor выпусціла новую кодынг-мадэль — танную альтэрнатыву Codex і Claude Code
Cursor выпусціла новую кодынг-мадэль — танную альтэрнатыву Codex і Claude Code
1 каментарый

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.