Николай Чикишев 2 апреля 2024, 16:22

Обучение ИИ-моделей может остановиться: в интернете кончились данные

Разработка новых ИИ-моделей столкнулась с неожиданной проблемой: для обучения не хватает качественного контента. Использование синтетической информации других моделей может только усугубить ситуацию.

2 комментария

Обучение ИИ-моделей может остановиться: в интернете кончились данные

Разработка новых ИИ-моделей столкнулась с неожиданной проблемой: для обучения не хватает качественного контента. Использование синтетической информации других моделей может только усугубить ситуацию.

По оценкам ученых, в ближайшие два года качественных текстов для дальнейшего обучения больших языковых моделей может не хватить. Это приведет к замедлению развития всей индустрии. Проблема осложняется тем, что многие ресурсы блокируют доступ ИИ к своим данным. Например, OpenAI вынуждена обучать GPT-5 на транскрипциях публичных роликов Youtube, но данных все равно не хватает.

Чем больше доступных данных — тем совершеннее можно создать ИИ-модель. GPT-4 обучалась на 12 триллионов токенов данных, в таком случае GPT-5 потребуется уже около 60-100 триллионов токенов. Исследователи еще два года назад рассчитали, что к середине 2024 года вероятность нехватки данных достигнет 50%, к 2026 году она возрастет до 90%.

Но и доступная информация по большей части некачественная: чаще всего это просто бессвязный текст или рерайт существующей информации. Только десятая часть собранного Common Crawl материала подходит для обучения ИИ. Базой этой организации пользуются многие разработчики.

Еще одна проблема — это сотрудничество с крупными соцсетями, главным источником данных для обучения. Платформы закрывают доступ к своим данным, а пользователи не хотят предоставлять разработчикам личные данные. Все это приводит к тому, что на компании подают в суд за нарушение авторского права.

Одно из решений проблемы нехватки контента — создание «учебного плана» для будущей модели, когда разработчик предоставляет доступ нейросети к данным в определенном порядке. Так модель устанавливает связи между блоками информации. Такой подход позволяет сократить объем входящих данных вдвое, но результаты расчетов неточны.

Гендиректор OpenAI Сэм Альтман озвучил идею «рынка данных», который необходимо создать для ИИ-разработчиков. Тогда компании смогут платить справедливую цену за качественную базу данных для обучения своих моделей. Пока же стартапы используют все, что только можно извлечь из интернета, на свой страх и риск.

Еще один вариант — это создавать синтетические качественные данные самостоятельно. Например, с ними экспериментируют OpenAI и Anthropic, последняя использовала синтетические данные при обучении последних версий Claude.