Support us

Обучение ИИ-моделей может остановиться: в интернете кончились данные

Разработка новых ИИ-моделей столкнулась с неожиданной проблемой: для обучения не хватает качественного контента. Использование синтетической информации других моделей может только усугубить ситуацию.

2 комментария
Обучение ИИ-моделей может остановиться: в интернете кончились данные

Разработка новых ИИ-моделей столкнулась с неожиданной проблемой: для обучения не хватает качественного контента. Использование синтетической информации других моделей может только усугубить ситуацию.

По оценкам ученых, в ближайшие два года качественных текстов для дальнейшего обучения больших языковых моделей может не хватить. Это приведет к замедлению развития всей индустрии. Проблема осложняется тем, что многие ресурсы блокируют доступ ИИ к своим данным. Например, OpenAI вынуждена обучать GPT-5 на транскрипциях публичных роликов Youtube, но данных все равно не хватает.

Чем больше доступных данных — тем совершеннее можно создать ИИ-модель. GPT-4 обучалась на 12 триллионов токенов данных, в таком случае GPT-5 потребуется уже около 60-100 триллионов токенов. Исследователи еще два года назад рассчитали, что к середине 2024 года вероятность нехватки данных достигнет 50%, к 2026 году она возрастет до 90%.

Но и доступная информация по большей части некачественная: чаще всего это просто бессвязный текст или рерайт существующей информации. Только десятая часть собранного Common Crawl материала подходит для обучения ИИ. Базой этой организации пользуются многие разработчики.

Еще одна проблема — это сотрудничество с крупными соцсетями, главным источником данных для обучения. Платформы закрывают доступ к своим данным, а пользователи не хотят предоставлять разработчикам личные данные. Все это приводит к тому, что на компании подают в суд за нарушение авторского права.

Одно из решений проблемы нехватки контента — создание «учебного плана» для будущей модели, когда разработчик предоставляет доступ нейросети к данным в определенном порядке. Так модель устанавливает связи между блоками информации. Такой подход позволяет сократить объем входящих данных вдвое, но результаты расчетов неточны.

Гендиректор OpenAI Сэм Альтман озвучил идею «рынка данных», который необходимо создать для ИИ-разработчиков. Тогда компании смогут платить справедливую цену за качественную базу данных для обучения своих моделей. Пока же стартапы используют все, что только можно извлечь из интернета, на свой страх и риск.

Еще один вариант — это создавать синтетические качественные данные самостоятельно. Например, с ними экспериментируют OpenAI и Anthropic, последняя использовала синтетические данные при обучении последних версий Claude.

OpenAI открыла доступ к ChatGPT без регистрации
OpenAI открыла доступ к ChatGPT без регистрации
По теме
OpenAI открыла доступ к ChatGPT без регистрации
Мэрия Нью-Йорка запустила чат-бота для бизнеса. ИИ врал и давал рандомные ответы
Мэрия Нью-Йорка запустила чат-бота для бизнеса. ИИ врал и давал рандомные ответы
По теме
Мэрия Нью-Йорка запустила чат-бота для бизнеса. ИИ врал и давал рандомные ответы
Чат-боты уничтожат Google? Почему пока рано говорить о победе ИИ
Чат-боты уничтожат Google? Почему пока рано говорить о победе ИИ 
По теме
Чат-боты уничтожат Google? Почему пока рано говорить о победе ИИ
Место солидарности беларусского ИТ-комьюнити

Далучайся!

Читайте также
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
3 комментария
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
2 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

1

Ага, а GPT-6 вообще откажется выдавать ответы, потому что мелкие вопросы человека ей будут казаться глупыми и неинтересными.

Пользователь отредактировал комментарий 3 апреля 2024, 02:19

Anonymous
Anonymous
1

42 :)

https://spectrum.ieee.org/gpt-4-calm-down "And stop confusing performance with competence, says Rodney Brooks". Он говорит правильные вещи

[censored - П. 4.1.2. Пользовательского соглашения — https://devby.io/pages/polzovatelskoe-soglashenie]