Блог

Ваш код — золотая жила. Могут ли невзлетевшие стартапы продавать код LLM'кам — разбирается CTO

В комментариях к публикации о возможном «закате» StackOverflow, вышедшей в блогах в начале октября, встретился любопытный отзыв. 

Одна из причин упадка платформы — широкое распространение LLM, которые, к тому же, обучаются на коде, размещённом на StackOverflow. Продажа этой информации нейросетям может стать новой финансовой моделью. Один из комментаторов предложил, что из-за спада популярности StackOverflow стартапы, не добившиеся успеха, могли бы продавать свою кодовую базу для обучения LLM. 

Насколько жизнеспособна такая модель монетизации? Попробую разобраться.

Тот самый комментарий

Кто пишет: Артур Исаенко, айтишник с большим опытом, CTO в Adaptive Clinical Systems, с 2008 года живёт и работает в Канаде. 


Могут ли стартапы продавать свой код LLM’кам? 

Эта идея вызывает у меня некоторый скептицизм. 

  • Как определить, что такое хороший код? Успех или неуспех стартапа не могут определять качество кода. С точки зрения разработчика, если проект работает — значит, код хороший. Но коммерчески прибыльный проект может быть написан и «на коленке». Главное, чтобы он вовремя вышел и принёс деньги инвесторам. Да, технический долг будет забирать деньги, но если бы проект не появился своевременно, то вообще никакой прибыли бы и не было. 
  • Сложно оценить, сколько действительно стоит только исходный код в закрытом проекте.  
  • Покупать код для обучения LLM на фоне огромного количества open source — так себе идея.

Если ваш стартап не взлетел, можно найти более надёжные способы монетизации. Например, если он решает научную проблему, можно податься на правительственную программу поддержки. В Канаде есть Scientific Research and Experimental Development (SR&ED) tax incentives, который позволяет возместить до 40% затрат на разработку. 

А что с правами на интеллектуальную собственность?

Сейчас с точки зрения закона нет серьёзных препятствий, чтобы продавать код для обучения ИИ. Код считается интеллектуальной собственностью, которую можно продать, как и любую другую. Новый владелец может распоряжаться кодом по своему усмотрению. Можно продавать код по лицензионному соглашению (EULA), которое определяет, что можно делать с кодом. 

Или кейс Atlassian — они продавали лицензии на скачивание кода для ознакомления. Такие лицензии не запрещают использовать код для обучения ИИ. Они лишь ограничивают создание новых продуктов на его основе. 

Это значит, если у вас есть легальный код, вы можете обучать на нём ИИ. Например, LLM, RAG (это способ, при котором модель ищет нужную информацию в базе данных и использует её для более точного ответа на вопрос) или для до-обучения модели. 

Однако в будущем могут появиться ограничения, запрещающие использовать код для обучения LLM.

Когда такая модель может сработать?

Я считаю, что код невыстреливших проектов лучше всего использовать для вышеупомянутого RAG или fine tuning — процесс обучения уже готовой модели на новых данных, чтобы она лучше справлялась с конкретной задачей — в определенной нишевой области. 

Например, на основе полученной модели можно сделать продукт, который будет практически полностью генерировать казуальные игры и зарабатывать на этом деньги. 

Возможно, появятся компании-рисайклеры, которые будут покупать неудачный код для определённой ниши. Но необязательно использовать код, чтобы тренировать LLM.  

Кроме него остаются данные. Например, вы производили фитнес-браслеты. Работали несколько лет, но более успешные конкуренты вытеснили вас с рынка. И кроме кода в облачном хранилище остались пользовательские данные, количество шагов за день, частота сердечных сокращений, насыщение кислородом, частота дыхания, режим сна и многое другое. И эти данные могут быть проданы, например, компаниям, занимающимся клиническими исследованиями.

***

В общем, продавать кода стартапов для обучения ИИ — идея сомнительная. Сложно оценить качество и ценность. Особенно, когда в интернете хватает open source. Код прогоревших стартапов может подойти для дообучения моделей или решения узких задач, но, возможно, более выгодно будет продать данные, собранные стартапом. 

Мнение автора может не совпадать с позицией редакции. 

Что ещё почитать о стартапах: 

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Zhan Chubukou
Zhan Chubukou B2B Contractor (AI Solution Manager) в Worldwide Market
-2

Спасибо за мнение. Действительно, для тюнинга под определённую нишу - это более конкретная точка приложения. Если команда использует модель, как ассистента в написании кода в какой-нибудь нише, то логичным будет доучить этого ассистента на коде именно для этого направления.