Николай Чикишев world 17 апреля 2026, 12:36

Компании начали продавать переписки сотрудников для обучения ИИ

Компании начали зарабатывать на собственных рабочих переписках, письмах и документах, продавая их как данные для обучения ИИ. Корпоративные данные становятся ценным активом на фоне дефицита качественных данных для тренировки моделей.

1 комментарий

Компании начали продавать переписки сотрудников для обучения ИИ

Компании начали зарабатывать на собственных рабочих переписках, письмах и документах, продавая их как данные для обучения ИИ. Корпоративные данные становятся ценным активом на фоне дефицита качественных данных для тренировки моделей.

Бывший генеральный директор сервиса для создания субтитров cielo24 Шанна Джонсон рассказала Forbes, что при закрытии бизнеса продала 13-летний массив корпоративных данных — от переписок в Slack до задач в Jira. По ее словам, сделка принесла «сотни тысяч долларов» и помогла завершить ликвидацию компании без долгов.

«Мне до сих пор тяжело закрывать компанию, — рассказала она. — Но приятно думать, что наши данные могут быть полезны и продолжат жить, помогая другим».

Издание отмечает, что интерес к таким данным резко вырос после того, как ИИ-компании фактически исчерпали открытые источники для обучения моделей. Как отмечают в индустрии, для развития агентных моделей, способных выполнять реальные задачи, нужны не абстрактные тексты, а примеры реальной работы: с ошибками, контекстом и внутренней логикой процессов.

На этом фоне формируется новый рынок. Стартап SimpleClosure, помогающий закрывать компании, запустил платформу для продажи корпоративных архивов. «Создаётся ощущение настоящей золотой лихорадки: компании пытаются любой ценой заполучить реальные данные», — заявил генеральный директор Дори Йона. За последний год компания провела около 100 сделок и вернула основателям более $1 миллиона, обычно выплачивая от $10 до $100 тысяч за один архив.

«Всё стало намного хуже»: сотрудники разгребают «воркслоп» от ИИ вместо работы

Стоимость данных зависит от их структуры и «насыщенности». Как объясняет глава конкурирующего сервиса Sunset Брендан Махони, связанная информация — например, задача в Jira, привязанная к конкретному коммиту — ценится выше, чем разрозненные документы. Особенно дорогими считаются данные из сфер финансов и здравоохранения.

Однако рост рынка вызывает и серьезные вопросы о приватности. Эксперты отмечают, что даже при формальной анонимизации остаются риски утечек и повторной идентификации. «Это не обезличенные данные — за ними стоят реальные люди», — поясняет Марк Ротенберг из Center for AI and Digital Policy. Его организация уже призвала регуляторов изучить такие практики.

Проблема усложняется тем, что полная очистка данных практически невозможна. «Если анонимизация выполнена неправильно, существует риск, что можно будет увидеть действия отдельных людей и компаний, а в худшем случае эти данные могут попасть в ответы модели», — говорит Бобби Сэмюэлс из Protege. Более того, исследования показывают, что языковые модели способны запоминать и воспроизводить фрагменты обучающих данных.

Параллельно развивается новая индустрия так называемых «RL-тренажеров» — симулированных рабочих сред, где ИИ-агенты обучаются на основе реальных корпоративных данных. Крупные игроки уже инвестируют в это направление: по данным источников, Anthropic рассматривает вложения до $1 миллиарда.