Support us

OpenAI пригрозила банить пользователей за попытку выяснить, как работает её новая модель

OpenAI не хочет, чтобы пользователи знали, что именно происходит под капотом её новой модели Strawberry (она же o1-preview), способной рассуждать. За вопросы о её мыслительном процессе разработчики грозят юзерам блокировкой, пишет Ars Technica.

10 комментариев
OpenAI пригрозила банить пользователей за попытку выяснить, как работает её новая модель

OpenAI не хочет, чтобы пользователи знали, что именно происходит под капотом её новой модели Strawberry (она же o1-preview), способной рассуждать. За вопросы о её мыслительном процессе разработчики грозят юзерам блокировкой, пишет Ars Technica.

В сети появились скриншоты емейлов, которые пользователи получают от стартапа. В них говорится, что подобные их запросы к ChatGPT были расценены как «попытка обойти меры предосторожности». «Дальнейшие нарушения этой политики могут привести к потере доступа к GPT-4o со способностью к рассуждению», — предупреждают в письме.

Некоторые пользователи сделали вывод, что проблема возникла из-за фразы «reasoning trace» в запросе. Другие говорят, что гнев OpenAI вызвало одно слово «reasoning». В целом пользователям доступно резюме мыслительного процесса o1, сделанное ещё одной моделью и несколько упрощённое.

Запрет довольно ироничен с учетом того, что особое внимание к новинке привлекла как раз её способность выстраивать цепочки рассуждений, которая позволяет ИИ объяснить, как именно он пришёл к ответу, по шагам.

OpenAI необходимость прятать мыслительный процесс объясняет тем, что так ей не нужно накладывать дополнительные фильтры на то, как думает ИИ, чтобы он не выдал что-то противоречащее политике безопасности. А также тем, что это даёт ей конкурентное преимущество.

Не все разработчики такие скрытные, как противоречащая своему названию OpenAI. Например, разработчики Anthropic опубликовали системные промпты — подсказки, которые получает модель перед началом работы с пользователем, — для Claude 3.5.

OpenAI представила языковую модель o1 — она мощнее GPT-4o и умеет рассуждать
OpenAI представила языковую модель o1 — она мощнее GPT-4o и умеет рассуждать
По теме
OpenAI представила языковую модель o1 — она мощнее GPT-4o и умеет рассуждать
Anthropic выпустила Claude 3.5 Sonnet — ИИ-модель опережает GPT-4o и Gemini
Anthropic выпустила Claude 3.5 Sonnet — ИИ-модель опережает GPT-4o и Gemini
По теме
Anthropic выпустила Claude 3.5 Sonnet — ИИ-модель опережает GPT-4o и Gemini
16 лет dev.by — «дефолтный» источник информации о беларусском ИТ

Вы можете...

Читайте также
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
3 комментария
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
2 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

2

Кажется, кто-то не может справиться со своим творением :) Ждем новость, когда gpt захватит компы OpenAI и начнет вымогать деньги :)

А по сути, конечно, идиотское требование. Собирать данные втихаря им можно, а задавать неудобные вопросу чату нельзя :)

2

Мне тоже такой пришел. Они не объясняют, что именно не так. Попытки писать в саппорт тоже ничего не дают - оттуда никогда не отвечают. В моих промптах есть тэг "thinking" - возможно, это конфликтует со внутренними промптами в chain-of-thoughts, потому что там он тоже есть. И это автоматически детектится как попытка джейлбрейка. Но да, неприятно.

Пользователь отредактировал комментарий 19 сентября 2024, 17:04

Nik Burnt
Nik Burnt IOS Developer в Easybrain
0

Плохо она думает. Теряет нить беседы через два сообщения, не может использовать то что знает и застревает в цикле в попытках справиться со своими ошибками. Когда закончился новый я особой разницы, кроме времени ответа, не заметил.

Zhan Chubukou
Zhan Chubukou B2B Contractor (AI Solution Manager) в Worldwide Market
1

Я, если честно, не заметил никакого улучшения в результатах. Вижу, что показывают какую-то имитацию внутреннего диалога между агентами, ну дак всю эту песню мы уже давно прошли с того момента как langchain добрые люди сделали. Никакого революционного прорыва нет, лично у меня проще стало только в том, что я не прошу GPT создать сущности и выводить их внутренние беседы. Да и то, когда читаешь этот взаимный бред галлюцинирующих, нужно инструкций добавлять. Времени на о1 трачу столько же сколько на 4о. Профита няма. Может, это и "прорыв", но я его не заметил.

Пользователь отредактировал комментарий 20 сентября 2024, 23:14

0

Там не просто агенты друг с другом разговаривают. Они новую модель натренировали под этот chain-of-thoughts. Плюс сделали модель поменьше без RLHF, которая генерит мысли. Ну, и это все близко к железу, и не нужно историю туда-сюда пересылать на каждый чих. Глобально ничего нового, это больше инкрементальный апдейт, но с помощью langchain такого не сделать.

Я вот разницу заметил. Последние 2 недели ломал голову над хитрым дедлоком - никто (ни люди, ни ИИ) не мог понять, почему он возникает. Схема есть, код есть - воспроизвести не получается, проблема возникала только под большой нагрузкой. А O1 справился, навел на сценарий и помог воспроизвести в тесте.

На следующей неделе должна выйти O1-large. Но там, наверное, совсем суровые лимиты будут.

Zhan Chubukou
Zhan Chubukou B2B Contractor (AI Solution Manager) в Worldwide Market
0

Просто я раньше экспериментировал с промптами, где просил создать некий оптимальный набор взаимодействующих сущностей и одну сущность, которая бы подводила итоги их взаимодействия. Или просил их голосовать после беспристрастного анализа аргументов участников дискуссии. В зависимости от задачи. То, что генерит о1 сейчас - это примерно тот же процесс, когда разворачиваю "внутренний диалог". Как будто очень похожий промпт, только модифицированный и оптимизированный, приклеивают к каждому сообщению.

Пользователь отредактировал комментарий 21 сентября 2024, 17:22

1

Ну, да - это стандартное поведение агента, ничего особо нового. Просто хорошо оптимизированное. Я тоже год назад что-то похожее делал. Тул для исследований: даешь тему, список вопросов, а он идет в интернет и ищет, ответы в Эксель складывает. Была даже идея парсить страницы через Vision API. Делать скриншоты через puppeteer, им же подсвечивать ссылки, чтобы агент мог просить их нажать и ходить по страницам. Но оно не очень хорошо работало. И медленно: занимало много часов, быстро упиралось в rate-limit. Потом в LLaMA появилась поддержка функций, вторая проблема решилась. А тут O1 что-то похожее делает за секунды на state-of-the-art моделях, специально под это дело тренированных. Ну, и всякие тесты показывают, что O1 все-таки лучше, чем 4o. Хотя обходиться OpenAI раз в 10 дороже.

Zhan Chubukou
Zhan Chubukou B2B Contractor (AI Solution Manager) в Worldwide Market
1

Не, я так глубоко не заморачивался. Да и задач таких не было. Твой опыт релевантнее, я скорее just-for-fun развлекался. На рутинные задачи и 4o хватало. Спасибо, что пошарил опыт. Сейчас как раз мне очень полезно: ликвидирую пробелы в знаниях, деграднул немного на текущей позиции. Надо дальше двигаться.

Пользователь отредактировал комментарий 21 сентября 2024, 22:05

1

Вот сейчас еще один пример нашел. У меня react компонент на 300 строк коду, там есть кнопка сгенерить превью отчета, потом друга - создать отчет из превью. Я аттачу этот код файлом и прошу сделать так, чтобы после генерации превью можно было создать отчет, а можно было сгенерить новое превью.

GPT-4o выдал мне нерабочую версию. Не смертельно, за пару итерацией можно поправить. Но Клод с таким обычно справляется с первой попытки. Claude 3.5 Sonnet сделал все, как я попросил, правда, ответ дал не новым файлом целиком, а кусками с инструкцией, куда эти куски вставить. O1 сделал то же, что и Клод, но добавил еще Loader, пока ответ с сервера идет. Мелочь, но хорошая. И в ответе был весь компонент целиком - копируешь, вставляешь, все работает. Раньше Claude 3.5 Sonnet был для меня абсолютным лидером для кодописания. Сейчас использую O1, пока в квоту не упрусь. Жду, когда оно из preview выйдет - должно еще лучше стать.

Я вижу, что все больше и больше компаний открывают вакансии на gen-AI инженеров. Собеседовался на одну такую ради интереса. Там стартап собирал команду, чтобы внедрять AI в свои продукты. И вполне себе с пониманием, зачем им это. Автоматизация саппорта, RAG-поиск в разных плохо структурированных документах, fine-tunning, чтобы модели ценности компании разделяли, автоматизация всяких валидаций и много чего еще. Хотели и платные модели использовать, и опенсорсные пробовать. Интересно, в общем. И не обязательно ML с data science знать, хотя это большой плюс. Как, впрочем, и умение программировать. Отказали, правда. Опыта мало, лол. Такой роли еще полгода назад не существовало, но уже нужны люди с опытом.

Пользователь отредактировал комментарий 21 сентября 2024, 22:37

Zhan Chubukou
Zhan Chubukou B2B Contractor (AI Solution Manager) в Worldwide Market
1

@Alex V
Тема про опыт очень повеселила. Хотят Senior Gen-AI Engineer 5+ лет опыта? Дак им надо разработчиков bert и GPT-2 нанимать :) В их стартапе у таких людей точно перспектив больше будет, чем в Google или OpenAI.