OpenAI прыгразіла баніць карыстальнікаў за спробу высветліць, як працуе яе новая мадэль
OpenAI не хоча, каб карыстальнікі ведалі, што менавіта адбываецца пад капотам яе новай мадэлі Strawberry (яна ж o1-preview), здольнай разважаць. За пытанні пра яе разумовы працэс распрацоўшчыкі пагражаюць юзерам блакаваннем, піша Ars Technica.
OpenAI не хоча, каб карыстальнікі ведалі, што менавіта адбываецца пад капотам яе новай мадэлі Strawberry (яна ж o1-preview), здольнай разважаць. За пытанні пра яе разумовы працэс распрацоўшчыкі пагражаюць юзерам блакаваннем, піша Ars Technica.
У сетцы з’явіліся скрыншоты імэйлаў, якія карыстальнікі атрымліваюць ад стартапа. У іх гаворыцца, што падобныя іх запыты да ChatGPT былі расцэненыя як «спроба абысці меры засцярогі». «Далейшыя парушэнні гэтай палітыкі могуць прывесці да страты доступу да GPT-4o са здольнасцю да разважання, — папярэджваюць у лісце.
Некаторыя карыстальнікі зрабілі выснову, што праблема ўзнікла праз фразу «reasoning trace» у запыце. Іншыя кажуць, што гнеў OpenAI выклікала адное слова «reasoning». У цэлым карыстальнікам даступнае рэзюмэ разумовага працэсу o1, зробленае яшчэ адной мадэллю і некалькі спрошчанае.
Забарона даволі іранічная з улікам таго, што асаблівую ўвагу да навінкі прыцягнула якраз яе здольнасць выбудоўваць ланцужкі разваг, якая дазваляе АІ растлумачыць, як менавіта ён прыйшоў да адказу, пакрокава.
OpenAI неабходнасць хаваць разумовы працэс тлумачыць тым, што так ёй не трэба накладваць дадатковых фільтраў на тое, як думае АІ, каб ён не выдаў чагосьці, што супярэчыць палітыцы бяспекі. А таксама тым, што гэта дае ёй канкурэнтную перавагу.
Не ўсе распрацоўшчыкі такія скрытныя, як OpenAI, якая супярэчыць сваёй назве. Напрыклад, распрацоўшчыкі Anthropic апублікавалі сістэмныя промпты — падказкі, якія атрымлівае мадэль перад пачаткам працы з карыстальнікам, — для Claude 3.5.
Мне тоже такой пришел. Они не объясняют, что именно не так. Попытки писать в саппорт тоже ничего не дают - оттуда никогда не отвечают. В моих промптах есть тэг "thinking" - возможно, это конфликтует со внутренними промптами в chain-of-thoughts, потому что там он тоже есть. И это автоматически детектится как попытка джейлбрейка. Но да, неприятно.
Карыстальнік адрэдагаваў каментарый 19 верасня 2024, 17:04
Плохо она думает. Теряет нить беседы через два сообщения, не может использовать то что знает и застревает в цикле в попытках справиться со своими ошибками. Когда закончился новый я особой разницы, кроме времени ответа, не заметил.
Я, если честно, не заметил никакого улучшения в результатах. Вижу, что показывают какую-то имитацию внутреннего диалога между агентами, ну дак всю эту песню мы уже давно прошли с того момента как langchain добрые люди сделали. Никакого революционного прорыва нет, лично у меня проще стало только в том, что я не прошу GPT создать сущности и выводить их внутренние беседы. Да и то, когда читаешь этот взаимный бред галлюцинирующих, нужно инструкций добавлять. Времени на о1 трачу столько же сколько на 4о. Профита няма. Может, это и "прорыв", но я его не заметил.
Карыстальнік адрэдагаваў каментарый 20 верасня 2024, 23:14
Там не просто агенты друг с другом разговаривают. Они новую модель натренировали под этот chain-of-thoughts. Плюс сделали модель поменьше без RLHF, которая генерит мысли. Ну, и это все близко к железу, и не нужно историю туда-сюда пересылать на каждый чих. Глобально ничего нового, это больше инкрементальный апдейт, но с помощью langchain такого не сделать.
Я вот разницу заметил. Последние 2 недели ломал голову над хитрым дедлоком - никто (ни люди, ни ИИ) не мог понять, почему он возникает. Схема есть, код есть - воспроизвести не получается, проблема возникала только под большой нагрузкой. А O1 справился, навел на сценарий и помог воспроизвести в тесте.
На следующей неделе должна выйти O1-large. Но там, наверное, совсем суровые лимиты будут.
Просто я раньше экспериментировал с промптами, где просил создать некий оптимальный набор взаимодействующих сущностей и одну сущность, которая бы подводила итоги их взаимодействия. Или просил их голосовать после беспристрастного анализа аргументов участников дискуссии. В зависимости от задачи. То, что генерит о1 сейчас - это примерно тот же процесс, когда разворачиваю "внутренний диалог". Как будто очень похожий промпт, только модифицированный и оптимизированный, приклеивают к каждому сообщению.
Карыстальнік адрэдагаваў каментарый 21 верасня 2024, 17:22
Ну, да - это стандартное поведение агента, ничего особо нового. Просто хорошо оптимизированное. Я тоже год назад что-то похожее делал. Тул для исследований: даешь тему, список вопросов, а он идет в интернет и ищет, ответы в Эксель складывает. Была даже идея парсить страницы через Vision API. Делать скриншоты через puppeteer, им же подсвечивать ссылки, чтобы агент мог просить их нажать и ходить по страницам. Но оно не очень хорошо работало. И медленно: занимало много часов, быстро упиралось в rate-limit. Потом в LLaMA появилась поддержка функций, вторая проблема решилась. А тут O1 что-то похожее делает за секунды на state-of-the-art моделях, специально под это дело тренированных. Ну, и всякие тесты показывают, что O1 все-таки лучше, чем 4o. Хотя обходиться OpenAI раз в 10 дороже.
Не, я так глубоко не заморачивался. Да и задач таких не было. Твой опыт релевантнее, я скорее just-for-fun развлекался. На рутинные задачи и 4o хватало. Спасибо, что пошарил опыт. Сейчас как раз мне очень полезно: ликвидирую пробелы в знаниях, деграднул немного на текущей позиции. Надо дальше двигаться.
Карыстальнік адрэдагаваў каментарый 21 верасня 2024, 22:05
Вот сейчас еще один пример нашел. У меня react компонент на 300 строк коду, там есть кнопка сгенерить превью отчета, потом друга - создать отчет из превью. Я аттачу этот код файлом и прошу сделать так, чтобы после генерации превью можно было создать отчет, а можно было сгенерить новое превью.
GPT-4o выдал мне нерабочую версию. Не смертельно, за пару итерацией можно поправить. Но Клод с таким обычно справляется с первой попытки. Claude 3.5 Sonnet сделал все, как я попросил, правда, ответ дал не новым файлом целиком, а кусками с инструкцией, куда эти куски вставить. O1 сделал то же, что и Клод, но добавил еще Loader, пока ответ с сервера идет. Мелочь, но хорошая. И в ответе был весь компонент целиком - копируешь, вставляешь, все работает. Раньше Claude 3.5 Sonnet был для меня абсолютным лидером для кодописания. Сейчас использую O1, пока в квоту не упрусь. Жду, когда оно из preview выйдет - должно еще лучше стать.
Я вижу, что все больше и больше компаний открывают вакансии на gen-AI инженеров. Собеседовался на одну такую ради интереса. Там стартап собирал команду, чтобы внедрять AI в свои продукты. И вполне себе с пониманием, зачем им это. Автоматизация саппорта, RAG-поиск в разных плохо структурированных документах, fine-tunning, чтобы модели ценности компании разделяли, автоматизация всяких валидаций и много чего еще. Хотели и платные модели использовать, и опенсорсные пробовать. Интересно, в общем. И не обязательно ML с data science знать, хотя это большой плюс. Как, впрочем, и умение программировать. Отказали, правда. Опыта мало, лол. Такой роли еще полгода назад не существовало, но уже нужны люди с опытом.
Карыстальнік адрэдагаваў каментарый 21 верасня 2024, 22:37
@Alex V
Тема про опыт очень повеселила. Хотят Senior Gen-AI Engineer 5+ лет опыта? Дак им надо разработчиков bert и GPT-2 нанимать :) В их стартапе у таких людей точно перспектив больше будет, чем в Google или OpenAI.
Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.
Кажется, кто-то не может справиться со своим творением :) Ждем новость, когда gpt захватит компы OpenAI и начнет вымогать деньги :)
А по сути, конечно, идиотское требование. Собирать данные втихаря им можно, а задавать неудобные вопросу чату нельзя :)
Мне тоже такой пришел. Они не объясняют, что именно не так. Попытки писать в саппорт тоже ничего не дают - оттуда никогда не отвечают. В моих промптах есть тэг "thinking" - возможно, это конфликтует со внутренними промптами в chain-of-thoughts, потому что там он тоже есть. И это автоматически детектится как попытка джейлбрейка. Но да, неприятно.
Карыстальнік адрэдагаваў каментарый 19 верасня 2024, 17:04
Плохо она думает. Теряет нить беседы через два сообщения, не может использовать то что знает и застревает в цикле в попытках справиться со своими ошибками. Когда закончился новый я особой разницы, кроме времени ответа, не заметил.
Я, если честно, не заметил никакого улучшения в результатах. Вижу, что показывают какую-то имитацию внутреннего диалога между агентами, ну дак всю эту песню мы уже давно прошли с того момента как langchain добрые люди сделали. Никакого революционного прорыва нет, лично у меня проще стало только в том, что я не прошу GPT создать сущности и выводить их внутренние беседы. Да и то, когда читаешь этот взаимный бред галлюцинирующих, нужно инструкций добавлять. Времени на о1 трачу столько же сколько на 4о. Профита няма. Может, это и "прорыв", но я его не заметил.
Карыстальнік адрэдагаваў каментарый 20 верасня 2024, 23:14
Там не просто агенты друг с другом разговаривают. Они новую модель натренировали под этот chain-of-thoughts. Плюс сделали модель поменьше без RLHF, которая генерит мысли. Ну, и это все близко к железу, и не нужно историю туда-сюда пересылать на каждый чих. Глобально ничего нового, это больше инкрементальный апдейт, но с помощью langchain такого не сделать.
Я вот разницу заметил. Последние 2 недели ломал голову над хитрым дедлоком - никто (ни люди, ни ИИ) не мог понять, почему он возникает. Схема есть, код есть - воспроизвести не получается, проблема возникала только под большой нагрузкой. А O1 справился, навел на сценарий и помог воспроизвести в тесте.
На следующей неделе должна выйти O1-large. Но там, наверное, совсем суровые лимиты будут.
Просто я раньше экспериментировал с промптами, где просил создать некий оптимальный набор взаимодействующих сущностей и одну сущность, которая бы подводила итоги их взаимодействия. Или просил их голосовать после беспристрастного анализа аргументов участников дискуссии. В зависимости от задачи. То, что генерит о1 сейчас - это примерно тот же процесс, когда разворачиваю "внутренний диалог". Как будто очень похожий промпт, только модифицированный и оптимизированный, приклеивают к каждому сообщению.
Карыстальнік адрэдагаваў каментарый 21 верасня 2024, 17:22
Ну, да - это стандартное поведение агента, ничего особо нового. Просто хорошо оптимизированное. Я тоже год назад что-то похожее делал. Тул для исследований: даешь тему, список вопросов, а он идет в интернет и ищет, ответы в Эксель складывает. Была даже идея парсить страницы через Vision API. Делать скриншоты через puppeteer, им же подсвечивать ссылки, чтобы агент мог просить их нажать и ходить по страницам. Но оно не очень хорошо работало. И медленно: занимало много часов, быстро упиралось в rate-limit. Потом в LLaMA появилась поддержка функций, вторая проблема решилась. А тут O1 что-то похожее делает за секунды на state-of-the-art моделях, специально под это дело тренированных. Ну, и всякие тесты показывают, что O1 все-таки лучше, чем 4o. Хотя обходиться OpenAI раз в 10 дороже.
Не, я так глубоко не заморачивался. Да и задач таких не было. Твой опыт релевантнее, я скорее just-for-fun развлекался. На рутинные задачи и 4o хватало. Спасибо, что пошарил опыт. Сейчас как раз мне очень полезно: ликвидирую пробелы в знаниях, деграднул немного на текущей позиции. Надо дальше двигаться.
Карыстальнік адрэдагаваў каментарый 21 верасня 2024, 22:05
Вот сейчас еще один пример нашел. У меня react компонент на 300 строк коду, там есть кнопка сгенерить превью отчета, потом друга - создать отчет из превью. Я аттачу этот код файлом и прошу сделать так, чтобы после генерации превью можно было создать отчет, а можно было сгенерить новое превью.
GPT-4o выдал мне нерабочую версию. Не смертельно, за пару итерацией можно поправить. Но Клод с таким обычно справляется с первой попытки. Claude 3.5 Sonnet сделал все, как я попросил, правда, ответ дал не новым файлом целиком, а кусками с инструкцией, куда эти куски вставить. O1 сделал то же, что и Клод, но добавил еще Loader, пока ответ с сервера идет. Мелочь, но хорошая. И в ответе был весь компонент целиком - копируешь, вставляешь, все работает. Раньше Claude 3.5 Sonnet был для меня абсолютным лидером для кодописания. Сейчас использую O1, пока в квоту не упрусь. Жду, когда оно из preview выйдет - должно еще лучше стать.
Я вижу, что все больше и больше компаний открывают вакансии на gen-AI инженеров. Собеседовался на одну такую ради интереса. Там стартап собирал команду, чтобы внедрять AI в свои продукты. И вполне себе с пониманием, зачем им это. Автоматизация саппорта, RAG-поиск в разных плохо структурированных документах, fine-tunning, чтобы модели ценности компании разделяли, автоматизация всяких валидаций и много чего еще. Хотели и платные модели использовать, и опенсорсные пробовать. Интересно, в общем. И не обязательно ML с data science знать, хотя это большой плюс. Как, впрочем, и умение программировать. Отказали, правда. Опыта мало, лол. Такой роли еще полгода назад не существовало, но уже нужны люди с опытом.
Карыстальнік адрэдагаваў каментарый 21 верасня 2024, 22:37
@Alex V
Тема про опыт очень повеселила. Хотят Senior Gen-AI Engineer 5+ лет опыта? Дак им надо разработчиков bert и GPT-2 нанимать :) В их стартапе у таких людей точно перспектив больше будет, чем в Google или OpenAI.