Компания OpenAI представила DALL-E 3, свой новейший генератор изображений

Компания OpenAI, разработчик ChatGPT, представила первую официальную предварительную версию DALL-E 3, своей новейшей модели генерации изображений. Представленный в среду на небольшом мероприятии для журналистов, DALL-E 3 рассматривается как инструмент, полностью понимающий сложные текстовые запросы и создающий соответствующие им по сложности изображения.

Как отмечается на новой информационной странице о DALL-E 3 на сайте OpenAI, “современные системы преобразования текста в изображение имеют тенденцию игнорировать слова или описания, что вынуждает пользователей учиться строить подсказки. DALL-E 3 представляет собой скачок вперед в нашей способности генерировать изображения, которые точно соответствуют предоставленному вами тексту”.

Ранее этим летом в Discord просочились возможные изображения из готовой версии DALL-E 3, которые демонстрировали огромный потенциал в соответствии с тем, что было показано в превью. Утечка утверждала, что в DALL-E 3 был загружен длинный запрос “нарисовать розового шута, дающего пять панде во время соревнований по велоспорту. Велосипеды сделаны из сыра, а земля очень грязная. Они едут в туманном лесу. Панда злится”. Полученное изображение поразило своей точностью.

Такие генераторы изображений, как Midjourney и Stable Diffusion, хотя и способны имитировать фотореализм и создавать изображения самых разных объектов, стилей и людей (с немалым количеством споров), несомненно, не смогут создать ничего столь сложного.

Эти генераторы изображений, а также предыдущие предложения OpenAI в этой области, как известно, также не справляются с задачей создания изображений, содержащих текст – в лучшем случае получается беспорядочный бред, а в худшем – уморительные малапропизмы. DALL-E 3, как мне кажется, гораздо лучше справляется с задачей включения связного текста в изображение, что демонстрирует мультфильм, опубликованный на сайте X генеральным директором OpenAI Сэмом Альтманом.

also, the video we made for dalle 3 is SO CUTE: pic.twitter.com/k1FOFTOsU5

— Sam Altman (@sama) September 20, 2023

Open AI заявляет, что DALL-E 3 будет интегрирован в ChatGPT напрямую, и подразумевает, что чатбот будет переходить от одной модели к другой в зависимости от содержания подсказки. ChatGPT, который когда-то был просто удобным инструментом для вывода текста из модели GPT-3.5, быстро развивается – в него добавляются сторонние плагины с возможностью получения текста из других источников, в том числе из Интернета. Этот шаг еще больше расширяет возможности ChatGPT, расширяя и без того натянутое определение термина “чатбот”.

По словам Альтмана, DALL-E 3 “начнет распространяться среди всех пользователей ChatGPT+ в течение следующих нескольких недель”. На сайте OpenAI говорится, что все пользователи ChatGPT Plus и ChatGPT Enterprise смогут использовать ее “в начале октября”, и что OpenAI не будет предъявлять никаких авторских прав на результаты работы модели. Однако если вы планируете сгенерировать что-то с помощью DALL-E 3 и затем защитить это авторскими правами, то это уже совсем другой вопрос.

Вам может быть интересно:

Компания OpenAI представила DALL-E 3, свой новейший генератор изображений

Он может добавлять к изображениям текст (не тарабарский).

Искусственный интеллект в розничной торговле: Что нужно знать

Клеман Деланг

Похожие материалы

Оставить комментарий Отменить ответ