Sora: OpenAI запускает инструмент для мгновенного создания видео из текста

В четверг компания OpenAI представила инструмент, способный генерировать видео по текстовым подсказкам.

Новая модель, получившая прозвище Sora в честь японского слова “небо”, может создавать реалистичные видеоролики длиной до минуты, которые соответствуют указаниям пользователя как по тематике, так и по стилю. Как сообщается в блоге компании, модель также способна создавать видео на основе неподвижного изображения или дополнять существующие кадры новым материалом.

“Мы учим ИИ понимать и моделировать физический мир в движении, чтобы обучить модели, которые помогут людям решать проблемы, требующие взаимодействия с реальным миром”, – говорится в блоге.

Один из видеороликов, включенный в число нескольких первых примеров, представленных компанией, был основан на подсказке: “Трейлер фильма о приключениях 30-летнего космического человека в красном шерстяном вязаном мотоциклетном шлеме, голубое небо, соляная пустыня, кинематографический стиль, снято на 35-миллиметровую пленку, яркие цвета”.

Компания объявила, что открыла доступ к Sora нескольким исследователям и создателям видео. Эксперты проведут “красную команду” – проверят продукт на возможность нарушить условия предоставления услуг OpenAI, которые запрещают “экстремальное насилие, сексуальный контент, ненавистные изображения, изображения знаменитостей или чужих IP”, говорится в блоге компании. Компания предоставляет ограниченный доступ только исследователям, художникам и кинематографистам, хотя генеральный директор Сэм Альтман ответил на запросы пользователей в Twitter после объявления, опубликовав видеоролики, которые, по его словам, были сделаны Сорой. Видеоролики снабжены водяным знаком, свидетельствующим о том, что они сделаны искусственным интеллектом.

В 2021 году компания выпустила генератор изображений Dall-E, а в ноябре 2022 года – генеративного ИИ-чатбота ChatGPT, который быстро набрал 100 миллионов пользователей. Другие компании, занимающиеся разработкой искусственного интеллекта, уже представили инструменты для создания видео, однако эти модели способны создавать лишь несколько секунд видеоматериала, который зачастую не имеет никакого отношения к их подсказкам. Google и Meta заявили, что находятся в процессе разработки генеративных видеоинструментов, но не представили их общественности. В среду компания объявила об эксперименте по добавлению более глубокой памяти в ChatGPT, чтобы он мог запоминать больше чатов своих пользователей.

OpenAI не сообщила, какой объем видеоматериалов был использован для обучения Sora и откуда они могли быть взяты, кроме того, New York Times сообщила, что в корпус были включены видео, как общедоступные, так и лицензированные у владельцев авторских прав. На компанию неоднократно подавали в суд за предполагаемое нарушение авторских прав при обучении ее инструментов генеративного ИИ, которые переваривают гигантские объемы материалов, взятых из интернета, и имитируют изображения или текст, содержащиеся в этих массивах данных.

Примеры видео, сгенерированных Sora по текстовым подсказкам

Видео и текстовые промпты из X (Twitter) аккаунта компании OpenAI

Промпт

“Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.”

“Красивый, заснеженный Токио шумит. Камера движется по оживленной городской улице, следуя за несколькими людьми, наслаждающимися прекрасной снежной погодой и делающими покупки в близлежащих киосках. Великолепные лепестки сакуры летят по ветру вместе со снежинками”.

Видео

Промпт

“A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually. the street is damp and reflective, creating a mirror effect of the colorful lights. many pedestrians walk about.”

“Стильная женщина идет по токийской улице, залитой теплым светящимся неоном и анимированными городскими вывесками. на ней черная кожаная куртка, длинное красное платье, черные сапоги и черная сумочка. на ней солнцезащитные очки и красная помада. она идет уверенно и непринужденно. улица влажная и отражающая, что создает зеркальный эффект разноцветных огней. вокруг много пешеходов.”

Видео

Промпт

“Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. the art style is 3d and realistic, with a focus on lighting and texture. the mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with wide eyes and open mouth. its pose and expression convey a sense of innocence and playfulness, as if it is exploring the world around it for the first time. the use of warm colors and dramatic lighting further enhances the cozy atmosphere of the image.”

“Анимационная сцена представляет собой крупный план короткого пушистого монстра, стоящего на коленях возле тающей красной свечи. художественный стиль – 3d и реалистичный, с акцентом на освещение и текстуру. настроение картины – удивление и любопытство, поскольку монстр смотрит на пламя с широкими глазами и открытым ртом. его поза и выражение лица передают чувство невинности и игривости, как будто он впервые исследует окружающий мир. использование теплых цветов и драматического освещения еще больше усиливает уютную атмосферу изображения”.

Видео

Промпт

“Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.”

“Несколько гигантских шерстистых мамонтов приближаются, ступая по заснеженному лугу, их длинный шерстяной мех слегка развевается на ветру, когда они идут, заснеженные деревья и драматические заснеженные горы вдалеке, свет середины дня с расплывчатыми облаками и солнце высоко вдали создают теплое свечение, вид с низкой камеры потрясает, захватывая большое мохнатое млекопитающее с красивой фотографией, глубиной резкости”.

Видео

Промпт

“A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.”

“Трейлер фильма о приключениях 30-летнего космического человека в красном шерстяном вязаном мотоциклетном шлеме, голубое небо, соленая пустыня, кинематографический стиль, снято на 35-миллиметровую пленку, яркие цвета”.

Видео

Вам может быть интересно:

Sora: OpenAI запускает инструмент для мгновенного создания видео из текста

Модель от создателя ChatGPT "симулирует физический мир в движении" длительностью до минуты, основываясь на инструкциях пользователя по теме и стилю.

Примеры видео, сгенерированных Sora по текстовым подсказкам

Промпт

Видео

Промпт

Видео

Промпт

Видео

Промпт

Видео

Промпт

Видео

Смарт-очки Brilliant Labs Frame с открытым исходным кодом для искусственного интеллекта по цене от $350

Что такое большая языковая модель (LLM)? Полное руководство

Похожие материалы