Малюємо з AI

Іронія · 30.11.2023

Тут буде оголошення. Колись.

Dimoks · 16.02.2024

Dimoks · 16.02.2024

Котів AI малює найкраще, мені здається

Dimoks · 16.02.2024

OpenAI Sora

Первая txt2video модель от OpenAI. Генерирует видео длиной до минуты по текстовому запросу или картинке. Способна генерировать консистентные сцены с разных ракурсов, имеет хорошее понимание мира.

Sora — это диффузионная модель, которая генерирует видео, начиная с изображения, похожего на статический шум, и постепенно преобразует его, удаляя шум на протяжении многих шагов.

Sora способна генерировать целые видео за один раз или расширять уже созданные видео, делая их длиннее. Давая модели на вход множество кадров за раз, мы решили сложную задачу обеспечения темпорального постоянства объекта, даже если он временно исчезает из виду.

Подобно моделям GPT, Sora использует архитектуру трансформера, что делает ее масштабируемой.

Мы представляем видео и изображения как совокупности меньших юнитов данных, называемых патчами, каждый из которых аналогичен токену в GPT. Объединяя подход к представлению данных, мы можем обучать диффузионные трансформеры на более широком спектре визуальных данных, чем это было возможно ранее, охватывая различные продолжительности, разрешения и соотношения сторон.

Sora основывается на предыдущих исследованиях моделей DALL·E и GPT. Она использует технику описания (captioning) из DALL·E 3, которая включает генерацию высококачественных описаний к визуальным тренировочным данным. В результате модель более точно следует текстовым инструкциям пользователя в сгенерированном видео.

Помимо возможности генерировать видео исключительно по текстовым инструкциям, модель может взять существующее изображение и создать из него видео, анимируя содержимое изображения с точностью и вниманием к мелким деталям. Модель также может взять существующее видео и расширить его или восстановить отсутствующие кадры. Узнать больше можно в нашем техническом докладе (который будет опубликован сегодня позднее).

Sora служит основой для моделей, способных понимать и имитировать реальный мир, что, по нашему мнению, будет важной вехой на пути к достижению AGI (искусственного общего интеллекта).

Архитектура, похожа на мультимодальный трансформер с diffusion энкодером/декодером.

Примеры видео

На 3:20 море краисвое

Иpoчka · 16.02.2024

Dimoks сказав(ла):
Котів AI малює найкраще, мені здається

Иpoчka · 16.02.2024

Офигеть. Скоро можно будет свое кино снимать :клас:

Іронія · 16.02.2024

Aksev сказав(ла):
Тем временем ИИ уже генерирует вот такие видео

Я теж замовляла з котом, але там з ним була якась проблема весь час, то на якесь чудовисько перетворювався, то три лапи...

Dimoks сказав(ла):
Котів AI малює найкраще, мені здається

Бо "котиків люблять усі" :ги:

Іронія · 16.02.2024

_Sir_ сказав(ла):
Мій

IVANGO · 16.02.2024

Dimoks сказав(ла):
Котів AI малює найкраще, мені здається

Качок теж непогано

Alex1Angel · 16.02.2024

alexdenkin · 16.02.2024

Иpoчka сказав(ла):
Офигеть. Скоро можно будет свое кино снимать

полунииичку)))

Іронія · 16.02.2024

E.N сказав(ла):
ми

IVANGO сказав(ла):
Качок теж

1. Чи є в когось бажання спробувати щось написати просто зараз?
2. А коли?

E.N · 16.02.2024

Іронія сказав(ла):
1. Чи є в когось бажання спробувати щось написати просто зараз?
2. А коли?

Можу зараз

Іронія · 16.02.2024

E.N сказав(ла):
Можу зараз

Цікаво було б все-таки утрьох :-)

Чи можемо розпочати, а якщо хтось захоче, то приєднається.
Пані та панове, гайда в Дзеркалля писати гумористичне оповідання!

IceBerg · 16.02.2024

_Sir_ сказав(ла):
Людяність.

Нахіба я це побачив... та ще й людяність... Мій світ ніколи вже не буде попереднім

IceBerg · 16.02.2024

Dimoks сказав(ла):
OpenAI Sora

Первая txt2video модель от OpenAI. Генерирует видео длиной до минуты по текстовому запросу или картинке. Способна генерировать консистентные сцены с разных ракурсов, имеет хорошее понимание мира.

Sora — это диффузионная модель, которая генерирует видео, начиная с изображения, похожего на статический шум, и постепенно преобразует его, удаляя шум на протяжении многих шагов.

Sora способна генерировать целые видео за один раз или расширять уже созданные видео, делая их длиннее. Давая модели на вход множество кадров за раз, мы решили сложную задачу обеспечения темпорального постоянства объекта, даже если он временно исчезает из виду.

Подобно моделям GPT, Sora использует архитектуру трансформера, что делает ее масштабируемой.

Мы представляем видео и изображения как совокупности меньших юнитов данных, называемых патчами, каждый из которых аналогичен токену в GPT. Объединяя подход к представлению данных, мы можем обучать диффузионные трансформеры на более широком спектре визуальных данных, чем это было возможно ранее, охватывая различные продолжительности, разрешения и соотношения сторон.

Sora основывается на предыдущих исследованиях моделей DALL·E и GPT. Она использует технику описания (captioning) из DALL·E 3, которая включает генерацию высококачественных описаний к визуальным тренировочным данным. В результате модель более точно следует текстовым инструкциям пользователя в сгенерированном видео.

Помимо возможности генерировать видео исключительно по текстовым инструкциям, модель может взять существующее изображение и создать из него видео, анимируя содержимое изображения с точностью и вниманием к мелким деталям. Модель также может взять существующее видео и расширить его или восстановить отсутствующие кадры. Узнать больше можно в нашем техническом докладе (который будет опубликован сегодня позднее).

Sora служит основой для моделей, способных понимать и имитировать реальный мир, что, по нашему мнению, будет важной вехой на пути к достижению AGI (искусственного общего интеллекта).

Архитектура, похожа на мультимодальный трансформер с diffusion энкодером/декодером.

Примеры видео

На 3:20 море краисвое

Це за гроші? Чи поки не має у доступі в принципі?

alexdenkin · 16.02.2024

_Sir_ сказав(ла):
Людяність.

Ubuntu (походить від

⚠ Тільки зареєстровані користувачі бачать весь контент та не бачать рекламу.

концепції

⚠ Тільки зареєстровані користувачі бачать весь контент та не бачать рекламу.

, яку можна висловити приблизно, як «людяність»)

JAZZ-Clone · 17.02.2024

alexdenkin сказав(ла):
Ubuntu (походить від

⚠ Тільки зареєстровані користувачі бачать весь контент та не бачать рекламу.

концепції

⚠ Тільки зареєстровані користувачі бачать весь контент та не бачать рекламу.

, яку можна висловити приблизно, як «людяність»

а вот это действительно - мысль

barahlishko · 17.02.2024

Іронія · 17.02.2024

Робимо малюнки (не реалістичне зображення, а саме малюнки) до казок чи дитячих книжок. Перекручування сюжету вітається :-)

Ф'яметта · 17.02.2024

_Sir_ сказав(ла):
....

Ви меломан, давно помічала

(Я вкотре залипла слухати всевітньо відомий хіт :навушники:

)

Давайте замовимо ШІ візуалізацію цієї пісні. У всіх буде по-різному. Долучайтеся усі, хто захоче!

Малюємо з AI

Додаткові параметри

Іронія

Куратор теми

Dimoks

Адмін

Dimoks

Адмін

Dimoks

Адмін

Иpoчka

Иpoчka

Іронія

Куратор теми

Іронія

Куратор теми

IVANGO

Alex1Angel

alexdenkin

Іронія

Куратор теми

E.N

Іронія

Куратор теми

IceBerg

IceBerg

alexdenkin

JAZZ-Clone

barahlishko

Іронія

Куратор теми

Ф'яметта