Диффузионная модель от OpenAI для создания и редактирования видеороликов называется Sora. Разработчики долго трудились над тем, чтобы объекты, находящиеся в кадре, оставались неизменными, даже если они временно покидают кадр. Sora опирается на технологические разработки ChatGPT и DALL-E. Она управляется с помощью текстовых инструкций, может использовать готовую статичную картинку, постепенно анимировать ее и дополнять кадр дополнительными объектами.
Пользователь может расширить уже готовое видео с помощью новой технологии. Sora позволяет создавать видео в высоком качестве, использовать динамическое движение камеры, имитировать взаимодействие с окружающим миром, например, следы кисти на холсте художника.
Sora по-прежнему несовершенна. Например, она неточно моделирует физику, может ошибаться в корректном изменении объекта, например, при употреблении пищи. Видео в нейросети состоит из набора небольших фрагментов, которые разработчики назвали «патчами». Они похожи на токены в ChatGPT. Патчи состоят из набора визуальных данных, которые удобны для масштабирования и дальнейшего обучения нейросети.