텍스트로 동영상 만들기 SORA

ChatGPT를 만든 Open AI에서 Sora라는 텍스트로 동영상을 만드는 AI모델을 출시하였습니다. 어떠한 기능들이 있는지 살펴보고자 합니다.
기능
제목에서 언급한 내용과 같이 Sora는 텍스트를 비디오로 변환시켜주는 모델입니다.
OpenAI에서는 Text-to-Video Model 이라고 소개하고 있으며, 이는 시각적 품질과 사용자 프롬프트 준수를 유지하면서 최대 1분 길이의 동영상을 생성할 수 있다고 합니다.
프롬프트와 영상
우선 Open AI의 영상을 보면, 영상이 한개 있는데, 일본의 거리로 유추되는 배경에 동양인 여성이 거리를 걷고 있는 모습을 보실 수 있습니다. 이 영상은 Sora 모델에서 프롬프트 입력을 통해 만들어졌다고 합니다.
프롬프트 내용은 다음과 같습니다.
A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
한글로 번역한다면, 스타일리시한 여성이 따뜻하고 빛나는 네온과 애니메이션 도시 간판으로 가득한 도쿄 거리를 걷고 있습니다. 그녀는 검은색 가죽 재킷, 빨간색 긴 드레스, 검은색 부츠를 신고 검은색 지갑을 들고 있습니다. 그녀는 선글라스와 빨간 립스틱을 착용합니다. 그녀는 자신감 있고 자연스럽게 걷는다. 거리는 축축하고 반사되어 다채로운 조명의 거울 효과를 만들어냅니다. 많은 보행자들이 걸어 다닙니다.
이 영상뿐만 아니라, 프롬프트를 통해 다양한 영상들을 제작하여 보여주고 있습니다.
Prompt: Historical footage of California during the gold rush.
골드러시 당시 캘리포니아의 역사적 영상.
Prompt: The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene.
The dirt road curves gently into the distance, with no other cars or vehicles in sight. The trees on either side of the road are redwoods, with patches of greenery scattered throughout.
The car is seen from the rear following the curve with ease, making it seem as if it is on a rugged drive through the rugged terrain. The dirt road itself is surrounded by steep hills and mountains, with a clear blue sky above with wispy clouds.
카메라는 검은색 지붕 선반이 있는 흰색 빈티지 SUV 뒤를 따라가며 가파른 산 경사면의 소나무로 둘러싸인 가파른 흙길을 빠르게 달리고, 타이어에서 먼지가 날리고, SUV가 속도를 내는 동안 햇빛이 SUV를 비춥니다. 비포장 도로가 현장에 따뜻한 빛을 발산합니다. 비포장 도로는 다른 차나 차량이 보이지 않고 저 멀리 완만하게 구부러져 있습니다. 길 양쪽에 있는 나무들은 삼나무로, 곳곳에 녹지가 흩어져 있습니다. 커브를 따라가는 뒷모습이 여유롭게 보여 마치 험난한 지형을 뚫고 험난한 길을 달리는 듯한 느낌을 줍니다. 비포장 도로 자체는 가파른 언덕과 산으로 둘러싸여 있으며 그 위에는 맑고 푸른 하늘과 뭉게구름이 있습니다.
Prompt: Tour of an art gallery with many beautiful works of art in different styles.
다양한 스타일의 아름다운 예술 작품이 많이 있는 미술관을 둘러보세요.
Prompt: Step-printing scene of a person running, cinematic film shot in 35mm.
달리는 사람의 발자국 장면, 35mm로 촬영한 영화 필름.
강점 및 특징
프롬프트를 정확하게 해석하고 생생한 감정을 표현하는 매력적인 캐릭터를 생성할 수 있다고 소개하고 있습니다. 그러므로써 생성된 단일 비디오 내에서 캐릭터와 시각적 스타일을 정확하게 유지하는 여러 장면을 만들 수 있습니다.
Sora는 정적인 노이즈처럼 보이는 비디오로 시작하여 여러단계를 거쳐 노이즈를 제거하여 점차적으로 비디오를 변형시키는 확산 모델입니다. 또한, 이 모델은 DALL-E 및 GPT 모델에 대한 과거 연구기반으로 하여 텍스트 지침만으로 비디오를 생성할 수 있을 뿐만 아니라, 기존 일반 이미지로 비디오를 생성하여 이미지의 내용을 작은 세부 사항까지 정확하게 애니메이션화 할 수 있다고 합니다. 더 나아가, 기존 비디오를 가져와 확장하거나 누락된 프레임을 채울 수도 있습니다.
약점
현재 모델은 복잡한 장면의 물리학을 정확하게 시뮬레이션하는 데 어려움을 겪을 수 있다고 말하고 있습니다. 원인과 결과의 특정사례를 이해하지 못할 수도 있다고 합니다.
예를 들자면, 어떤 사람이 쿠키를 한 입 베어물었지만 나중에 쿠키에 물린 자국이 없을 수도 있습니다.
또한, 왼쪽과 오른쪽을 혼합하는 등 프롬프트의 공간적 세부사항을 혼동할 수 있으며, 특정 카메라 궤적을 따르는 것과 같이 시간이 지남에 따라 발생하는 이벤트에 대한 정확한 설명에 어려움을 겪을 수 있습니다.
안전
폭력, 성적인 콘텐츠, 혐오 이미지, 유명인 초상, 타인 IP요청등의 이슈가 있을 수 있는데 이 모델을 통해 생성된 모든 비디오 프레임을 검토하여 사용자에게 표시되기 전에 사용 정책을 준수하는 지 확인하는데에 사용되는 이미지 분류 시스템을 개발하여, 문제를 해결하고 있다고 합니다.
시사점
최근 다양한 콘텐츠들이 쏟아져 나오고 있는데, 영상제작에 드는 비용이 부담으로 작용하기도 합니다. 영상 콘텐츠 제작분야에서는 많은 비용을 아낄 수 있는 모델이 될 수 있을 것입니다. 현재는 아직 모델사용이 오픈되어 있지 않지만, 추후 오픈이 되면, 영화제작, 유튜브 크리에이터 등 영상 콘텐츠 제작에 대한 진입이 좀 더 쉬워질 수 있는 기술이라고 생각합니다.
더 많은 콘텐츠 -> NVIDIA H100 Tensor Core GPU