Google은 텍스트 설명에서 HD 비디오를 생성하는 신경망을 도입했습니다.

Google은 텍스트 설명에서 고해상도 비디오(1280 × 768 픽셀, 초당 24프레임)를 생성하는 Imagen Video 인공 지능 시스템에 대해 이야기했습니다. 하지만 해당 모델이 부적절한 콘텐츠를 생성할 것을 우려해 당분간 프로젝트 소스코드 공개를 자제하기로 했다.

솔루션 설명(PDF)에서 Google은 Imagen Video가 예를 들어 유명 아티스트의 매너를 모방하거나 모양을 유지하면서 회전하는 3D 개체를 생성하거나 다양한 애니메이션에서 텍스트를 묘사하는 등 주어진 스타일로 작업할 수 있다고 언급했습니다. 장르. 이 기술은 텍스트 설명을 기반으로 프로토타입 비디오(초당 3프레임의 빈도에서 24×48 픽셀 해상도의 16프레임)를 만든 다음 여러 단계에서 더 높은 프레임 속도의 고해상도 비디오. 최종 영상은 5.3초입니다.

Imagen Video에 등장하는 예는 "녹는 피스타치오 아이스크림이 컵 아래로 떨어지는 것"과 같은 단순한 장면에서 "거친 바다에서 해적선의 전투를 통해 비행"과 같은 복잡한 시나리오에 이르기까지 다양합니다. 이미지에는 명백한 아티팩트가 포함되어 있지만 디테일과 부드러움은 기존 이미지보다 눈에 띄게 높습니다. 이와 동시에 Google의 또 다른 AI 모델이 텍스트 설명에서 비디오를 생성하기 위해 데뷔했습니다. Phenaki는 더 긴 비디오를 만듭니다.

구글은 Imagen Video 시스템이 "1400만 비디오-텍스트 쌍과 6000만 이미지-텍스트 쌍"을 포함하는 공개적으로 사용 가능한 LAION-400M에서 훈련되었다고 말했습니다. 회사에 따르면 이것은 "문제 데이터"이며 전문가들이 필터링을 시도했지만 모델이 민감한 성격, 폭력, 사회적 고정 관념 및 문화적 편견의 장면을 포함하는 부적절한 콘텐츠를 생성할 가능성이 남아 있습니다. 그리고 "이러한 문제가 해결될 때까지" Imagen Video 모델의 소스 코드는 공개되지 않습니다.

2022-10-06 18:35:36

작가: Vitalii Babkin

이전 | 다음