今年最火的AI技术应该是OpenAI在春节期间发布的Sora了。相比起其他视频生成产品就3、4秒的时长,Sora是碾压式的存在。但Sora没有对外开放,所以要生成长视频,暂时也没有其他完整的好的方案。综合各种资料来看,目前最可行的方案应该就是:写剧本/分镜——>生图——>生视频->视频拼接,本质上就是通过多个短时长的视频组成一个完整的长视频。下面就详细讲述一下。
详细的步骤:
每一步使用的软件以及关键点如下:
场景描述需要分镜,这里用GPT4来做场景拆解,场景的描述提示词模版如下:
需要将一段场景的描述改写成一个时长30秒的分镜脚本,再根据每个分镜脚本的文字描述生成单张图片,之后通过图片生成视频,最后将视频进行拼接成最终的成品视频。
场景描述如下:
xxx
分镜脚本结构如下:
‒ 序号:递增数字
‒ 景别:远景/全景/中景/近景/特写
‒ 风格:真实影像风格/日本动漫风格/水墨画风格等(在Dalle3里无法直接写作者的名字,比如新海诚,但Midjourney是可以的。)
‒ 角色:具体到是什么样的角色,有什么特殊的颜色、道具、服饰等等。
‒ 环境:森林、家、海边等等
‒ 镜头移动:描述每个分镜中镜头的动作或变化
‒ 比例:16:9/2.35:1等等
分镜要求如下:
1. 每个分镜时长4s
2. xxx
3. 内容和风格需要xxx
每一个分镜后续会通过Midjourney进行图片生成。现在请给出每一个分镜脚本以及对应的Midjourney提示词,以Markdown Table的方式输出。
图像需要保持一致性,包括人物和周围场景
图生视频这一步,需要结合多种视频软件一起使用。每个软件的特点如下:
换脸的话,可以使用roop或者facefusion,这里有其colab版本:https://github.com/dream80/roop_colab。
视频拼接,可以使用剪映或者苹果电脑上的iMovie。
通过以上方案,基本可以实现长视频的生成,但目前AI生成视频的崩坏率极高,可控性差,所以需要生成很多视频,从中选取最符合预期的。
今年最火的AI技术应该是OpenAI在春节期间发布的Sora了。相比起其他视频生成产品就3、4秒的时长,Sora是碾压式的存在。但Sora没有对外开放,所以要生成长视频,暂时也没有其他完整的好的方案。综合各种资料来看,目前最可行的方案应该就是:写剧本/分镜——>生图——>生视频->视频拼接,本质上就是通过多个短时长的视频组成一个完整的长视频。下面就详细讲述一下。
详细的步骤:
每一步使用的软件以及关键点如下:
场景描述需要分镜,这里用GPT4来做场景拆解,场景的描述提示词模版如下:
需要将一段场景的描述改写成一个时长30秒的分镜脚本,再根据每个分镜脚本的文字描述生成单张图片,之后通过图片生成视频,最后将视频进行拼接成最终的成品视频。
场景描述如下:
xxx
分镜脚本结构如下:
‒ 序号:递增数字
‒ 景别:远景/全景/中景/近景/特写
‒ 风格:真实影像风格/日本动漫风格/水墨画风格等(在Dalle3里无法直接写作者的名字,比如新海诚,但Midjourney是可以的。)
‒ 角色:具体到是什么样的角色,有什么特殊的颜色、道具、服饰等等。
‒ 环境:森林、家、海边等等
‒ 镜头移动:描述每个分镜中镜头的动作或变化
‒ 比例:16:9/2.35:1等等
分镜要求如下:
1. 每个分镜时长4s
2. xxx
3. 内容和风格需要xxx
每一个分镜后续会通过Midjourney进行图片生成。现在请给出每一个分镜脚本以及对应的Midjourney提示词,以Markdown Table的方式输出。
图像需要保持一致性,包括人物和周围场景
图生视频这一步,需要结合多种视频软件一起使用。每个软件的特点如下:
换脸的话,可以使用roop或者facefusion,这里有其colab版本:https://github.com/dream80/roop_colab。
视频拼接,可以使用剪映或者苹果电脑上的iMovie。
通过以上方案,基本可以实现长视频的生成,但目前AI生成视频的崩坏率极高,可控性差,所以需要生成很多视频,从中选取最符合预期的。