今天来聊一下AI视频生成工具。
作为视频工作者,早在2023年我就开始关注AI视频领域的进展,但当时市面上比较先进的工具只有Runway和Wonder Studio两个。一年过去,AI的发展可以说是日新月异,市面上也出现了很多新的AI视频工具。
放眼全球,我个人接触过的,好用的AI视频工具一共有七个。
其中包括AI视频的先行者Runway、AI绘画世界第二的Stable AI 旗下的Stable video diffusion、新锐AI视频工具Pika、国人开发的面向全球的AI视频工具Pixverse,剪映旗下的drieamina、虽然是小型创业公司开发,但在图文视频底层资源整合方面做的挺好的6pen pro,以及由AI驱动的CG角色动画工具Wonder Studio。
虽然上面我只说了七个,但其实懂行的人都知道,AI视频领域,还有两个未出世的隐藏王者,一个是OpenAI旗下demo刚一问世就震惊全世界的Sora,另一个则是当前AI绘画世界第一的Midjourney的视频版。
Sora不仅能够准确理解长达135个词汇的长难句文本,而且可以生成连续时间长达60秒的高保真视频,基本秒杀现有所有AI视频工具;而在当前的AI绘画领域,出图效果最好的仍然是Midjourney,这让人们对它的视频工具更加期待了。
但是很可惜,鉴于这两个工具目前都还没有面向大众正式发布,我们暂时只能用其它工具来进行AI文生视频和图生视频的创作了。
以下是这七个工具的详细介绍:
Runway ML
官方网站:https://runwayml.com/
Runway由 Runway 公司开发,这是一家应用 AI 研究公司,自2018年成立以来,一直在人工智能和机器学习领域推动创造力的前沿。RunwayML 在视频生成领域的地位十分显著,它被视为行业的先行者之一。
Runway也是目前功能最多的一个AI视频平台,除了文生视频、图生视频、文生图片、上传音频和图片对口型等主要功能之外,RunwayML还提供包括视频编辑、运动跟踪等功能在内的多种附加功能,它还拥有超过30个AI魔法工具和几十种视频风格样式预设模型,能够实现一键转换视频风格,语音生成和编辑文本、图片或视频片段等功能。
我所了解到的视频工具当中,知名度最高的应该是Runway,这也是目前应用最多的一个AI视频工具。许多自媒体和商业机构甚至品牌方,都在使用付费版的Midjourney绘图+Runway图生视频,这两个工具不知道养活了多少以AI视频为主要发布内容的自媒体。
不过对于国内用户来说,RunwayML 网页版的网速和充值体验可能不是很友好,要想丝滑使用Runway,最好是可以科学上网,这样你就可以用谷歌账号登录。
Stable video diffusion
官方网站: https://www.stablevideo.com/
Stable Video Diffusion (SVD )是由 Stability AI 团队基于Stable Diffusion模型开发的开源生成式视频模型。 当然Stability AI 也同时发布了面向更大众用户的网页版AI视频网站Stable video,只需要一个谷歌账号和浏览器,就可以直接在线生成视频。
Stable Video Diffusion本质上还是先通过文生图,然后再进行图生视频,可以生成14帧和25帧图像,帧速率可在3到30帧每秒之间自定义。
用户通过上传一张图片输入提示词即可生成视频,同时Stable Video进一步提供了多样化的相机动作选项,可以更精细地控制视频中的视觉效果。
Camera Motion(相机运动): 用户可以选择是否锁定相机(Locked),或增加抖动效果(Shake),以模拟真实的拍摄体验。
Zoom(变焦): 通过「In」和「Out」选项,用户可以控制视频中的缩放效果,以突出或拉远画面中的某个元素。
Tilt(倾斜): 上下倾斜的相机动作,为视频增添了动态角度变化。
Orbit(轨道运动): 相机围绕对象旋转,创造出环绕视角。
Pan(平移): 水平移动相机,常用于展示宽阔的景象。
Dolly(推拉镜头): 相机前后移动,创造出深入或后退的视觉效果。
Move(移动): 控制相机在场景中的上下或左右移动。
SVD 在视频生成领域具有革命性的地位,尤其是在3D合成技术方面,因为开源免费,因此很多开发者和高端玩家会选择在自己的电脑或服务器上直接安装本地版的SVD,本地版的SVD可以结合ComfyUI(一个基于节点流程的Stable Diffusion 操作界面)的工作流,通过插件之间的配合,创造出许多惊奇的动画和转场效果。
但个人认为这种工作流的操作界面不够傻瓜不够大众化,目前只能在开发者和高阶玩家之间小圈子流传,在不远的未来应该有集成同样功能和效果但操作和交互更加便捷的工具出现,前台只需要一个功能按钮或者调节界面,即可实现和工作流同等的效果。
比如在剪映刚刚上新的视频翻译功能,其实本质上就是一键生成字幕——文本翻译——英文文字转语音——视频对口型几个功能的组合技,而剪映选择把作为组合技的工作流隐藏在了后端,用户在软件界面所看到的,也不过仅仅一个“视频翻译”的功能选项而已。
Pika
官方网站:https://pika.art/
Pika是由Pika Labs开发的一款先进的AI视频生成工具,支持文生视频和图生视频,以及视频转视频。Pika 1.0版本引入了强大的新功能,比如视频风格转换、内容编辑、更改画幅等,允许用户进行深度的再创作和风格转换,用户能够根据文本提示快速生成多种风格的视频,包括3D动画、动漫、卡通和电影等。
Pika Labs可以说是AI视频领域的一匹黑马,在短时间内迅速完成了三轮共5500万美元的融资,估值达到2亿至3亿美元,在Pika的公司介绍页面,他们这样写道:“Pika是由两位斯坦福博士生创立的,他们觉得制作视频实在是太难了。因此,他们决定让任何人都能够按照命令轻松制作视频。”
Pika的特点在于面向普通大众用户,非常傻瓜易用,并且操作界面要比其他所有的视频工具都友好。如果你不知道生成什么样的视频,还可以让AI自动帮你随机生成一段提示词,生成的视频还能选择一键加配音。
Pika生成质量还是很不错的,唯一的缺点就是国内无法正常访问,必须通过科学上网的方式才行。
Pixverse
官网网站:https:/app.pixverse.ai/login
Pixverse是北京爱诗科技旗下AI生成视频产品。爱诗科技是一家专注于AI视频生成技术的公司,由前字节跳动视觉技术负责人王长虎创立。PixVerse 的界面用户友好,操作简便,而且国内不需要魔法就可以正常使用。
PixVerse目前有文生视频和图生视频两种创作方式,文生视频就是直接输入文字就可以生成视频,没有生成图片的中间项。图生视频可以通过上传图片和输入提示词,调整运动幅度、随机种子数值。
PixVerse的优势在于对于人物动作提示词的语义理解能力非常强,尤其是在人物动作方面,输入提示词和不输入提示词的效果大相径庭。PixVerse近期推出的角色一致性功能,能够生成人脸一致的角色,上传指定人物图片后,可以生成改人物的不同的发型,着装和场景。
PixVerse目前默认生成的单个视频时长为4秒,就视频生成的效果而言,和Runway、Pika等工具可以说是不相上下,各有所长。
Drieamina
官网:https://dreamina.jianying.com/ai-tool/platform
剪映Dreamina是抖音旗下的AIGC工具,用户可以根据文本内容生成由AI生成的创意图,支持修整图片大小比例和模板类型,目前刚刚上线了AI视频,支持文生视频和图生视频,可以生成3秒视频,同时会员版可以进行二次渲染,把视频延长到6秒,效果应该也会更加丝滑。
易用性方面,Dreamina是向Pika看齐,操作界面非常简单傻瓜,运镜设置,画幅比例等参数简单易懂,任何一个小白用户都可以轻松操作。
除了网页端的入口之外,目前Dreamina的图片生成工具已经集成在剪映当中了,由于剪映本身在全球拥有庞大的用户基础,Drieamina 可能会借助这一优势,在移动视频编辑和 AI 视频生成领域占据一席之地。
6pen pro
官网:https://www.6pen.pro/
6pen Pro 是6pen.art的加强版,集合了AI创意助手,AI图片生成、AI声音克隆、AI视频对口型、AI换脸、AI图生视频等多种能力,专注于探索生成式AI能力的组合,将多个单一的生成功能组合拼装,以实现更丰富的创作效果。
在国内一众开发者当中,6pen的团队可以说是一股清流。当初Stable diffusion刚刚问世的时候,由于我的电脑装不了本地版的安装包,所以苦苦寻找国内好用的在线套壳工具,这时候6pen率先出现在我的视线当中。
不同于国内其他无法调整参数,只有少数几个绘画风格的傻瓜型AI绘画工具,6pen提供了高度的自定义选项:提供多种模型、种子、参考图像、分辨率、风格修改和艺术家选择等可定制的选项,参数可以自行调整,可玩性非常大。
6pen Pro 的主要特点和优势是:把包括stable diffusion XL、DALL·E·3、优质的Lora模型、语音图片对口型模型、stable video diffusion模型、还有自研的AI语言模型,自研的AI绘画模型等几十种不同功能的模型组合打包,并且以工作流的形式打通了所有模型。
也就是说,你用工作流通过把声音克隆生成器和AI对口型视频生成器结合起来,就相当于是建立了一个完整的复活亲人的应用,并且可以自行调整参数。下次使用的时候直接输入就可以也不用专门去寻找。
比如我将描述画面增强和DALL·E·3图片生成、图片高清放大三个生成器放到同一个工作流当中,那么下次我直接输入想要的人物和场景,AI就会帮我自动优化描述词,直接生成一张高清放大的写真照片。
再比如把图片生成视频和视频顺滑组合起来,就是一个一键生成6秒视频的工作流,对于需要追求效率的朋友来说确实是一个不错的选择。虽然6pen的AI视频底层用的仍然是SVD,但是叠加上视频顺滑效果之后可以生成6秒视频,最后的成片效果甚至比stable video网站官方的效果还要好。
对于追求高效率和出片速度的公司和团队来说,这种工作流的方式的确能提高一定的效率,毕竟大力出奇迹。不过这种工作流也有局限性,比如AI视频,有很大的盲盒性质,需要不断抽卡生成才能找到满意的那一个,那么用工作流串起来跟分开用有何区别?而且如果出来的视频效果不好,加上视频顺滑效果还白白浪费了点数。
Wonder Studio
官网:https://wonderdynamics.com/
Wonder Studio是一款AI驱动的CG角色动画工具,它能够自动地将CG角色动画化、打光并合成到真实场景中。这款工具由Wonder Dynamics公司开发,旨在通过AI技术简化传统的影视特效制作流程,使其更加高效和易于访问。
严格意义上来说,Wonder Studio的原理其实还是AI赋能的视频抠像、绑定跟踪和3D模型替换。
不需要昂贵的动作捕捉设备或专业的3D建模师,一台能够拍摄的相机即可完成角色的动画捕捉、自动识别与替换,用户可以通过简单的拖拽操作,将视频素材导入到Wonder Studio中,AI技术可以自动识别视频中的人物,并将CG模型拖拽替换到视频中,并快速生成带有动画CG角色的场景。官方有几个预制好的模型,同时也支持用户上传自己的模型。
虽然不是AI生成类的工具,但是Wonder Studio 仍然在AI视频制作工具中占有一席之地,尤其是在简化复杂动画制作流程和降低成本方面显示出了其潜力。它被看作是可能对现代影视工业产生重大影响的工具,为独立创作者和小团队提供了与大型工作室竞争的可能性。
总结
以上就是我目前所接触到的AI视频工具,个人认为,截止到目前为止,除了Sora之外的所有AI文生视频工具,效果都还差那么点意思。
最明显的地方就是,这些工具生成的视频当中,仍然有着非常明显的AI帧融合变化痕迹,也就是说你可以肉眼从视频中看到大量的AI运算的痕迹。在动作方面就更别提了,几乎没有一个AI工具能够完美地让人物做出一个大幅度的完整动作,这也是为什么你能看到的所有AI视频当中,大部分有人物的场景画面,都是以慢动作、纯运镜的形式呈现出来的,因为人物的动作实在太不可控。
另外一个有待改进的痛点就是,当前主流的几个AI视频工具,在图生视频方面,几乎无一例外都会损失原图画质,也就是说,生成的视频画质比原图的清晰度还有精细程度都要差不少。当然目前这个问题在一些工具上已经比之前有所优化了,如Pixverse、Pika等,但总体仍然还是有一定程度上的画质损失。
不过以上缺点也并不是无可救药的,解药就是AI视频工具另一个痛点——盲盒性质,没错,这是所有AI视频工具的通病,生成视频就像抽盲盒,你永远不知道这次生成的视频会不会满足你的需求,甚至很多时候需要多次生成,才能做出一个有效镜头。
所以如果你想做一个纯粹的高质量AI短片,必须要大量抽卡的准备,抽卡次数越多,接近你心中想要的画面的概率就越大。
也就是说,如果你想做AI短片,你至少要有足够的预算去给这些AI视频工具充值才可以。当然高阶玩家可以通过本地版的SVD来解决这个问题,进一步拉低成本,但目前SVD的视频效果其实不如Runway、Pika还有Pikverse。
不过以AI领域如今的进化速度来看,以上这些痛点估计很快就会被解决掉,希望这些工具的下个版本更新,还有万众瞩目的Sora以及Midjourney视频版的正式发布,AI视频生成能够能给我们带来新的惊喜。