苹果发布开源视频生成模型STARFlow-V,引领视频生成技术新篇章
苹果公司发布了一项开源视频生成模型,名为STARFlow-V,该模型采用先进的深度学习技术,可生成高质量的视频内容,STARFlow-V旨在促进视频处理领域的创新和发展,开发人员可利用其创建更丰富的视觉体验,此模型的开源性质意味着开发者可自由访问和使用模型代码,共同完善和优化技术,苹果通过STARFlow-V的发布,进一步展现了其在机器学习领域的领先地位。
苹果在 github 上正式开源了 starflow-v 项目,这是一款参数量达 70 亿的视频生成模型。

据官方介绍,STARFlow-V 构建于 Normalizing Flow(归一化流)架构之上,工作于联合时空潜在空间中,并采用全局-局部协同设计,兼顾生成效率与视觉保真度。该模型最高可输出分辨率为 640×480(即 480p)、时长为 81 帧(以 16 FPS 播放,约持续 5 秒)的视频序列。实验结果表明,基于归一化流的方法在视频生成质量上已能与主流视频扩散模型比肩。


STARFlow-V 是业界首个基于归一化流的因果式视频生成模型,支持端到端训练、天然具备似然估计能力,并原生兼容文本驱动视频生成(T2V)、图像驱动视频生成(I2V)以及视频编辑类任务(V2V),整个过程无需调整网络结构或重新训练模型。
项目主页:https://www.php.cn/link/a1810b42dcc83a4a1ba801293085aec7
源码仓库:点击下载
<< 上一篇
下一篇 >>
网友留言(0 条)