国产SORA 七火山Etna文生视频模型发布

SORA新手 2024年03月14日 中文版SORA 阅读:200 评论(0)

七火山发布Etna文生视频模型,可生成8-15秒4K高清视频,帧率高达60FPS,它采用最新DiT架构,加入时空卷积和注意力层,同时保持稳定和连续,超20亿参数训练,视频流畅自然,最高分辨率3840*2160,画面细腻逼真。

3月5日,超讯通信X七火山(官网:https://etna.7volcanoes.com/)大会上,一段4K高清、帧率高达60的文生视频,让参会的科技圈人士惊呼连连。

和其他AI视频最高30帧/秒不同,七火山的这个Etna模型生成的视频,首次实现了60FPS的超高帧率,而且是4K高清!视频长度也来到了15秒。

先看一下它的这段视频吧。

是不是非常惊艳?

视频中,无论是水母、鲸鱼、章鱼、螃蟹、斑马、火烈鸟,还是冲浪者、划潜艇的人、滑雪的人,都在兼顾高清、细节的同时,保持了非常高的流畅度,动作连贯,甚至达到了3840x2160的超高分辨率。

Etna模型

Etna是七火山公司出品的一款文生视频模型,采用Diffusion架构,在一个更大的数据集上实验和适配与Sora相似的Diffusion+Transform架构,进行融合,形成了一种高效且先进的新型Dit模型架构。

关于Dit,可以查看之前的介绍:扩散模型DiT:纯Transformer架构替换传统的U-Net主干

这不仅提升了模型的生成效率,还保证了生成内容的高质量和高一致性。

结合了时空卷积和注意力层,使其能够处理视频数据并理解时间连续性,从生成具有时间维度的视频内容。

它在大型视频数据集上进行训练,使用深度学习技术策略,包括大规模训练、超参数优化和微调等,以确保强大的性能和生成能力。

提示词

Etna借鉴了Sora模型的成功经验,并进行进一步的优化,可以更准确地捕捉和转化文本信息为视频内容,让生成的视频不偏离原文本想要的意图。

比如。

视频开头的冠鸽那一段,提示词prompt就是:

这张维多利亚冠鸽的特写照片展示了它引人注目的蓝色羽毛和红色胸部。它的羽冠是由精致的花边羽毛制成的,而它的眼睛是醒目的红色。鸟的头微微向一侧倾斜,给人一种帝王和威严的印象。

可以看到,Etna生成的冠鸽不仅非常忠实于prompt,而且鸟首微颔、帝王般的威严感,也都还原得十分到位,表现出了细腻的控制能力。

Etna是怎么训练的?

Etna模型在一个大型视频数据集上进行充分训练,过程采用先进的deep-learning技术策略,包括LDS大规模训练、复杂HPO超参数优化和DPO微调,确保了模型的强大性能和生成能力。

本文标签:

留个言吧 抢沙发