腾讯近日在AI领域迈出了重要一步,其混元大模型推出的文生视频功能正式上线,标志着用户仅需一句话便能轻松生成视频。
这款视频生成大模型拥有惊人的130亿参数量,是目前市面上最大的视频开源模型。它不仅包含了完整的模型权重、推理代码以及算法,还已在Hugging Face平台和Github上公开发布,供企业和个人开发者免费使用,并鼓励他们在此基础上开发更多的生态插件。
用户现在可以通过腾讯元宝APP中的AI应用模块,进入AI视频功能提交试用申请。同时,企业客户也能够通过腾讯云接入服务,API内测申请也已同步开放。
该视频生成功能支持中英文双语输入,并提供多种视频尺寸和清晰度选项,满足用户多样化的需求。生成的视频质量极高,即便是冲浪、跳舞等动作幅度大的场景,画面也自然流畅,不易变形。
在镜面或镜子场景中,该模型生成的视频更是令人惊叹,镜面反射动作与外部场景完全同步,光影反射效果也基本符合物理规律,展现出其强大的技术实力。
腾讯混元视频生成大模型采用了先进的DiT架构,并在多个方面进行了优化升级。新一代文本编码器的引入,显著提升了模型的语义理解能力,使其能够更好地应对复杂场景下的多个主体描绘,实现更加细腻的画面呈现。
模型还采用了先进的图像视频混合VAE(3D变分编码器),使得在细节表现上有显著提升,特别是在小人脸、高速镜头等场景中,效果尤为明显。
腾讯的这一创新之举,无疑将为视频创作领域带来全新的变革,让更多人能够轻松享受到AI带来的便利与乐趣。