网心算力云上线通义万相Wan2.2-S2V

首页

技术趋势

新闻详情

网心算力云上线通义万相Wan2.2-S2V

2025年09月02日

通义万相重磅开源 —— 全新音频驱动视频模型Wan2.2-S2V超实用！仅需一张图片和一段音频，即可生成面部表情自然、口型匹配、肢体丝滑的电影级数字人视频，还支持分钟级时长，不管是数字人直播还是影视制作，效率直接拉满！

目前，Wan2.2-S2V模型已在网心算力云ComfyUI_v.0.0.86版本中全面支持。

图 | 网心算力云镜像中心

模型介绍

据官方透露，此次开源的Wan2.2-S2V可不是只动动嘴皮子的普通模型：手势、表情、姿态都能灵活联动，且完美适配卡通、动物等风格化形象，甚至能稳定生成分钟级长视频，实力相当全面。其在更深层的架构设计层面，还暗藏了不少创新亮点：

图 | 音频驱动的视频模型架构

✅ 融合文本引导的全局运动控制和音频驱动的细粒度局部运动，实现复杂场景的音频驱动视频生成；

✅ 引入 AdaIN 和 CrossAttention 控制机制，实现了更准确更动态的音频控制效果；

✅ 通过层次化帧压缩技术，大幅降低历史帧 Token 数量，实现了稳定的长视频生成效果；

✅ 构建了超60万个片段的音视频数据集，通过混合并行训练、全参数化训练充分挖掘模型性能；

✅ 通过多分辨率训练和推理，支持生成不同分辨率场景视频（如竖屏短视频、横屏影视剧，提供480P与720P两档分辨率的视频规格）；

✅ 支持文本控制视频画面实现镜头运动、角色轨迹和实体间互动，让视频效果更加丰富。

模型部署

1）登录网心算力云，打开镜像中心并选择“ComfyUl_v0.0.86”快速创建实例。

2）选择合适的配置，点击创建并开机。

3）运行实例，找到对应工作流，即可开始测试。

模型表现

据官方介绍，Wan2.2-S2V模型在数字人直播、影视短剧创作、壁纸设计等领域表现不俗。以下是模型生成的素材，大家看看效果如何：

视频 | 热血动漫

视频 | 悬疑短剧

视频 | 抽象演唱

视频 | 动物场景

视频 | 卡通3D场景

国产视频模型实测，哪款更适配你的创作需求？

登顶编程开源第一，DeepSeek-V3.1登陆网心算力云平台！

反馈类型*	产品咨询需求建议
内容描述*
联系方式*
姓名：
联系邮箱：
电话号码：
验证码:

OneThingAI →

星域云 →

网心云 →

智能硬件 →

AI应用解决方案→

音视频解决方案→

云游戏解决方案→

客户中心→

帮助中心→

API文档 →

公司新闻 →

技术趋势→

媒体报道 →

公司简介 →

荣誉奖项→

联系我们 →