首页
新闻详情

网心算力云上线Qwen-Image模型,中文渲染能力一骑绝尘!

2025年09月02日

继通义千问首个图像生成模型 Qwen-Image 发布后,其重磅续作 Qwen-Image-Edit 日前正式亮相。作为一款20B参数MMDiT架构的图像编辑基础模型,它在精准文本编辑、语义与外观编辑等方面表现卓越,尤其在中文文本渲染能力上一骑绝尘。



目前,Qwen-Image 与 Qwen-Image-Edit 这两款模型已正式登陆网心算力云平台。


模型介绍


✅  Qwen-Image


通义千问系列首个图像生成模型,参数规模达200亿,其在复杂文本渲染(包括多行、段落级、双语文本)、样式迁移、对象添加/删除、背景更改、细节增强等图像生成和编辑方面表现尤为突出。据悉,其在 GenEval、GEdit 等12项公开测试中,全面超越 FLUX.1、GPT Image 1、BAGEL、Seedream3.0等模型,取得了跨基准测试的SOTA表现。




图 | 图像生成&文本渲染基准测试


✅  Qwen-Image-Edit


在继承Qwen-Image优势的基础上,Qwen-Image-Edit 的文本渲染能力领先行业水平。无论是英文还是中文,它都能实现高保真的文本编辑(支持图像中添加、删除或修改文本的同时保留原有字体、大小和风格)。例如,在下面这件艺术品中,有几个汉字存在生成错误。我们可以借助 Qwen-Image-Edit 逐步纠正,这种精准的文本编辑能力使其在广告设计、品牌宣传和内容创作中具有巨大潜力。



图 | 书法文字定点修复


此外,Qwen-Image-Edit的创新亮点在于“双重编码机制”,能够同时实现对图像的语义和外观进行精细控制。具体来说,当你输入一张图片时,模型会通过两个并行的路径进行处理:


1) 视觉语义控制


利用 Qwen2.5-VL 模型提取图像的高级语义特征,理解画面中的内容、概念和上下文。


2) 视觉外观控制


通过一个变分自编码器(VAE)来处理图像的底层视觉细节,保留其原始的纹理、色彩和结构。


这两种信息流随后在模型内部进行融合,确保Qwen-Image-Edit在执行复杂编辑指令时,既能理解语义意图,又能保持视觉保真度。


图 | 双编码架构(来源:Qwen技术报告)


模型部署


目前,Qwen-Image系列模型已在网心算力云平台上线。下面以Qwen-Image为例,仅需简单配置,即可快速运行:


1)选择网心算力云 - 镜像中心提供的“ComfyUl_v0.0.84”快速创建实例。



2)选择合适的配置,点击创建并开机。



3)将模型中心已准备好的 Qwen-Image 模型文件一键下载到该实例上。



4)运行实例,找到Qwen-Image工作流,即可开始测试。



模型应用


目前 Qwen-Image 系列模型广泛应用在海报封面设计、人物艺术写真、商业品牌营销、图像生成与编辑等领域。下面是我们近期通过 Qwen-Image 模型,基于已有海报一键风格反推,生成风格一致的新海报。详细教程: 《Qwen-Image一键洗图丨100种工作流》



建议反馈

业务咨询