Qwen Image 2.0 是阿里巴巴的下一代图像生成和编辑模型。它将生成和编辑合并到单一统一模型中,具有专业的文字渲染能力。该模型支持最多 1000 个 token 的提示词,用于极其详细的布局指令,并以原生 2K 分辨率(2048×2048)生成图像,无需放大。尽管功能增强,参数量从 20B 减少到 7B——缩小近 3 倍且速度更快。
中英文字符级精确渲染。处理大量文字,智能构图、适当留白和对齐。文字适应表面,具有正确的透视效果。
原生生成高达 2048×2048 像素,非放大。皮肤毛孔、织物纹理、建筑细节等精细细节在生成过程中以微观精度直接渲染。
生成和编辑的单一模型。添加文字叠加、执行多图合成、处理跨域编辑。文字渲染质量对两者同等受益。
从 20B 减少到 7B 参数——缩小近 3 倍。8B Qwen3-VL 编码器输入到 7B 扩散解码器。在保持质量的同时推理更快。
Qwen Image 2.0 擅长专业富文本内容创作,具有卓越的排版和照片级真实感。
字符级精确渲染、大量文字处理、带有适当留白的美观构图、真实的表面适应(玻璃、织物、纸张)以及结构化布局中的自动对齐。
支持最多 1000 个 token 的提示词,用于极其详细的布局指令。一次生成完整的信息图表、PPT 幻灯片、海报和漫画,具有复杂规格。
中英文文字的卓越渲染。正确的字符间距、对齐和融入视觉构图。支持多种中文书法风格。
将卡通角色放入真实照片、添加书法叠加、执行多图合成。统一模型以一致的质量处理各种编辑任务。
原生 2K 生成捕获精细纹理:发丝、织物纹理、龟裂的土地、森林树叶、建筑细节。无放大伪影。
在 AI Arena 上的盲测显示,使用同一统一模型在文本生成图像和图像到图像基准上均表现优异。
Qwen Image 2.0 擅长专业富文本内容和照片级真实场景。
创建专业富文本内容和照片级真实图像:
提供最多 1000 个 token 的详细提示词,包含布局规格。生成具有专业排版的信息图表、海报、漫画和照片级真实场景。
使用文本指令编辑现有图像。添加包括书法在内的文字叠加、执行多图合成以及处理跨域编辑任务。
创建具有自动文字对齐的 PPT 幻灯片、日历、数据图表和结构化布局。模型智能地将文字放置在留白区域。
生成包含中英文文字的内容。模型处理字符级渲染、正确间距以及两种语言的文化排版惯例。
关于 Qwen Image 2.0 AI 图像生成模型的常见问题。