GPT Image 2 是 OpenAI 最新且最强大的图像生成模型,原生内置于 GPT-4o 架构中。与使用独立扩散系统通过插件式集成连接的早期模型(如 DALL-E 3)不同,GPT Image 2 与底层语言理解深度集成。处理文本的同一神经网络也生成图像,从而实现显著更好的指令遵循、近完美的文字渲染以及跨变体的面部一致性。它通过 OpenAI API 以 gpt-image-2 的名称提供,并为 ChatGPT 付费用户驱动图像生成功能。
在图像中生成可读、拼写正确的文字,具有可靠的稳定性。产品标签、社交媒体标题、信息图表标注和 UI 元素渲染得足够干净,可直接用于面向客户的工作,无需大量后期修正。
生成前的可选推理步骤。模型规划构图、解决歧义并处理相互冲突的视觉需求。在复杂多元素场景和技术精确提示词上产生明显更好的结果。
在多次生成、编辑版本和不同表情或角度的变体中,面部保持稳定。相比早期模型有显著改善,适合内容创作者和营销团队构建视觉资产库。
直接生成抠图,无需单独的背景移除步骤。非常适合产品图像、头像生成、贴纸创作和任何合成工作流。
GPT Image 2 通过基础架构改进和全新能力,解决了早期图像生成器的核心局限。
忠实处理长而详细的提示词。指定精确的相机角度、光照风格、材质纹理、空间关系和调色板。模型遵循完整指令集,而非仅关注最突出的名词。
灵活的输出配置:方形(1:1)、横向(16:9)、纵向(9:16)及中间宽高比。PNG、JPEG 和 WebP 格式,可配置分辨率和质量层级。
使用精确指令编辑现有图像,同时保持一致性。更换背景、修改服装、调整光照——模型理解什么应该改变,什么应该保持不变。
启用思维模式后,模型可解决具有精确布局需求的多元素场景。繁忙的室内场景、分屏图表和信息密集的视觉内容都变得可实现。
基于经过验证的 gpt-image-1 基础,进行了重大改进。多元素构图保真度更高,透明背景处理更好,面部保留更强,已为专业生产流程做好准备。
完整的 API 访问,可配置输出大小、格式、宽高比、背景透明度和思维模式。基于 token 的定价随分辨率和复杂度扩展,实现经济高效的生产工作流。
GPT Image 2 能力和输出格式:
方形(1:1)、横向(16:9)、纵向(9:16)及中间格式。灵活的宽高比适配不同平台和用例,无需手动裁剪。
PNG、JPEG 和 WebP,可配置分辨率和质量。支持透明背景输出,可直接生成抠图,无需单独的背景移除步骤。
生成前的可选内部推理步骤。增加延迟但能为复杂、技术精确或多元素提示词产生显著更好的结果。可按请求配置。
文本提示词用于从零开始生成。图像输入用于编辑和变体工作流。支持最多 16 张参考图像进行图生图和风格迁移任务。
精确控制地创建和编辑图像:
用详细的构图、光照、风格和元素规格描述你的愿景。模型像语言模型一样解读提示词,然后据此生成——而非简单地匹配训练数据模式。
上传参考图像并提供具体编辑指令。模型理解什么应该改变、什么应该保持不变,实现针对性修改而非完全重新生成。
为多元素构图、技术精确图表或具有精确布局需求的提示词启用思维模式。模型在生成前进行规划,解决歧义和空间冲突。
直接生成带有透明背景的产品抠图、头像和贴纸风格图像。无需单独的背景移除步骤,节省合成工作流中的时间。
GPT Image 2 足够强大,在各种生产场景中真正实用,不仅限于创意探索。
关于 GPT Image 2 AI 图像生成模型的常见问题。