阿里通义千问开源 Qwen-Image:20B 参数图像生成模型,聚焦复杂文本渲染与精确编辑

2025-08-05 09:51:24 来源:IT之家
阿里通义千问开源 Qwen-Image:20B 参数图像生成模型,聚焦复杂文本渲染与精确编辑

  8 月 5 日消息,阿里通义千问团队今日正式宣布开源 Qwen-Image。这是一款基于 20B 参数的 MMDiT 模型,同时也是通义千问系列中首个图像生成基础模型。该模型在复杂文本渲染和精确图像编辑领域取得了显著突破,为图像生成与编辑领域注入了新的活力。

  Qwen-Image 的核心特性

  Qwen-Image 凭借多项突出特性,展现出强大的性能:

  卓越的文本渲染能力:该模型在复杂文本渲染方面表现抢眼,能够支持多行布局、段落级文本生成以及细粒度细节呈现。无论是英语还是中文文本,都能实现高保真输出,精准还原文字的形态与排版。

  稳定的图像编辑一致性:通过增强的多任务训练范式,Qwen-Image 在图像编辑过程中能有效保持编辑的一致性,确保编辑前后的图像在风格、元素关联等方面连贯统一。

  领先的跨基准性能:在多个公开基准测试中,Qwen-Image 的表现均达到行业领先水平(SOTA)。通义千问团队对其进行了全面评估,涵盖通用图像生成领域的 GenEval、DPG 和 OneIG-Bench,以及图像编辑领域的 GEdit、ImgEdit 和 GSO。尤其在文本渲染相关的 LongText-Bench、ChineseWord 和 TextCraft 基准测试中,该模型表现尤为出色,在中文文本渲染方面大幅领先现有最先进模型。

  功能示例展示

  多个示例,直观呈现 Qwen-Image 的能力:

  场景化图像生成:根据 “宫崎骏的动漫风格。平视角拍摄,阳光下的古街热闹非凡……” 等详细描述,能生成符合风格与场景设定的生动图像,其中包含 “阿里云” 卡片、“云存储”“云计算”“云模型” 等元素,细节丰富且贴合文本。

  中式文本与场景生成:可生成典雅庄重的中式厅堂场景,其中悬挂着指定对联 “义本生知人机同道善思新”“通云赋智乾坤启数高志远”,横批 “智启通义”,字体飘逸,搭配青花瓷、岳阳楼画作等元素,尽显古典韵味。

  含特定文本的人物图像:能生成穿着 “QWEN” 标志 T 恤的中国美女形象,其身后玻璃板上的手写体文本 “Meet Qwen-Image -- a powerful image foundation model capable of complex text rendering and precise image editing. 欢迎了解 Qwen-Image, 一款强大的图像基础模型,擅长复杂文本渲染与精准图像编辑” 清晰可辨,人物姿态与文本呈现自然融合。

  广泛的应用能力

  除了在文本处理方面的优势,Qwen-Image 在通用图像生成和图像编辑领域也具备广泛的应用能力:

  多风格图像生成:支持从照片级写实场景到印象派绘画,从动漫风格到极简设计等多种艺术风格,能够灵活响应各类创意提示,满足不同的创作需求。

  多样化图像编辑:提供风格迁移、增删改、细节增强、文字编辑、人物姿态调整等多种编辑操作,让普通用户无需专业技能,也能实现专业级的图像编辑效果。

  Qwen-Image 的开源,不仅丰富了通义千问系列的模型生态,也为开发者和用户在图像生成与编辑领域提供了更强大的工具,有望推动相关技术的进一步发展与应用落地。

免责声明:本文仅代表作者个人观点,与朝闻天下无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
    本网站有部分内容均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,若因作品内容、知识产权、版权和其他问题,请及时提供相关证明等材料并与我们联系,本网站将在规定时间内给予删除等相关处理.

猜你喜欢

特斯拉因 Robotaxi 服务遭股东起诉,马斯克强烈回击

8月6日消息,特斯拉及其首席执行官埃隆・马斯克近期面临来自“激进股东”的严峻挑战,这些股东再度发起行动,对特斯拉和马斯克提起诉讼,指控他们在得克萨斯州奥斯汀推出自动驾驶出租车(Robotaxi)服务时

特斯拉

1天前

中国团队实现基因工程重大突破,新型染色体编辑技术问世

8月5日,据中新网报道,中国科学院遗传与发育生物学研究所高彩霞研究员团队取得一项重大科研成果,成功研发出新型可编程染色体编辑技术(ProgrammableChromosomeEngineering,P

工程 技术

2天前

阿里通义千问开源 Qwen-Image:20B 参数图像生成模型,聚焦复杂文本渲染与精确编辑

8月5日消息,阿里通义千问团队今日正式宣布开源Qwen-Image。这是一款基于20B参数的MMDiT模型,同时也是通义千问系列中首个图像生成基础模型。该模型在复杂文本渲染和精确图像编辑领域取得了显著

开源

2天前

苹果 Siri 重大突破!端到端改进成效显著,升级值得期待

8月3日,彭博社发布博文称,在苹果公司全体员工大会上,苹果软件主管CraigFederighi分享了Siri的最新进展。此次大会持续1个多小时,库克等公司高管纷纷登台演讲,旨在安抚员工、提振士气,同时

苹果

2天前

OpenAI 调整 ChatGPT 运作方式,助力用户健康使用

8月5日,OpenAI公司发布博文称,为帮助用户更健康地使用聊天机器人,从当日起将调整ChatGPT的运作方式,具体措施为向用户提供使用时长的“温和提醒”,并建议用户适当休息,这一举措类似视频流媒体平

AI 健康

2天前

谷歌调侃苹果 Siri AI 功能延期,为 Pixel 10 系列手机宣传造势

8月5日,科技媒体BusinessInsider报道,谷歌在其最新的Pixel10系列手机宣传视频中,对苹果SiriAI功能延期一事进行了调侃。苹果于2024年全球开发者大会上,官宣将对Siri进行重

谷歌 苹果 AI

2天前