首页 十大品牌文章正文

Boogu-Image:10B参数击败20B/80B闭源模型的开源黑马

十大品牌 2026年06月22日 15:52 9 aa

核心价值:10B 参数击败 20B/80B 闭源模型,Apache-2.0 协议免费商用,中英文字渲染准确率行业第一梯队

端午黑马 Boogu-Image-0.1:统一架构一次开源 Base/Turbo/Edit 三大变体,用少一个数量级的训练数据,在 Qwen-Image-Bench 上以 53.58 分登顶开源模型榜首,比 80B 的 Hunyuan-Image-3.0 还高 2.77 分。

Boogu-Image:10B参数击败20B/80B闭源模型的开源黑马


什么是 Boogu-Image?

Boogu-Image-0.1 是 2026 年 6 月 16 日突然杀出的开源图像生成与编辑"黑马"项目。在没有铺天盖地的营销、没有大厂背书的情况下,仅凭 Hugging Face 上的几行 commit log,就在端午节引发了整个开源 AI 绘画圈的热议。

它的全量发布采用了 Apache-2.0 协议,一次性开源了 Base / Turbo / Edit 三个核心变体,统一在 100 亿参数的架构之上,联合训练(Joint Training)而成。这个项目最让人意外的核心定位是:"在训练数据量比现有开源模型少一个数量级的情况下,依然打到了第一梯队"——这话不是营销话术,而是 Qwen-Image-Bench 跑分榜上实实在在的结果。

Boogu-Image:10B参数击败20B/80B闭源模型的开源黑马

Boogu-Image:10B参数击败20B/80B闭源模型的开源黑马

Boogu-Image:10B参数击败20B/80B闭源模型的开源黑马

Boogu 团队的核心思路很朴素:闭源系统(比如 GPT-Image-2、Nano Banana Pro)之所以强,不是因为某一个模型有多神奇,而是整个系统高度统一。他们在训练算力极其有限的情况下,用更小的数据量、更好的数据质量、更系统的训练方法,做出了一个有竞争力的开源方案。

核心定位:Apache-2.0 协议一次开源全家桶(Base/Turbo/Edit),10B 参数击败 20B Qwen-Image 和 80B Hunyuan-Image


✨ 核心功能一览

Boogu-Image:10B参数击败20B/80B闭源模型的开源黑马

Base — 全能基石

Boogu 的"根模型",也是 Turbo 的蒸馏基础。它特别擅长超密集文字渲染——海报、文档、UI 界面里塞上上百个中文字符,它也能稳稳 hold 住。在统一架构下,Base 模型在多样性、可控性、长文本理解上做到了行业第一梯队水平。

Turbo — 4 步速成

Boogu 最引人注目的变体。通过 Decoupled DMD 蒸馏技术,将原本需要 25~50 步的 Base 压缩到 4 步。参数量不变,速度翻了十倍以上。在高配硬件上,单次推理可以控制在 1 秒以内,对追求效率的用户来说,几乎就是"即说即出"的体验。

Edit — 图像编辑

Edit 支持自然语言指令驱动的图像编辑,从局部调整到创意改写都能胜任。它目前聚焦于摄影类编辑场景,在多参考图、大幅度视角变化等复杂场景下还在持续打磨。配合 ComfyUI 官方发布的 Flux Context Image 节点,可以显著降低编辑偏移问题。


️ 快速上手:5 分钟跑通示例

硬件要求(消费级友好)

显存

推荐配置

12GB

fp8 量化版 + 模型 CPU offload

16GB

fp8 量化版 + 模型 CPU offload

24GB

fp8 量化版 / 原始 Base 权重

32GB+

完整原始 Base 权重

安装步骤

# 1. 创建 conda 环境conda create -y -n boogu python=3.10conda activate boogu# 2. 克隆仓库并安装依赖git clone https://github.com/boogu-project/Boogu-Image.gitcd Boogu-Imagepip install -r requirements/torch2.7-cu126.txtpip install -e .# 3. 自动安装 Flash Attention(自动检测环境,下载预编译 wheel)python utils/get_flash_attn.py

或者一键启动:

bash quick_start.shconda activate boogu

下载模型权重

pip install -U "huggingface_hub[cli]"huggingface-cli download Boogu/Boogu-Image-0.1-Base  --local-dir models/Boogu-Image-0.1-Basehuggingface-cli download Boogu/Boogu-Image-0.1-Turbo --local-dir models/Boogu-Image-0.1-Turbohuggingface-cli download Boogu/Boogu-Image-0.1-Edit   --local-dir models/Boogu-Image-0.1-Edit

每个模型同时提供 fp8 量化版本,可将显存占用降低约 40%。

第一个生成示例(PyTorch 原生推理)

export device="cuda:0"python inference.py \  --pretrained_pipeline_name_or_path "models/Boogu-Image-0.1-Base" \  --instruction "一幅国风琉金风格的山水画作,展现了桂林山水在金光普照下的壮丽景象。远山层叠,江水如镜,山峰边缘勾勒着发光的金色线条。画面采用石青石绿岩彩与鎏金质感相结合,局部有厚涂油画笔触,空中飘浮着金色粒子,营造出梦幻朦胧而又磅礴大气的意境。" \  --num_inference_steps 50 \  --height 1024 --width 1024 \  --text_guidance_scale 4.0 \  --output_image_path "outputs/test_base/out_1.png" \  --device "$device"

注意:CFG 推荐值:Base 用 4.0,Turbo 用 1.0,Edit 用 5.0。如果遇到全黑输出,先禁用 --enable_torch_compile

ComfyUI 集成

ComfyUI 官方在 6 月 17 日就快速支持了 Boogu-Image,下载后放置到 ComfyUI 的 models 目录即可使用。社区还提供了 GGUF 量化版本(realrebelai/Boogu-Image-Turbo_GGUFs),Q4 量化的 Turbo 模型在 12GB 显存上就能跑得动。


与同类开源模型对比

Boogu-Image:10B参数击败20B/80B闭源模型的开源黑马

Qwen-Image-Bench 公开评测中,Boogu-Image-0.1 以 10B 参数 的体量,击败了 20B 的 Qwen-Image-2512(52.06 分)和 80B 的 Hunyuan-Image-3.0(50.81 分),位列开源模型第一名。

核心数据:10B vs 20B/80B,53.58 vs 52.06/50.81——参数不到对手零头,分数却高过两位数

更值得关注的是它的"全家桶"优势:Qwen-Image 和 Hunyuan-Image 只有 T2I 主模型,Boogu 却一次开源了 T2I / 4步快速生成 / 图像编辑三条产品线。这对需要在 ComfyUI 中构建工作流的设计师和内容创作者来说,相当于少集成三套不同架构的依赖。


适用场景与真实展示

场景一:高质量摄影写实

Boogu-Base 在摄影提示的理解上达到了行业第一梯队水平。无论是光线氛围、镜头参数还是人物表情细节,都能精准还原。

Boogu-Image:10B参数击败20B/80B闭源模型的开源黑马

适用人群:电商产品摄影、广告创意、社交媒体内容 生成参数:Base 模型,50 步推理,CFG 4.0


场景二:中英文字渲染(杀手锏)

海报、印章、文档、UI 界面、品牌指南、手写板——这些场景需要模型对密集中文字符有近乎 OCR 级别的稳定性。Boogu 在这方面的实测表现明显优于同类开源模型。

Boogu-Image:10B参数击败20B/80B闭源模型的开源黑马

核心亮点:早摊招牌、公告栏、段落手写体场景准确率明显高于 FLUX/Qwen-Image

适用人群:中文品牌设计师、自媒体运营、电商海报设计


场景三:多样化风格化

微缩 3D 场景、国风鎏金美学、奇幻视觉、动漫肖像、神话题材——Boogu 的风格多样性是其另一大亮点。

Boogu-Image:10B参数击败20B/80B闭源模型的开源黑马

适用人群:概念设计师、插画师、游戏美术


场景四:自然语言图像编辑

Edit 变体支持自然语言指令驱动图像编辑,覆盖物体插入/替换/删除、属性/材质修改、背景/场景替换、艺术风格迁移等场景。

Boogu-Image:10B参数击败20B/80B闭源模型的开源黑马

输入示例:"将衣服修改成红色,戴上白色帽子" 输出效果:服装颜色准确迁移,帽子自然融入构图


场景五:风格迁移

从油画到水墨,从赛博朋克到复古胶片,Boogu 支持对任意图像进行艺术风格迁移。

Boogu-Image:10B参数击败20B/80B闭源模型的开源黑马


场景六:海报设计

个性化海报布局与产品可视化是 Boogu 团队的研发重点之一。配合其强大的中文文字渲染能力,可以直接生成可用于商业场景的成品海报。

Boogu-Image:10B参数击败20B/80B闭源模型的开源黑马


场景七:文字编辑

针对图像内的中英文字符,Boogu 支持精细的局部文字替换与修改,而无需重新生成整张图。

Boogu-Image:10B参数击败20B/80B闭源模型的开源黑马


定价与开源协议

项目

说明

开源协议

Apache-2.0(可商用、可微调、可分发)

模型权重

HuggingFace + ModelScope 双平台

显存起步

12GB(fp8 量化版)

推荐配置

24GB+(原始 Base 权重)

在线 Demo

demo-base.boogu.org / demo-edit.boogu.org / demo-turbo.boogu.org

商业 API

⚠️


无任何官方付费 API/订阅服务——任何名为 "Boogu" 的付费产品都与官方无关

用户福利:Apache-2.0 协议意味着你可以免费下载、商用部署、私有微调——这是真正意义上"开源免费"


总结

Boogu-Image-0.1 给开源图像生成领域注入了一剂强心针。它不完美——10B 参数的模型不可能打败 80B 的闭源巨无霸。但它证明了一件事:在合理的数据策略和训练方法下,小参数模型同样可以打出竞争力

对于中文创作者来说,Boogu 的双语文本渲染能力尤其实用;对于ComfyUI 玩家来说,官方节点支持来得又快又稳,上手几乎没有门槛;对于算力有限的独立开发者来说,fp8 量化版 + GGUF 社区支持让 12GB 显存也能流畅运行 100 亿参数的模型。

推荐指数:⭐⭐⭐⭐⭐(满分 5 星,2026 年度最佳开源图像模型候选)

适合人群:中文内容创作者、独立开发者、ComfyUI 工作流设计师、AI 绘画玩家

立即体验: - 在线 Demo:http://demo-base.boogu.org/ / demo-edit.boogu.org/ / demo-turbo.boogu.org/ - GitHub 仓库:https://github.com/boogu-project/Boogu-Image - HuggingFace 模型:https://huggingface.co/Boogu


⚠️ 已知局限(诚实说明)

  1. 世界知识:名人、地标、复杂常识理解仍落后于顶级闭源模型
  2. 编辑一致性:多图参考、身份保持、精细编辑还不够稳定
  3. 细节伪影:受限于 FLUX.1 VAE,小人脸、小肢体可能出现伪影
  4. 语言限制:文字渲染主要针对中英文,其他语言效果退化
  5. Base 噪点:大场景生成时 Base 模型偶尔出现噪点问题(Turbo 表现更好)
  6. 训练细节:团队表示无法开源所有训练与系统细节

数据截至 2026-06-22,最新信息请以官方仓库为准。

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap