作者注:详解 PaperBanana 科研绘图框架的 5 大智能体工作原理和使用方法,结合 Nano Banana Pro 低成本 API 方案,帮助科研人员高效生成论文配图
科研论文中的方法论配图和统计图表,一直是研究人员最耗时的手工环节之一。PaperBanana 科研绘图框架正是为解决这一痛点而生——由北京大学和 Google Cloud AI Research 联合开发,它通过 5 个专业化 AI 智能体 协作,将文本描述自动转换为发表级学术配图。
核心价值: 读完本文,你将掌握 PaperBanana 科研绘图的完整工作流程、5 大智能体的分工协作机制,以及如何通过 Nano Banana Pro API 以低至官方 2 折的价格生成高质量学术配图。

PaperBanana 科研绘图核心要点
| 要点 | 说明 | 价值 |
|---|---|---|
| 5 智能体协作 | Retriever、Planner、Stylist、Visualizer、Critic 分工明确 | 每个环节专业化处理,质量远超单模型生成 |
| 292 个评测基准 | 基于 NeurIPS 2025 论文的 PaperBananaBench | 72.7% 盲评胜率,超越人工基线 |
| 双模式输出 | 方法论配图用图像生成,统计图表用 Matplotlib 代码 | 完全消除数据可视化中的数值幻觉问题 |
| 3 轮迭代优化 | Critic 智能体自动发现错误并引导重新生成 | 可读性提升 12.9%,美观度提升 6.6% |
| Nano Banana Pro 驱动 | 基于 Gemini 3 Pro Image 模型渲染 | 精准的形状、连接线和科研图标生成能力 |
PaperBanana 科研绘图的 5 大智能体详解
PaperBanana 科研绘图框架的核心在于将复杂的学术配图生成任务拆解为 5 个独立的专业化智能体。每个智能体负责特定环节,通过协作完成从文本描述到发表级配图的完整流程。这种多智能体架构的优势在于——每个步骤都有专门的模型负责质量把控,而非依赖单一模型完成所有任务。
在实际运行中,PaperBanana 科研绘图的 5 个智能体按照「线性规划 + 迭代优化」的两阶段流程协作。第一阶段由 Retriever、Planner 和 Stylist 完成参考检索、内容规划和风格设定;第二阶段由 Visualizer 和 Critic 进入 3 轮迭代循环,逐步提升配图的忠实度、简洁性、可读性和美观度。

PaperBanana 科研绘图 5 大智能体工作原理
Retriever 智能体:参考检索
Retriever 是 PaperBanana 科研绘图的起点。它从预构建的参考数据库中搜索与当前论文内容相似的配图样例,作为后续规划和风格设定的模板。这些参考样例来自顶级会议论文,确保输出风格符合学术出版标准。
Planner 智能体:内容规划
Planner 智能体负责将论文中的方法论文本描述转换为详细的配图规划。它利用 Retriever 检索到的参考样例进行上下文学习(In-Context Learning),将复杂的技术描述解构为结构化的视觉布局方案——包括元素类型、空间关系、连接方式和信息层次。
Stylist 智能体:风格统一
Stylist 智能体从全局参考样例中提取学术风格指南,确保生成的配图在颜色搭配、字体选择、图标风格等方面保持一致。这一步骤对于论文中包含多张配图的场景尤为重要——所有配图需要呈现统一的视觉风格。
Visualizer 智能体:图像渲染
Visualizer 是 PaperBanana 科研绘图中的核心生成引擎,使用 Nano Banana Pro(Gemini 3 Pro Image)模型将优化后的文本描述渲染为最终图像。它能精准生成科研配图中常见的复杂元素:
- 模型架构图中的编码器-解码器框架
- 算法流程图中的条件分支和循环结构
- 系统管线图中的多模块连接关系
- 专业化的科研图标和符号
Critic 智能体:质量审查
Critic 智能体在每轮生成后自动审查配图质量,从内容忠实度、信息简洁度、视觉可读性和美学效果 4 个维度进行评估。它会识别连接线错位、箭头方向错误、元素遮挡等常见问题,并生成修改建议供 Visualizer 在下一轮迭代中改进。
| 智能体 | 职责 | 输入 | 输出 |
|---|---|---|---|
| Retriever | 参考检索 | 论文方法论文本 | 相似配图样例集 |
| Planner | 内容规划 | 文本 + 参考样例 | 结构化配图方案 |
| Stylist | 风格统一 | 参考样例集 | 学术风格指南 |
| Visualizer | 图像渲染 | 配图方案 + 风格指南 | 生成的配图图像 |
| Critic | 质量审查 | 生成的配图 + 原始描述 | 修改建议和评分 |
🎯 技术建议: PaperBanana 的 Visualizer 智能体底层依赖 Nano Banana Pro 模型进行图像渲染。如果你需要独立使用 Nano Banana Pro 进行科研绘图测试,可以通过 API易 apiyi.com 平台调用该模型 API,价格仅需 $0.05/张,低至官方定价的 2 折。
PaperBanana 科研绘图支持的配图类型
PaperBanana 科研绘图框架支持两大类学术配图,采用不同的技术路线确保输出质量:
方法论配图(Methodology Diagrams)
方法论配图是科研论文中最常见也最复杂的插图类型。PaperBanana 科研绘图使用 Nano Banana Pro 模型直接生成图像,支持以下类型:
- 模型架构图: Transformer、CNN、GAN 等经典架构的可视化
- 算法流程图: 多步骤算法的执行流程和条件分支
- 系统管线图: 多模块系统的数据流向和处理流程
- 编码器-解码器框架: 序列到序列模型的内部结构
统计图表(Statistical Plots)
对于需要精确数值表达的统计图表,PaperBanana 科研绘图采用了独特的策略——不直接生成图像,而是生成可执行的 Python Matplotlib 代码。这一设计完全消除了 AI 图像生成中的数值幻觉问题,确保柱状图、折线图中的每个数据点都精确无误。
| 配图类型 | 生成方式 | 核心优势 | 适用场景 |
|---|---|---|---|
| 模型架构图 | Nano Banana Pro 图像生成 | 复杂结构精准渲染 | 深度学习论文方法部分 |
| 算法流程图 | Nano Banana Pro 图像生成 | 条件分支清晰表达 | 算法设计论文 |
| 柱状图/折线图 | Matplotlib 代码生成 | 数值零误差 | 实验结果展示 |
| 系统管线图 | Nano Banana Pro 图像生成 | 多模块关系清晰 | 系统设计论文 |

PaperBanana 科研绘图快速上手
极简示例:使用 Nano Banana Pro API 生成科研配图
以下是通过 API 调用 Nano Banana Pro 模型生成科研配图的最简方式:
import openai
client = openai.OpenAI(
api_key="YOUR_API_KEY",
base_url="https://vip.apiyi.com/v1" # 使用 API易 统一接口
)
response = client.chat.completions.create(
model="nano-banana-pro",
messages=[{
"role": "user",
"content": "Generate a methodology diagram showing a Transformer encoder-decoder architecture with attention mechanism, suitable for an academic paper. Use clean lines, professional color scheme, and labeled components."
}]
)
print(response.choices[0].message.content)
查看完整的 PaperBanana 风格科研配图生成代码
import openai
from typing import Optional
def generate_scientific_figure(
description: str,
style: str = "academic",
diagram_type: str = "methodology",
max_tokens: int = 4096
) -> str:
"""
使用 Nano Banana Pro 生成科研配图
Args:
description: 配图内容描述(英文效果最佳)
style: 风格类型 - academic/minimal/detailed
diagram_type: 配图类型 - methodology/flowchart/architecture
max_tokens: 最大输出 token 数
Returns:
生成的配图结果
"""
client = openai.OpenAI(
api_key="YOUR_API_KEY",
base_url="https://vip.apiyi.com/v1" # API易统一接口
)
style_prompts = {
"academic": "professional academic paper style, clean layout, labeled components",
"minimal": "minimalist style, essential elements only, high contrast",
"detailed": "detailed illustration with annotations and legends"
}
prompt = f"""Generate a {diagram_type} diagram for a research paper:
{description}
Style requirements: {style_prompts.get(style, style_prompts['academic'])}
Output: High-resolution image suitable for publication."""
try:
response = client.chat.completions.create(
model="nano-banana-pro",
messages=[{"role": "user", "content": prompt}],
max_tokens=max_tokens
)
return response.choices[0].message.content
except Exception as e:
return f"Error: {str(e)}"
# 使用示例:生成 Transformer 架构图
result = generate_scientific_figure(
description="A Vision Transformer (ViT) architecture showing patch embedding, "
"multi-head self-attention blocks, and classification head. "
"Include skip connections and layer normalization.",
style="academic",
diagram_type="architecture"
)
print(result)
💰 成本优化: 通过 API易 apiyi.com 调用 Nano Banana Pro API,每张科研配图仅需 $0.05,相比官方 $0.234 的定价节省近 80%。对于需要批量生成配图的科研团队,这一价格优势尤为显著。同时推荐使用在线出图工具 Image.apiyi.com,无需代码即可快速生成科研插图。
PaperBanana 科研绘图评测数据
PaperBanana 科研绘图框架在 PaperBananaBench 基准测试中表现优异。该基准包含 292 个测试用例,全部来源于 NeurIPS 2025 发表的论文配图,覆盖了多样化的研究领域和插图风格。
核心评测指标
| 评测维度 | PaperBanana 表现 | 相比基线提升 | 说明 |
|---|---|---|---|
| 盲评胜率 | 72.7% | — | 人类评审在盲测中优选 PaperBanana 输出 |
| 简洁度 | 显著提升 | +37.2% | 去除冗余元素,信息密度更高 |
| 可读性 | 显著提升 | +12.9% | 布局清晰,信息层次分明 |
| 美观度 | 显著提升 | +6.6% | 配色和排版更专业 |
| 内容忠实度 | 45.8% | +2.8% | 仍低于 50% 人工基线,有改进空间 |
当前局限性
尽管 PaperBanana 科研绘图在自动化学术配图领域取得了突破性进展,但仍存在一些需要注意的局限:
- 输出格式: 当前仅支持栅格图像(PNG/JPG),不支持可编辑的矢量图形(SVG/PDF)
- 空间关系: 语言模型在检测连接线方向、箭头对齐等空间关系错误时存在困难
- 微调修正: 生成后无法对配图进行局部修改,需要重新生成整张图
- 内容忠实度: 45.8% 的忠实度得分说明复杂配图仍建议人工审核
🎯 实用建议: 对于重要论文的配图,建议使用 PaperBanana 生成多个版本后人工筛选。通过 API易 apiyi.com 平台调用 Nano Banana Pro,可以低成本批量生成候选配图,大幅缩短筛选周期。
Nano Banana Pro 科研绘图价格对比
Nano Banana Pro 是 PaperBanana 科研绘图的底层图像生成模型。对于独立使用该模型生成科研配图的场景,不同平台的价格差异显著:
| 平台 | 标准分辨率价格 | 4K 分辨率价格 | 适用场景 |
|---|---|---|---|
| Google 官方 API | $0.134/张 | $0.234/张 | 企业级直连需求 |
| API易 apiyi.com | $0.05/张 | $0.05/张 | 科研团队和个人开发者(推荐) |
| Google Pro 订阅 | ~$0.007/张(满额使用) | ~$0.007/张 | 高频使用者(月 $19.99) |
通过 API易平台调用 Nano Banana Pro API,不仅价格仅为官方的 2 折左右,还支持 OpenAI 兼容接口格式,无需修改现有代码即可切换。对于科研团队而言,批量生成论文配图的成本可以控制在极低水平。
常见问题
Q1: PaperBanana 科研绘图目前是否开源可用?
PaperBanana 的论文(arXiv: 2601.23265)和项目主页已公开,代码仓库位于 GitHub: github.com/dwzhu-pku/PaperBanana。目前代码和数据集正在准备发布中。在等待开源的同时,你可以直接使用 Nano Banana Pro API 进行科研配图生成,通过 API易 apiyi.com 平台即可快速接入。
Q2: Nano Banana Pro 生成的科研配图质量如何?
Nano Banana Pro(Gemini 3 Pro Image)在科研配图场景下表现出色,支持高分辨率(最高 4K)输出,能准确渲染复杂的模型架构、流程图和科研图标。在 PaperBanana 的评测中,72.7% 的情况下人类评审更偏好该系统的输出。建议使用英文 Prompt 以获得最佳效果。在线工具 Image.apiyi.com 提供零代码的可视化出图体验,适合快速验证配图效果。
Q3: 如何快速开始使用 Nano Banana Pro 生成科研配图?
推荐通过以下方式快速上手:
- 访问 API易 apiyi.com 注册账号,获取 API Key 和免费额度
- 使用本文提供的代码示例,替换 API Key 后即可调用
- 或直接使用在线出图工具 Image.apiyi.com,无需编写代码
- 建议先用简单的架构图测试效果,再尝试复杂的多模块系统图
总结
PaperBanana 科研绘图框架的核心要点:
- 5 智能体架构: Retriever、Planner、Stylist、Visualizer 和 Critic 分工协作,实现从文本到学术配图的自动化生成
- 双模式输出: 方法论配图用 Nano Banana Pro 图像生成,统计图表用 Matplotlib 代码生成,彻底消除数值幻觉
- 评测领先: 72.7% 盲评胜率,简洁度提升 37.2%,但内容忠实度仍需人工把关
- 低成本方案: 通过 API易平台调用 Nano Banana Pro API,每张配图仅 $0.05,低至官方 2 折
PaperBanana 科研绘图代表了 AI 辅助科研的一个重要方向。虽然完全自动化的学术配图还需要进一步突破空间关系理解的瓶颈,但它已经能够显著缩短科研人员在配图上的时间投入。
推荐通过 API易 apiyi.com 快速体验 Nano Banana Pro 科研绘图能力,平台提供免费额度和 OpenAI 兼容接口,也可使用在线工具 Image.apiyi.com 零代码出图。
📚 参考资料
⚠️ 链接格式说明: 所有外链使用
资料名: domain.com格式,方便复制但不可点击跳转,避免 SEO 权重流失。
-
PaperBanana 项目主页: 官方发布页面,包含论文摘要、示例配图和 Demo
- 链接:
dwzhu-pku.github.io/PaperBanana/ - 说明: 了解 PaperBanana 科研绘图框架的核心能力和最新进展
- 链接:
-
PaperBanana GitHub 仓库: 开源代码和数据集
- 链接:
github.com/dwzhu-pku/PaperBanana - 说明: 获取 PaperBanana 源码和 PaperBananaBench 评测基准
- 链接:
-
PaperBanana 论文: arXiv 预印本全文
- 链接:
arxiv.org/abs/2601.23265 - 说明: 深入理解 5 智能体架构设计和评测方法论
- 链接:
-
Nano Banana Pro 官方文档: Google DeepMind 模型介绍
- 链接:
deepmind.google/models/gemini-image/pro/ - 说明: 了解 Nano Banana Pro 的技术规格和 API 参数
- 链接:
-
API易 Nano Banana Pro 在线出图: 零代码科研配图生成工具
- 链接:
Image.apiyi.com - 说明: 无需编写代码,直接在浏览器中生成科研配图
- 链接:
作者: APIYI Team
技术交流: 欢迎在评论区讨论 PaperBanana 科研绘图的使用经验,更多 AI 模型资讯可访问 API易 apiyi.com 技术社区
