作者注:詳解 PaperBanana 科研繪圖框架的 5 大智能體工作原理和使用方法,結合 Nano Banana Pro 低成本 API 方案,幫助科研人員高效生成論文配圖
科研論文中的方法論配圖和統計圖表,一直是研究人員最耗時的手工環節之一。PaperBanana 科研繪圖框架正是爲解決這一痛點而生——由北京大學和 Google Cloud AI Research 聯合開發,它通過 5 個專業化 AI 智能體 協作,將文本描述自動轉換爲發表級學術配圖。
核心價值: 讀完本文,你將掌握 PaperBanana 科研繪圖的完整工作流程、5 大智能體的分工協作機制,以及如何通過 Nano Banana Pro API 以低至官方 2 折的價格生成高質量學術配圖。

PaperBanana 科研繪圖核心要點
| 要點 | 說明 | 價值 |
|---|---|---|
| 5 智能體協作 | Retriever、Planner、Stylist、Visualizer、Critic 分工明確 | 每個環節專業化處理,質量遠超單模型生成 |
| 292 個評測基準 | 基於 NeurIPS 2025 論文的 PaperBananaBench | 72.7% 盲評勝率,超越人工基線 |
| 雙模式輸出 | 方法論配圖用圖像生成,統計圖表用 Matplotlib 代碼 | 完全消除數據可視化中的數值幻覺問題 |
| 3 輪迭代優化 | Critic 智能體自動發現錯誤並引導重新生成 | 可讀性提升 12.9%,美觀度提升 6.6% |
| Nano Banana Pro 驅動 | 基於 Gemini 3 Pro Image 模型渲染 | 精準的形狀、連接線和科研圖標生成能力 |
PaperBanana 科研繪圖的 5 大智能體詳解
PaperBanana 科研繪圖框架的核心在於將複雜的學術配圖生成任務拆解爲 5 個獨立的專業化智能體。每個智能體負責特定環節,通過協作完成從文本描述到發表級配圖的完整流程。這種多智能體架構的優勢在於——每個步驟都有專門的模型負責質量把控,而非依賴單一模型完成所有任務。
在實際運行中,PaperBanana 科研繪圖的 5 個智能體按照「線性規劃 + 迭代優化」的兩階段流程協作。第一階段由 Retriever、Planner 和 Stylist 完成參考檢索、內容規劃和風格設定;第二階段由 Visualizer 和 Critic 進入 3 輪迭代循環,逐步提升配圖的忠實度、簡潔性、可讀性和美觀度。

PaperBanana 科研繪圖 5 大智能體工作原理
Retriever 智能體:參考檢索
Retriever 是 PaperBanana 科研繪圖的起點。它從預構建的參考數據庫中搜索與當前論文內容相似的配圖樣例,作爲後續規劃和風格設定的模板。這些參考樣例來自頂級會議論文,確保輸出風格符合學術出版標準。
Planner 智能體:內容規劃
Planner 智能體負責將論文中的方法論文本描述轉換爲詳細的配圖規劃。它利用 Retriever 檢索到的參考樣例進行上下文學習(In-Context Learning),將複雜的技術描述解構爲結構化的視覺佈局方案——包括元素類型、空間關係、連接方式和信息層次。
Stylist 智能體:風格統一
Stylist 智能體從全局參考樣例中提取學術風格指南,確保生成的配圖在顏色搭配、字體選擇、圖標風格等方面保持一致。這一步驟對於論文中包含多張配圖的場景尤爲重要——所有配圖需要呈現統一的視覺風格。
Visualizer 智能體:圖像渲染
Visualizer 是 PaperBanana 科研繪圖中的核心生成引擎,使用 Nano Banana Pro(Gemini 3 Pro Image)模型將優化後的文本描述渲染爲最終圖像。它能精準生成科研配圖中常見的複雜元素:
- 模型架構圖中的編碼器-解碼器框架
- 算法流程圖中的條件分支和循環結構
- 系統管線圖中的多模塊連接關係
- 專業化的科研圖標和符號
Critic 智能體:質量審查
Critic 智能體在每輪生成後自動審查配圖質量,從內容忠實度、信息簡潔度、視覺可讀性和美學效果 4 個維度進行評估。它會識別連接線錯位、箭頭方向錯誤、元素遮擋等常見問題,並生成修改建議供 Visualizer 在下一輪迭代中改進。
| 智能體 | 職責 | 輸入 | 輸出 |
|---|---|---|---|
| Retriever | 參考檢索 | 論文方法論文本 | 相似配圖樣例集 |
| Planner | 內容規劃 | 文本 + 參考樣例 | 結構化配圖方案 |
| Stylist | 風格統一 | 參考樣例集 | 學術風格指南 |
| Visualizer | 圖像渲染 | 配圖方案 + 風格指南 | 生成的配圖圖像 |
| Critic | 質量審查 | 生成的配圖 + 原始描述 | 修改建議和評分 |
🎯 技術建議: PaperBanana 的 Visualizer 智能體底層依賴 Nano Banana Pro 模型進行圖像渲染。如果你需要獨立使用 Nano Banana Pro 進行科研繪圖測試,可以通過 API易 apiyi.com 平臺調用該模型 API,價格僅需 $0.05/張,低至官方定價的 2 折。
PaperBanana 科研繪圖支持的配圖類型
PaperBanana 科研繪圖框架支持兩大類學術配圖,採用不同的技術路線確保輸出質量:
方法論配圖(Methodology Diagrams)
方法論配圖是科研論文中最常見也最複雜的插圖類型。PaperBanana 科研繪圖使用 Nano Banana Pro 模型直接生成圖像,支持以下類型:
- 模型架構圖: Transformer、CNN、GAN 等經典架構的可視化
- 算法流程圖: 多步驟算法的執行流程和條件分支
- 系統管線圖: 多模塊系統的數據流向和處理流程
- 編碼器-解碼器框架: 序列到序列模型的內部結構
統計圖表(Statistical Plots)
對於需要精確數值表達的統計圖表,PaperBanana 科研繪圖採用了獨特的策略——不直接生成圖像,而是生成可執行的 Python Matplotlib 代碼。這一設計完全消除了 AI 圖像生成中的數值幻覺問題,確保柱狀圖、折線圖中的每個數據點都精確無誤。
| 配圖類型 | 生成方式 | 核心優勢 | 適用場景 |
|---|---|---|---|
| 模型架構圖 | Nano Banana Pro 圖像生成 | 複雜結構精準渲染 | 深度學習論文方法部分 |
| 算法流程圖 | Nano Banana Pro 圖像生成 | 條件分支清晰表達 | 算法設計論文 |
| 柱狀圖/折線圖 | Matplotlib 代碼生成 | 數值零誤差 | 實驗結果展示 |
| 系統管線圖 | Nano Banana Pro 圖像生成 | 多模塊關係清晰 | 系統設計論文 |

PaperBanana 科研繪圖快速上手
極簡示例:使用 Nano Banana Pro API 生成科研配圖
以下是通過 API 調用 Nano Banana Pro 模型生成科研配圖的最簡方式:
import openai
client = openai.OpenAI(
api_key="YOUR_API_KEY",
base_url="https://vip.apiyi.com/v1" # 使用 API易 統一接口
)
response = client.chat.completions.create(
model="nano-banana-pro",
messages=[{
"role": "user",
"content": "Generate a methodology diagram showing a Transformer encoder-decoder architecture with attention mechanism, suitable for an academic paper. Use clean lines, professional color scheme, and labeled components."
}]
)
print(response.choices[0].message.content)
查看完整的 PaperBanana 風格科研配圖生成代碼
import openai
from typing import Optional
def generate_scientific_figure(
description: str,
style: str = "academic",
diagram_type: str = "methodology",
max_tokens: int = 4096
) -> str:
"""
使用 Nano Banana Pro 生成科研配圖
Args:
description: 配圖內容描述(英文效果最佳)
style: 風格類型 - academic/minimal/detailed
diagram_type: 配圖類型 - methodology/flowchart/architecture
max_tokens: 最大輸出 token 數
Returns:
生成的配圖結果
"""
client = openai.OpenAI(
api_key="YOUR_API_KEY",
base_url="https://vip.apiyi.com/v1" # API易統一接口
)
style_prompts = {
"academic": "professional academic paper style, clean layout, labeled components",
"minimal": "minimalist style, essential elements only, high contrast",
"detailed": "detailed illustration with annotations and legends"
}
prompt = f"""Generate a {diagram_type} diagram for a research paper:
{description}
Style requirements: {style_prompts.get(style, style_prompts['academic'])}
Output: High-resolution image suitable for publication."""
try:
response = client.chat.completions.create(
model="nano-banana-pro",
messages=[{"role": "user", "content": prompt}],
max_tokens=max_tokens
)
return response.choices[0].message.content
except Exception as e:
return f"Error: {str(e)}"
# 使用示例:生成 Transformer 架構圖
result = generate_scientific_figure(
description="A Vision Transformer (ViT) architecture showing patch embedding, "
"multi-head self-attention blocks, and classification head. "
"Include skip connections and layer normalization.",
style="academic",
diagram_type="architecture"
)
print(result)
💰 成本優化: 通過 API易 apiyi.com 調用 Nano Banana Pro API,每張科研配圖僅需 $0.05,相比官方 $0.234 的定價節省近 80%。對於需要批量生成配圖的科研團隊,這一價格優勢尤爲顯著。同時推薦使用在線出圖工具 Image.apiyi.com,無需代碼即可快速生成科研插圖。
PaperBanana 科研繪圖評測數據
PaperBanana 科研繪圖框架在 PaperBananaBench 基準測試中表現優異。該基準包含 292 個測試用例,全部來源於 NeurIPS 2025 發表的論文配圖,覆蓋了多樣化的研究領域和插圖風格。
核心評測指標
| 評測維度 | PaperBanana 表現 | 相比基線提升 | 說明 |
|---|---|---|---|
| 盲評勝率 | 72.7% | — | 人類評審在盲測中優選 PaperBanana 輸出 |
| 簡潔度 | 顯著提升 | +37.2% | 去除冗餘元素,信息密度更高 |
| 可讀性 | 顯著提升 | +12.9% | 佈局清晰,信息層次分明 |
| 美觀度 | 顯著提升 | +6.6% | 配色和排版更專業 |
| 內容忠實度 | 45.8% | +2.8% | 仍低於 50% 人工基線,有改進空間 |
當前侷限性
儘管 PaperBanana 科研繪圖在自動化學術配圖領域取得了突破性進展,但仍存在一些需要注意的侷限:
- 輸出格式: 當前僅支持柵格圖像(PNG/JPG),不支持可編輯的矢量圖形(SVG/PDF)
- 空間關係: 語言模型在檢測連接線方向、箭頭對齊等空間關係錯誤時存在困難
- 微調修正: 生成後無法對配圖進行局部修改,需要重新生成整張圖
- 內容忠實度: 45.8% 的忠實度得分說明覆雜配圖仍建議人工審覈
🎯 實用建議: 對於重要論文的配圖,建議使用 PaperBanana 生成多個版本後人工篩選。通過 API易 apiyi.com 平臺調用 Nano Banana Pro,可以低成本批量生成候選配圖,大幅縮短篩選週期。
Nano Banana Pro 科研繪圖價格對比
Nano Banana Pro 是 PaperBanana 科研繪圖的底層圖像生成模型。對於獨立使用該模型生成科研配圖的場景,不同平臺的價格差異顯著:
| 平臺 | 標準分辨率價格 | 4K 分辨率價格 | 適用場景 |
|---|---|---|---|
| Google 官方 API | $0.134/張 | $0.234/張 | 企業級直連需求 |
| API易 apiyi.com | $0.05/張 | $0.05/張 | 科研團隊和個人開發者(推薦) |
| Google Pro 訂閱 | ~$0.007/張(滿額使用) | ~$0.007/張 | 高頻使用者(月 $19.99) |
通過 API易平臺調用 Nano Banana Pro API,不僅價格僅爲官方的 2 折左右,還支持 OpenAI 兼容接口格式,無需修改現有代碼即可切換。對於科研團隊而言,批量生成論文配圖的成本可以控制在極低水平。
常見問題
Q1: PaperBanana 科研繪圖目前是否開源可用?
PaperBanana 的論文(arXiv: 2601.23265)和項目主頁已公開,代碼倉庫位於 GitHub: github.com/dwzhu-pku/PaperBanana。目前代碼和數據集正在準備發佈中。在等待開源的同時,你可以直接使用 Nano Banana Pro API 進行科研配圖生成,通過 API易 apiyi.com 平臺即可快速接入。
Q2: Nano Banana Pro 生成的科研配圖質量如何?
Nano Banana Pro(Gemini 3 Pro Image)在科研配圖場景下表現出色,支持高分辨率(最高 4K)輸出,能準確渲染複雜的模型架構、流程圖和科研圖標。在 PaperBanana 的評測中,72.7% 的情況下人類評審更偏好該系統的輸出。建議使用英文 Prompt 以獲得最佳效果。在線工具 Image.apiyi.com 提供零代碼的可視化出圖體驗,適合快速驗證配圖效果。
Q3: 如何快速開始使用 Nano Banana Pro 生成科研配圖?
推薦通過以下方式快速上手:
- 訪問 API易 apiyi.com 註冊賬號,獲取 API Key 和免費額度
- 使用本文提供的代碼示例,替換 API Key 後即可調用
- 或直接使用在線出圖工具 Image.apiyi.com,無需編寫代碼
- 建議先用簡單的架構圖測試效果,再嘗試複雜的多模塊系統圖
總結
PaperBanana 科研繪圖框架的核心要點:
- 5 智能體架構: Retriever、Planner、Stylist、Visualizer 和 Critic 分工協作,實現從文本到學術配圖的自動化生成
- 雙模式輸出: 方法論配圖用 Nano Banana Pro 圖像生成,統計圖表用 Matplotlib 代碼生成,徹底消除數值幻覺
- 評測領先: 72.7% 盲評勝率,簡潔度提升 37.2%,但內容忠實度仍需人工把關
- 低成本方案: 通過 API易平臺調用 Nano Banana Pro API,每張配圖僅 $0.05,低至官方 2 折
PaperBanana 科研繪圖代表了 AI 輔助科研的一個重要方向。雖然完全自動化的學術配圖還需要進一步突破空間關係理解的瓶頸,但它已經能夠顯著縮短科研人員在配圖上的時間投入。
推薦通過 API易 apiyi.com 快速體驗 Nano Banana Pro 科研繪圖能力,平臺提供免費額度和 OpenAI 兼容接口,也可使用在線工具 Image.apiyi.com 零代碼出圖。
📚 參考資料
⚠️ 鏈接格式說明: 所有外鏈使用
資料名: domain.com格式,方便複製但不可點擊跳轉,避免 SEO 權重流失。
-
PaperBanana 項目主頁: 官方發佈頁面,包含論文摘要、示例配圖和 Demo
- 鏈接:
dwzhu-pku.github.io/PaperBanana/ - 說明: 瞭解 PaperBanana 科研繪圖框架的核心能力和最新進展
- 鏈接:
-
PaperBanana GitHub 倉庫: 開源代碼和數據集
- 鏈接:
github.com/dwzhu-pku/PaperBanana - 說明: 獲取 PaperBanana 源碼和 PaperBananaBench 評測基準
- 鏈接:
-
PaperBanana 論文: arXiv 預印本全文
- 鏈接:
arxiv.org/abs/2601.23265 - 說明: 深入理解 5 智能體架構設計和評測方法論
- 鏈接:
-
Nano Banana Pro 官方文檔: Google DeepMind 模型介紹
- 鏈接:
deepmind.google/models/gemini-image/pro/ - 說明: 瞭解 Nano Banana Pro 的技術規格和 API 參數
- 鏈接:
-
API易 Nano Banana Pro 在線出圖: 零代碼科研配圖生成工具
- 鏈接:
Image.apiyi.com - 說明: 無需編寫代碼,直接在瀏覽器中生成科研配圖
- 鏈接:
作者: APIYI Team
技術交流: 歡迎在評論區討論 PaperBanana 科研繪圖的使用經驗,更多 AI 模型資訊可訪問 API易 apiyi.com 技術社區
