
近期 GitHub 上一个名为 ARIS-Code 的开源项目悄然冲上 8400+ Stars、783 Forks, 它由开发者 wanshuiyin 基于 Claude Code 开源版本迭代而来, 全名 Auto-Research-In-Sleep, 直译就是"边睡觉边搞科研"。这并非营销话术——它真的可以让 Claude Code 在你睡觉时自动跑实验、查文献、改论文, 第二天醒来工作进度已经向前推了一大截。
ARIS-Code 在学术圈引起的讨论尤其值得关注: 项目作者公布的三个社区论文案例显示, 它产出的初稿在 AI 评审分数上达到了 7-8/10 的水平, 已经分别投递到 CS 顶级会议、AAAI 2026 和 IEEE TGRS。这意味着 AI 全自动科研已经不只是 demo 级别, 而是真正具备产出投稿稿件的能力。
本文将深度拆解 ARIS-Code 的核心架构、42 个内置 Skills, 以及它在国内环境通过第三方中转服务接入 Claude 模型的具体方式, 帮你判断这个工具是否适合你的科研工作流。
🎯 特别提示: 由于 ARIS-Code 是基于 Claude Code 开源版迭代而来, 它的执行器只能接入 Claude 系列模型 (Sonnet/Opus/Haiku), 不支持 GPT、Gemini 系列作为主执行器。我们建议通过 API易 apiyi.com 平台接入 Claude 模型, 该平台兼容 Anthropic 原生协议, 国内访问稳定且按量计费, 不需要海外信用卡。
什么是 ARIS-Code: Auto-Research-In-Sleep 项目
ARIS (Auto-Research-In-Sleep) 是一个面向 ML/AI 学术研究者的自主科研工作流系统, 项目地址在 GitHub: github.com/wanshuiyin/Auto-claude-code-research-in-sleep。它的设计目标非常明确: 让研究者在最小人工干预下完成"文献综述 → 想法生成 → 实验执行 → 论文撰写 → Rebuttal 应对"的全流程, 把研究者从重复性体力劳动中解放出来。
ARIS-Code 的本质是一个 方法论库, 整套系统由纯 Markdown 文件 (SKILL.md) 组成, 没有需要安装的框架、没有需要维护的数据库、没有需要配置的 Docker。每一个 Skill 都是一份可被任意 LLM Agent 阅读的工作流说明, 因此你可以把执行器从 Claude Code 切换到 Codex CLI、OpenClaw、Cursor、Trae 等任意支持 Agent 模式的工具, 工作流依然有效。
这种"零依赖、零锁定"的设计是 ARIS-Code 区别于其他科研 AI 工具的最大特色, 它本质上是把科研流程"显式化"成可执行的提示词工程, 而不是封装成黑盒工具。这一点对于研究者来说意义重大, 因为它意味着工作流是可阅读、可修改、可迁移的, 而不是被某个商业产品绑死。
值得一提的是, ARIS-Code 仓库已经积累了 719 commits, 项目仍在高速迭代中。最近三个月新增了 paper-talk (会议讲稿生成)、resubmit-pipeline (拒稿后再投流水线)、kill-argument (对抗性反驳生成) 等多个高价值 Skill, 整个生态非常活跃。
ARIS-Code 核心架构: Executor-Reviewer 双模型对抗式审查
ARIS-Code 最关键的工程价值在于它的 双模型对抗式架构, 这是它和市面上其他科研助手最本质的差异。项目作者在 README 中提出了一个非常深刻的观察: 单模型自审存在结构性弱点, 因为同一个模型既执行任务又评审输出时, 它会系统性地复现自己的盲区, 形成局部最优陷阱。

ARIS-Code 给出的解法是把审查权交给一个完全独立的模型。具体角色划分如下:
| 角色 | 模型选型 | 职责定位 | 推荐能力倾向 |
|---|---|---|---|
| Executor (执行者) | Claude Sonnet / Opus | 主力执行: 写代码、查文献、跑实验、起草论文 | 速度快、长上下文、工具调用稳定 |
| Reviewer (审查者) | GPT-5.4 (Codex MCP) / Oracle Pro | 对抗审查: 找漏洞、质疑结论、提出反例 | 推理深、批判性强、风格独立 |
| 协调机制 | LlmReview 工具链 | 跨模型通信、状态持久化 | MCP 协议透明传递 |
整个工作流可以概括为一个简单的循环: Executor 写 → Reviewer 批 → Executor 修 → 再批再修, 直至 Reviewer 给出通过判定。这个循环之所以有效, 是因为两个模型来自不同厂商、训练数据不同、推理风格不同, 它们的盲区不会重叠。
为了防止 LLM 幻觉污染科研结论, ARIS-Code 还设计了多层证据审计链: experiment-audit (代码完整性) → result-to-claim (结果到断言) → paper-claim-audit (论文断言审计) → citation-audit (引用核实)。每一层都有独立的 JSON verdict 和 SHA256 哈希用于复现验证, 这种工程严谨性在科研 AI 工具中相当罕见。
🔧 配置建议: 如果你想完整复现 ARIS-Code 的双模型架构, 在国内环境推荐通过 API易 apiyi.com 同时获取 Claude 与 GPT 系列模型 Key, 一个平台对应两套接口, 不需要分别开通海外账户和绑定信用卡。
ARIS-Code 内置 42 个 Skills 全科研流水线
ARIS-Code 最让人印象深刻的是它内置的 42+ 个 Skills, 这些 Skill 不是孤立的小工具, 而是一条覆盖完整科研生命周期的流水线。我把它们按工作流阶段归类如下:
| 工作流阶段 | 代表 Skills | 核心能力 |
|---|---|---|
| 选题阶段 (Idea Discovery) | research-lit / novelty-check / idea-creator / idea-discovery | 多源文献检索、跨模型新颖性验证、8-12 个候选想法生成 |
| 实验阶段 (Experimentation) | experiment-bridge / experiment-queue / run-experiment | 代码评审 → GPU 部署 → 多种子编排 → OOM 自动处理 |
| 自动评审 (Auto Review) | auto-review-loop / research-review / experiment-audit | 4 轮迭代改进、结构化同行评审、代码完整性验证 |
| 论文写作 (Paper Writing) | paper-writing / paper-claim-audit / proof-checker / citation-audit | 叙事 → LaTeX → PDF、断言审计、证明校验、引用核实 |
| Rebuttal 应对 | rebuttal | 审稿意见解析 → 回复起草 → 压力测试 |
| 元能力 | research-wiki / meta-optimize / deepxiv | 持久知识库、外环优化、替代文献源 |
最具实战价值的 Skill 是 experiment-bridge, 它把"代码评审 → GPU 远程部署 → 实验启动 → 结果回收"打通成一条流水线。当 Reviewer 提出"这里需要做一个消融实验"时, Executor 会自动写脚本、rsync 到 GPU 节点、启动训练、监控日志、收集结果, 整个过程不需要研究者手动介入。
另一个值得关注的是 citation-audit 这个 Skill, 它通过对接 DBLP 和 CrossRef 真实数据库消除了 LLM 写论文时最大的痛点——引用幻觉。每一条 BibTeX 都来自真实数据库, 而不是模型自己编造。这对于学术写作来说是底线要求, 任何一处虚构引用都可能导致投稿被直接拒稿。
研究者还特别欣赏 research-wiki 这个跨会话持久知识库, 它会在多个项目之间累积研究者的论文阅读笔记、想法草稿、失败实验记录, 形成一个不断生长的私人科研记忆体。当你三个月后回到某个搁置的方向时, 不需要重新读一遍所有相关论文, AI 助手已经替你保留了上下文。
💡 使用提示: 调用任意一个 Skill 时, 都会消耗大量 Claude API Token, 尤其是 paper-writing 这种长文本生成任务。我们建议通过 apiyi.com 接入 Claude 模型, 该平台支持按量计费且提供完整的 token 用量监控, 便于你预估单篇论文的成本。
ARIS-Code 接入 API易 的完整配置方案
由于 ARIS-Code 的执行器是基于 Claude Code 开源版迭代而来, 它只接受 Anthropic 原生 API 协议, 这意味着 GPT、Gemini 系列模型无法作为 Executor 使用。这是一个硬性约束, 也是很多开发者第一次部署时的最大困惑点。
通过 API易 接入 Claude 模型的配置步骤非常简洁, 整个过程可以归纳为 5 步:
# 第 1 步: clone 项目仓库
git clone https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep
cd Auto-claude-code-research-in-sleep
# 第 2 步: 安装 Skills 到本地 Claude Code 配置目录
mkdir -p ~/.claude/skills/
cp -r skills/* ~/.claude/skills/
# 第 3 步: 配置 API易 中转地址 (核心步骤)
export ANTHROPIC_BASE_URL="https://vip.apiyi.com"
export ANTHROPIC_AUTH_TOKEN="你的 API易 Key"
# 第 4 步: 启动 Claude Code
claude
# 第 5 步: 在 Claude Code 中调用任意 Skill 即可
# 例如: /research-pipeline "factorized gap in discrete diffusion LMs"
这里最关键的是第 3 步设置 ANTHROPIC_BASE_URL 环境变量, 它告诉 Claude Code 不要请求 Anthropic 官方端点, 而是去中转网关。该网关的接口完全兼容 Anthropic 原生协议, ARIS-Code 内置的 Skill 不需要做任何代码修改, 包括工具调用、流式输出、思考链 (thinking) 在内的所有特性都能透明传递。
如果你还需要部署 Reviewer 端 (Codex MCP), 流程是:
# 安装 Codex MCP 用于审查端
npm install -g @openai/codex
codex setup # 这里同样可以填中转地址用于 GPT 模型
claude mcp add codex -s user -- codex mcp-server
对于希望完全复现 ARIS-Code 论文级别效果的研究者, 项目还提供了 Oracle MCP 接入 GPT-5.4 Pro 作为高级 Reviewer 的方案。这个方案在严肃论文冲刺阶段非常有用, 因为 Pro 版本的批判深度和反例构造能力相比基础版有明显提升。
🚀 统一接入方案: API易 apiyi.com 平台同时支持 Claude 系列 (Sonnet 4.5/Opus 4)、GPT 系列 (GPT-5/o4)、Gemini 系列 (Gemini 3 Pro) 等主流模型, 一个 Key 即可同时驱动 ARIS-Code 的 Executor 和 Reviewer 两端, 这对于科研团队的费用管理和调用记录归集非常友好。
ARIS-Code Effort Levels 与 GPU 配置策略
ARIS-Code 提供了 4 档 Effort Level 用于平衡成本和质量, 这是它非常工程化的一个设计。不同的研究阶段对深度的要求差异巨大, 早期探索阶段没必要烧 token, 投稿冲刺阶段则需要把质量推到极致。

| Effort Level | Token 倍率 | 适用场景 | 单次调用预估 |
|---|---|---|---|
| lite | 0.4× | 快速探索、想法验证 | 极低 |
| balanced | 1.0× | 默认日常研究流程 | 标准 |
| max | 2.5× | 严肃论文实验阶段 | 中高 |
| beast | 5-8× | 顶会冲刺、Submission Mode | 高 |
GPU 端 ARIS-Code 也给出了 4 种配置选项, 兼顾本地党和云上党:
| GPU 配置 | 适用场景 | 成本特点 |
|---|---|---|
| local | 本地有显卡的研究者 | 一次性硬件成本 |
| remote | 实验室 SSH 服务器 | 校园资源免费 |
| vast | 短期高强度训练 | 按小时计费, 灵活 |
| modal | 周期性轻量任务 | Serverless, 30 美金免费额度 |
💰 成本控制建议: 如果你刚开始尝试 ARIS-Code, 建议先用 lite + local 跑通流程, 把模型调用走 apiyi.com 中转便于核算 token 用量。等流程稳定后再升级到 max 或 beast 模式做严肃研究, 这样可以避免初期因配置失误浪费高昂的 token 成本。
ARIS-Code 实战工作流: 从一句话到一篇论文
ARIS-Code 最让人惊艳的是它的端到端管线 /research-pipeline, 这个 Skill 把上面所有阶段串成一条命令。你只需要给一个研究方向描述, 系统会自动在 8-24 小时内输出一份初稿。
典型的调用方式是这样:
# 场景 1: 全新方向, 从零开始
/research-pipeline "factorized gap in discrete diffusion LMs"
# 场景 2: 改进现有论文
/research-pipeline "improve method X" \
--ref-paper https://arxiv.org/abs/2406.04329 \
--base-repo https://github.com/org/project
# 场景 3: 仅 Rebuttal
/rebuttal "paper/ + reviews" --venue ICML --char-limit 5000
实际运行时 ARIS-Code 会按部就班地走完: 文献综述 → 想法生成 → 新颖性检查 → 实验设计 → GPU 调度 → 结果回收 → 论文撰写 → 引用审计 → 格式打包。当遇到模糊决策点时, 它会暂停并等待人工 checkpoint, 默认配置下 --AUTO_PROCEED false 可以让你在每一轮 Reviewer 反馈后人工介入。
ARIS-Code 还提供了一个非常实用的 style-ref 参数, 你可以指定一篇风格参考论文 (例如同一会议历史最佳论文), 系统会模仿其结构组织和叙事节奏, 但不会复制具体段落。这对于追求"投稿命中率"的研究者来说几乎是降维打击, 因为顶会评审对论文风格的隐性要求往往比内容本身更难拿捏。
另一个值得注意的工程细节是, ARIS-Code 集成了 Overleaf 双向同步、W&B 训练曲线监控、飞书/Lark 移动端推送等多种外部系统。当 GPU 上的实验跑出关键拐点时, 你能在手机上立即收到通知, 真正实现"睡着也在跑研究"。
📊 性能数据: 项目作者公布的 3 个社区论文案例显示, ARIS-Code 产出的论文在 AI 评审分数上达到了 7-8/10 (CS 会议、AAAI 2026、IEEE TGRS), 但作者也明确提示人类审稿人会带来 AI 审稿系统捕捉不到的视角, 不能完全替代人工把关。
ARIS-Code 常见问题 FAQ
Q1: ARIS-Code 为什么不能用 GPT-5 当 Executor?
因为 ARIS-Code 是从 Claude Code 开源版本 fork 迭代而来, 它的执行器层完全锁定在 Anthropic 原生 API 协议上, 包括工具调用格式、流式输出格式、思考链格式都和 Claude 模型深度绑定。如果想换执行器, 需要改用 OpenClaw 或者 Codex CLI 的发行版, 但那已经不是原版 ARIS-Code 了。我们建议通过 apiyi.com 直接接入 Claude 模型, 是最省事的方案。
Q2: 跑一篇完整论文大概需要多少 Token?
beast 模式下完整跑一遍 /research-pipeline 大约消耗 500 万到 1500 万 input + output token, 折算 Claude Sonnet 价格在几十到几百元区间。balanced 模式可以降低到 200-500 万 token。具体费用取决于实验复杂度和迭代轮次。
Q3: 没有本地 GPU 也能用 ARIS-Code 吗?
完全可以。ARIS-Code 设计了 vast 和 modal 两种云 GPU 模式, modal 还有 30 美金免费额度, 跑一些轻量级实验绰绰有余。如果只做理论论文 (/proof-writer + /formula-derivation), 甚至完全不需要 GPU。
Q4: 双模型架构里 Reviewer 一定要用 GPT-5.4 吗?
不强制。项目支持替换为 GLM、MiniMax、Kimi 等任何兼容 OpenAI 协议的模型。我们建议通过 apiyi.com 这类聚合平台获取多种 Reviewer 候选模型, 便于做 A/B 测试找到最适合你领域的批判性 LLM。一些研究者反馈, 在数学推理类论文上 Gemini 3 Pro 作为 Reviewer 效果意外地好, 在工程优化类论文上 GPT-5.4 仍是首选。
Q5: ARIS-Code 适合本科生或者初学者吗?
更适合有一定科研经验的研究生及以上群体。原因是它的输出质量很大程度依赖于研究者对领域的判断力, 比如 Reviewer 提出某个反例时, 你需要判断这是不是真的关键漏洞还是无关的枝节问题。完全无经验者容易被 AI 带偏方向。
Q6: 在国内运行 ARIS-Code 网络不稳定怎么办?
直连 Anthropic 官方接口在国内确实经常出现连接重置或超时, 这会让长时间的 research-pipeline 任务在中途失败。一种成熟的解决方案是把 ANTHROPIC_BASE_URL 切换到国内 IDC 部署的中转网关, 这样 ARIS-Code 在睡觉模式下连续运行 8 小时也不会因为网络抖动而中断, 这对于 beast 模式的连续实验尤其关键。
总结
ARIS-Code 的出现验证了一个重要趋势: 大模型时代的科研生产力工具正在从"单点辅助"走向"全流水线自动化"。它的 Executor-Reviewer 双模型架构、42 个工作流 Skills、零依赖的 Markdown 设计, 共同构成了一个非常成熟的方法论框架。
对于国内研究者来说, 接入 ARIS-Code 最大的门槛不是技术学习曲线, 而是 Claude 模型的稳定调用。我们建议通过 apiyi.com 平台接入 Claude 系列模型, 同时获取配套的 GPT 系列模型用于 Reviewer 端, 这样一个平台就能覆盖整个 ARIS-Code 工作流的模型需求, 在费用结算和调用日志归集上都更省心。同时国内 IDC 节点的稳定性也保证了"睡觉跑实验"这个核心场景不会因为网络问题中断。
如果你正在准备顶会投稿, 或者有一个想验证但又没时间手动迭代的研究方向, ARIS-Code 值得花一个周末认真试一试——醒来时如果真的能看到一份初稿, 这个时间投资就太划算了。
📌 作者: APIYI Team — 长期关注 AI 大模型 API 服务与开发者生态, 更多 Claude/GPT/Gemini 多模型接入案例参见 apiyi.com 文档中心。
