|

深度解读 OpenAI Data Controls 两个开关:7 次免费 evals + 千万级补贴代币的真相

最近有客户问我们:他点开 OpenAI 后台的 Data Controls 页面,看到两个开关 —— "Share evaluation and fine-tuning data with OpenAI" 和 "Share inputs and outputs with OpenAI",每个都有 Disabled / Enabled for all projects / Enabled for selected projects 三档可选。第一个上面带绿色提示 "You're eligible for up to 7 free weekly evals",第二个则写 "You're enrolled for complimentary daily tokens",看上去都在送资源,但他不确定到底值不值得开,开了之后会有什么代价。

这两个开关的本质是 OpenAI 用"免费额度"换"训练 / 评估数据"的双向交易,开启的代价是真实的 —— 评估数据、API 输入输出会被 OpenAI 用来改进未来模型。在 API易 apiyi.com 的客户里,我们见过有人把它开了半年才发现是个隐私漏洞,也见过把它关了半年才发现自己每天浪费了百万级的免费 Token 额度。本文用英文官方资料把两个开关的真实作用、可获额度、隐私影响、推荐配置一次性讲透。

openai-data-controls-evaluation-inputs-outputs-guide 图示

OpenAI Data Controls 两个设置项的核心定义

打开 Settings → Data Controls → Sharing 这个页面,你会看到两个独立但常被混淆的开关。它们共享内容不同、回报不同、隐私影响也完全不在同一量级,理解它们的边界是做正确决策的前提。

设置项 Share evaluation and fine-tuning data Share inputs and outputs
共享内容 评估提示词 + 结果 + grading logic + 微调数据 API 调用的全部输入和输出
免费回报 每周最多 7 次免费 eval 运行 每日补贴代币(按 tier 和模型组分配)
数据用途 改进评估流水线 + 训练未来模型 直接用于训练 / 改进模型
默认状态 Disabled Disabled
开关粒度 Disabled / All / Selected 三档 Disabled / All / Selected 三档
操作权限 仅 Org Owner 仅 Org Owner
生效范围 开启之后产生的数据才共享 开启之后产生的流量才共享
关闭难度 随时切换 随时切换

🎯 快速理解建议: 如果你只是想"安全地拿到免费额度",可以把开关设置成 "Enabled for selected projects",单独建一个测试项目用来跑 dev / 内部脚本,主项目和生产 API 流量经由 API易 apiyi.com 网关走,避免一次性把所有项目都暴露给数据训练管道。

Share evaluation and fine-tuning data 设置详解

这个开关的字面意思是"共享评估和微调数据",但实际共享的范围比名字暗示的更广。开启之后,OpenAI 不仅会拿到你的 eval prompts 和 completions,还会拿到你定义的 grading logic(评判标准)以及 fine-tuning 数据集中的 prompts + completions。这意味着:你怎么给模型打分、你认为什么样的回答是好的、你训练数据里的领域知识,都会被 OpenAI 收集。

回报是每周最多 7 次免费 eval 运行。OpenAI 在帮助中心明确表示,"Evaluations you share with OpenAI are currently processed at no cost for up to 7 runs per week"。超过这个限额或使用不参与免费额度的模型,仍按标准 Token 价计费。这个数字看似不大,但对于经常做模型选型对比的团队,每周 7 次免费跑可以省下几十到几百美元的 eval 成本。

值得注意的是开关只对开启之后产生的数据生效,历史数据不会回溯共享,关闭之后也不会"撤回"已共享的数据。所以决策应该基于"未来 6-12 个月你打算共享多少 eval 数据",而不是"我现在已经有什么数据"。

维度 开启的收益 开启的代价
直接收益 每周 7 次免费 eval /
间接收益 评估流水线被 OpenAI 优化 /
数据代价 / 评估 prompts、completions、grading 标准被收集
业务代价 / 微调数据集泄露领域 know-how
可逆性 可随时关闭 已共享数据不可撤回

🎯 何时开启 Eval/FT 共享: 如果你的 eval 是基于公开 benchmark 或非敏感测试集,开起来基本无害;如果 eval prompts 包含客户真实数据、内部业务规则、专有 grading 逻辑,建议设成 Selected 模式只对沙盒项目开启。

Share inputs and outputs 设置详解

这是两个开关里"代价更大、回报也更可观"的一个。开启之后,凡是经过这个项目的 API 调用,输入 prompt 和输出 completion 都会被 OpenAI 收集并用于训练或改进模型。这一点和默认 API 行为有本质区别 —— 默认情况下,OpenAI 自 2023 年 3 月起明确不会用 API 数据训练模型,开启这个开关相当于主动撤销这条保护。

回报是每日补贴代币(complimentary daily tokens),按账户 tier 和模型组阶梯发放。这是 OpenAI 公开数据中最具体的免费额度方案,每天 00:00 UTC 自动重置。

模型组 Tier 1-2 每日上限 Tier 3-5 每日上限 重置时间
旗舰模型组 250,000 tokens 1,000,000 tokens 00:00 UTC
小模型组 2,500,000 tokens 10,000,000 tokens 00:00 UTC

旗舰模型组和小模型组并不是按性能粗略划分,而是 OpenAI 明确列出的清单 —— 调用清单外的模型不计入免费额度。

模型组 包含的具体模型
旗舰组 gpt-5, gpt-5-codex, gpt-5-chat-latest, gpt-4.5-preview, gpt-4.1, gpt-4o, o1, o3, o1-preview
小模型组 gpt-5-mini, gpt-5-nano, gpt-4.1-mini, gpt-4.1-nano, gpt-4o-mini, o1-mini, o4-mini, codex-mini-latest

openai-data-controls-evaluation-inputs-outputs-guide 图示

🎯 代币额度的真实价值: 以 gpt-4o-mini 输入 $0.15/M、输出 $0.60/M 估算,Tier 1-2 每天 2.5M 小模型 token = 每天约 $1-2 的免费额度,全月可省 $30-60;Tier 3-5 升到每天 10M 小模型 token,全月可省 $120-240。如果只是为了拿这部分额度,开整个组织流量并不划算,建议起一个独立测试项目并设成 Selected 模式。

默认 API 隐私 vs 开启共享后的真实差异

很多团队对"默认 API 是不是会被训练"这个问题理解不清。OpenAI 的实际策略是:默认 API 不用于训练,但保留 30 天用于滥用监控(abuse monitoring)。Zero Data Retention(零数据保留)是另一回事,需要企业客户单独联系 OpenAI 销售团队申请,不是网页一键开关。

理解这条基线之后,再看两个开关的影响就很清晰:开启 Inputs/Outputs 是"主动放弃 2023 年起的训练保护",开启 Eval/FT 是"在前者之外额外贡献评估方法论"。两个都不影响 30 天滥用监控保留,也无法叠加 ZDR。

维度 默认 API(两个都关) 开 Inputs/Outputs 开 Eval/FT Data
是否用于训练 ❌ 不训练 ✅ 用于训练 ✅ 用于训练 + 评估
Abuse 监控保留 30 天 30 天 30 天
数据可否撤回 / ❌ 已共享不可撤回 ❌ 已共享不可撤回
ZDR 是否兼容 ✅ 可申请 ZDR ❌ 与开关互斥 ❌ 与开关互斥
适合场景 生产 / 合规 / PII dev / 测试 / 公开数据 公开 benchmark eval

🎯 隐私决策建议: 如果你的业务对数据隐私有任何合规要求(GDPR、HIPAA、企业 NDA、客户 PII 等),两个开关都应该保持 Disabled,并且把高敏流量经由 API易 apiyi.com 网关或申请 ZDR;如果只是个人项目、内部工具、Hackathon 演示等公开场景,可以放心 Enabled for all projects。

OpenAI Data Controls 是否值得开启的 4 项决策框架

直接给"开 / 不开"的二元答案太粗暴。我们用 4 类典型业务场景做矩阵,每一类都有它合理的配置。决策的核心维度是两个:数据敏感性(你处理的内容是否涉及隐私 / 商业机密)和调用规模(你能从免费额度里拿回多少实际价值)。

业务类型 数据敏感性 推荐 Inputs/Outputs 推荐 Eval/FT
个人开发 / Hackathon Enabled for all Enabled for all
内部 R&D / 模型选型 Enabled for selected Enabled for selected
To-C 应用(含 PII) Disabled 或 Selected(dev 项目) Disabled
企业 / 合规场景 极高 Disabled + 走 ZDR Disabled

第一类是个人开发或 Hackathon 项目。这种场景下 Token 消耗本来就主要是公开 prompt(如比赛题、Demo 代码),开启共享既能拿到每日补贴又不会暴露任何敏感信息,性价比最高。第二类是内部 R&D,建议用 Selected 模式 —— 单独建一个 "data-share-test" 项目专门跑可共享的实验,主开发项目保持 Disabled。

第三类是 To-C 应用,往往涉及用户输入、对话历史、个人信息。这种情况两个开关都建议关掉,免费额度对单用户量级的应用收益不大,而一旦用户 PII 被收集进训练管道很难追溯。第四类是企业或合规场景,比如医疗、金融、政府客户,应该直接走 ZDR 或者 API易 apiyi.com 这类合规网关,连 30 天 abuse monitoring 都规避掉。

openai-data-controls-evaluation-inputs-outputs-guide 图示

🎯 三档选项怎么选: 如果决定开启某个开关,优先选 "Enabled for selected projects" 而不是 "Enabled for all projects"。这样可以专门划一个 "training-eligible" 项目用作 dev / 测试,生产项目继续保持隔离,未来调整也只影响那一个项目,迁移成本极低。

OpenAI Data Controls 常见 FAQ

Q1:开启 Inputs/Outputs 之后,OpenAI 会立刻拿走我所有历史数据吗?

不会。两个开关都明确写了"Only traffic sent after turning this setting on will be shared" / "Only evaluation and fine-tuning data created after turning this setting on will be shared"。开关只对开启之后产生的数据生效,历史数据不会被回溯共享。

Q2:免费 Token 是不是和 Credit Grants 同一回事?

不是同一回事但有关联。Inputs/Outputs 共享获得的是"每日代币池",到 00:00 UTC 自动重置;OpenAI 后台 Credit Grants 一栏看到的"零碎美分"小额 grants 是这个池子按使用量折算成美元价值的事后记账,可以理解成同一个项目的两种展示。

Q3:我开了 Selected 模式只对一个项目共享,主项目流量就完全安全吗?

完全安全。OpenAI 在 settings 界面可以精确选哪些项目参与共享,未选中的项目流量按默认 API 行为处理 —— 不训练、保留 30 天 abuse monitoring。如果对此还有担忧,可以把主项目流量进一步切到 API易 apiyi.com 这类网关,从架构上彻底隔离。

Q4:Eval/FT 共享的"7 free weekly evals"具体是怎么计数的?

按"运行次数"计数,不是按 Token 计数。每运行一次 eval(不管处理多少样本)算一次,每周最多 7 次免费。超出后按 eval 用到的模型走标准 Token 价计费,部分模型不在免费名单内,运行也会按价计费。

Q5:把 Inputs/Outputs 关掉之后,已经被收集的数据能要回来吗?

不能。OpenAI 政策明确规定已共享数据不可撤回,关闭开关只能阻止未来的数据进入训练管道。这就是为什么我们一直建议生产流量用 API易 apiyi.com 这种网关做"硬隔离" —— 默认就不进 OpenAI 训练管道,比"事后关掉"更可靠。

OpenAI Data Controls 的 3 条总结

第一,这两个开关是真正的"双向交易":用真实可量化的数据(eval 方法论、API 输入输出)换可量化的免费额度(每周 7 次 eval、每日数百万到数千万 Token)。理解这是交易而非纯赠送,决策才不会跑偏。

第二,默认 API 不训练但 30 天 abuse 监控仍在。如果业务对隐私有任何合规要求,两个开关都应该 Disabled,并通过 ZDR 申请或 API易 apiyi.com 这类合规网关进一步收紧。开关只决定"是否额外授权训练",不决定"是否被监控"。

第三,优先用 Selected 模式做"分项目隔离"。新建一个独立项目专门承接可共享的 dev / 测试流量,把生产项目和敏感数据完全隔离开。这样既拿到了免费额度,又不让任何一条用户数据流进训练管道,是性价比最高的姿势。

openai-data-controls-evaluation-inputs-outputs-guide 图示

如果你正在权衡这两个开关,最稳妥的姿势是先按"个人 / 内部 / To-C / 企业"四类对号入座决定档位,再用 Selected 模式起一个独立测试项目薅免费额度,主生产流量经由 API易 apiyi.com 网关做架构隔离,这样既能享受 OpenAI 的免费政策,也保住了用户数据和业务 know-how 的隐私边界。

📌 作者:APIYI 技术团队 — 持续追踪 OpenAI Data Controls、ZDR、计费策略等关键政策变更,为开发者提供统一计费、隐私可控的多模型 API 网关体验,了解更多请访问 API易 apiyi.com。

类似文章