什么是 Sand AI?Swin Transformer 团队打造的开源视频生成黑马 6 大要点全解析

如果你最近在 Hugging Face、GitHub 或者英文 AI Twitter 上反复看到一个名字——Sand AI,并且对它推出的 MAGI-1 / MAGI-1.1 感到好奇,这篇文章就是为你写的。和很多"突然冒出来的视频模型团队"不同,Sand AI 其实有非常硬核的来历:它的 CEO 曹越(Cao Yue)是 Swin Transformer 的核心作者,这篇论文获得了 ICCV 2021 的最佳论文奖(Marr Prize),Google 学术引用超过 3 万次,被微软 Office 365、Azure、TikTok、快手等大厂产品广泛采用。换句话说,Sand AI 不是一家临时下场的团队,而是 Swin Transformer 原班人马把视觉模型十年积累迁移到视频生成的产物。

更让海外社区兴奋的是,Sand AI 不仅做了一个能打的视频生成模型,还选择把它完整开源——MAGI-1 全套权重 + 代码 + 推理工具,Apache 2.0 协议,直接放在 GitHub 与 Hugging Face 上。在 2025-2026 这一波"国产视频模型集中开源"的浪潮里,Sand AI 是少数把"自回归视频生成"这条新路线跑通并开源的团队之一。本文将围绕公司背景、创始人履历、MAGI 技术架构、开源策略与适合人群 6 个维度,把"什么是 Sand AI"这件事一次讲清楚。

Sand AI 核心信息一览

在开始拆解之前,我们用一张表把"什么是 Sand AI"这个问题的所有关键事实先压到一屏之内。

维度	Sand AI 公开信息
公司英文名	Sand AI(网站 sand.ai)
成立背景	由 Swin Transformer 核心作者曹越创立
总部位置	中国北京
团队规模	不到 30 人,平均年龄 30 岁以下
公司使命	"推动 AI 让每个人受益",拥抱开源与开放协作
CEO	曹越(Yue Cao),前北京智源 AI 研究院视觉模型研究中心负责人
旗舰产品	MAGI / MAGI-1 / MAGI-1.1 自回归视频生成模型
首次发布	2025 年 4 月 21 日(MAGI-1)
最新版本	MAGI-1.1(100% 开源)
模型规格	24B 与 4.5B 两个参数版本
开源协议	Apache 2.0,GitHub `SandAI-org/MAGI-1` + Hugging Face `sand-ai/MAGI-1`
核心创新	自回归 + 扩散结合(Autoregressive Denoising Diffusion)
Web 入口	`magi.sand.ai/app/projects`
API 平台	`platform.sand.ai/docs`
主要竞品	Wan 系列、HunyuanVideo、Hailuo、Sora 等

🎯 快速理解建议:如果你只想用一句话记住 Sand AI,可以这样讲——"它是一家把 Swin Transformer 那套视觉建模功底搬到视频生成的开源初创"。如果你想现在就动手试一下 MAGI 系列与其他视频模型的差异,我们建议先在 API易 apiyi.com 这种统一平台上把 Sora 2 / Veo 3.1 / Kling 等成熟模型先跑一轮,再去 sand.ai / Hugging Face 拉 MAGI-1.1 做对比,这样能立刻看出"自回归路线"的差异。

Sand AI 公司背景与团队基因

要理解 Sand AI 为什么一上来就能做出有竞争力的视频模型,必须先看它的团队背景。

创始人:Swin Transformer 之父曹越

Sand AI 的 CEO 曹越(Yue Cao) 在中国 AI 圈是个相当熟悉的名字,海外学术圈也一样。他的核心履历可以浓缩成下面这几条:

时间	经历
2019-2022	微软亚洲研究院(Microsoft Research Asia)资深研究员,Swin Transformer 核心作者
2021	Swin Transformer 获 ICCV 2021 最佳论文奖(Marr Prize)
2022-2023	联合创立 Lightyear AI(光年之外),后被美团收购
2023-2024	任北京智源研究院视觉模型研究中心负责人,主攻基础视觉模型与多模态大模型
2024 至今	创立 Sand AI,担任 CEO

Swin Transformer 的影响力至今仍在持续——这篇论文已经被 Google 学术引用超过 30,000 次,广泛应用在 Microsoft Office 365、Azure Cognitive Service、TikTok、快手等产品的视觉理解链路里。它也是 Video Swin Transformer 的前置工作,某种程度上,曹越本人就代表了"从视觉理解到视频生成"这条技术路径的连续性。

团队规模:不到 30 人的"超精英小团队"

Sand AI 的团队结构和大多数大模型公司差异极大:全员加起来不到 30 人,涵盖产品、市场、工程、研究 4 个方向,核心团队平均年龄不到 30 岁。这种小团队结构在过去几年的大模型创业潮里相对少见,但也意味着:

决策链条短,迭代速度快;
工程与研究高度耦合,论文级创新可以直接变成产品;
没有大公司式的部门墙,3 个人就能跑通一条新链路。

这种"小而硬"的基因,是 Sand AI 能在 2025 年 4 月就拿出 MAGI-1 这种高完成度模型的重要原因。

公司使命与开源态度

Sand AI 在 about-us 页面给自己定义的使命是:"Advance AI to benefit everyone(推动 AI 让每个人受益)",并且明确表示要"拥抱开源、通过开放协作推动进步,让前沿 AI 对所有人可用"。这不是一句营销口号——Sand AI 后续推出的 MAGI-1、MAGI-1.1 都按 Apache 2.0 协议完整开源,把权重、推理代码、Distill 版本一起放上 GitHub 与 Hugging Face,这种开源态度在当前的视频生成赛道上非常激进。

Sand AI 旗舰产品 MAGI:自回归视频生成的新范式

理解完团队,接下来才是真正的重头戏——Sand AI 的旗舰产品 MAGI 系列。它在技术路线上和 Sora、Kling、Veo、HunyuanVideo 等主流方案有一个根本差别:它不是"一次性生成整段视频"的纯扩散模型,而是把"自回归"与"扩散"结合起来,逐块(chunk)生成视频。

MAGI 关键事实

维度	MAGI / MAGI-1 / MAGI-1.1
首次发布	2025 年 4 月 21 日
最新版本	MAGI-1.1(100% 开源)
参数规格	24B(完整版) + 4.5B(轻量版)
蒸馏版本	4.5B Distill + Distill+Quant(2025 年 5 月 26 日发布)
开源协议	Apache 2.0
仓库	`github.com/SandAI-org/MAGI-1` / `huggingface.co/sand-ai/MAGI-1`
视频生成时长	当前 1-10 秒,支持无限延长
单段帧数	每个 chunk 24 帧,联合去噪
并发能力	同时处理最多 4 个 chunk
生成耗时	通常 1-2 分钟出结果
风格支持	写实视频 + 3D 半卡通风格
控制能力	秒级时间轴控制 + 分块 prompting
物理理解	Physics-IQ 基准上的视频续写显著领先
性能定位	开源中达到 SOTA,优于 Wan-2.1 / HunyuanVideo,超越闭源 Hailuo

自回归 + 扩散:为什么是新范式

主流的视频扩散模型(Sora、Veo、Kling 等)通常会一次性把整段视频当作一个张量去做去噪。这种方法在画质上很强,但有两个固有缺陷:

难以无限延长:模型一次能生成的视频长度被推理时的显存与时延卡死;
物理一致性弱:整段一次出,缺少"前一帧推理后一帧"的因果链。

MAGI 选择的路线是把视频拆成 24 帧一组的 chunk,每个 chunk 内部做扩散去噪,chunk 与 chunk 之间走自回归的因果约束。这意味着:

想要视频更长?继续往后自回归一段就行,从原理上没有上限——这也是 sand.ai 官网为什么强调 "infinite video extension capabilities";
想要物理更真实?每一帧都基于前面已生成的帧,因此在 Physics-IQ 这种物理预测基准上有结构性优势;
想要更细的可控性?可以对每个 chunk 单独喂 Prompt,形成"分段导演"的效果。

这种设计在 Sand AI 自己的实测中表现非常突出:在开源模型里击败了 Wan-2.1、HunyuanVideo 等强对手,在闭源对比中也超过了 Hailuo,Physics-IQ 基准上"显著优于现有所有模型"。

MAGI 架构里的工程创新

为了让自回归 + 扩散这条路真正跑得动,Sand AI 在 MAGI 里塞了一整套架构改造:

模块	作用
Block-Causal Attention	让 chunk 之间形成因果连接,避免未来信息泄漏
Parallel Attention Block	提升单 chunk 内部的并行效率
QK-Norm + GQA	稳定训练 + 减少 KV Cache 负担
Sandwich Normalization in FFN	进一步稳定大模型训练
SwiGLU	提升非线性表达能力
Softcap Modulation	控制注意力分布的极端值
Transformer-based VAE	解码速度更快

这些创新单独拿出来都不算"突破性",但叠加在一起,就让 MAGI-1 同时拥有了长视频、强物理、可控性、可扩展性 4 项往往难以同时兼顾的能力。

🎯 架构选型建议:如果你的业务需要"长视频续写"或"分镜级别的可控性",MAGI 这种自回归 + 扩散的范式值得纳入候选;在它正式提供商用 API 之前,可以先在 API易 apiyi.com 上用 Sora 2、Veo 3.1、Kling 3.0 等已商用化模型完成产品原型,等 MAGI 商用 API 成熟后无缝迁移。

Sand AI 如何把 MAGI 交付给开发者

光有强模型还不够,Sand AI 在交付路径上也设计得相当工程化。从普通用户到开发者再到研究者,sand.ai 提供了三条不同入口。

三种使用 MAGI 的方式

入口	地址	适合人群
Web 应用	`magi.sand.ai/app/projects`	内容创作者 / 普通用户,直接在浏览器里出片
API 平台	`platform.sand.ai/docs`	开发者,要把 MAGI 接进自己的产品
开源仓库	`github.com/SandAI-org/MAGI-1` + `huggingface.co/sand-ai/MAGI-1`	研究者 / 自部署团队,要本地跑权重

这三条路覆盖了 "零代码出片 → 工程接入 → 完全自托管" 的全谱系需求。和那些"只放论文不放权重"或者"只放 Demo 不开源"的团队相比,Sand AI 的做法要彻底得多。

24B 与 4.5B 双版本的工程意义

MAGI-1 同时提供 24B 与 4.5B 两个参数规格,这件事本身就说明 Sand AI 想兼顾两类用户:

24B 完整版:面向有充足 GPU 资源、追求最高画质的研究者与企业;
4.5B 蒸馏版:面向工程化部署、追求成本与时延平衡的团队,5 月又追加了 Distill+Quant 版本,把显存进一步压缩。

这种"高低端双模型 + 持续蒸馏"的发布节奏,几乎是 2025-2026 年开源大模型最成熟的玩法,Sand AI 在这一点上和 Mistral、Qwen 等开源大厂保持了同步。

Sand AI 在视频生成赛道的位置与启示

把背景、产品、交付路径全部串起来之后,Sand AI 在 2026 年视频生成赛道里的位置已经相当清晰。

为什么值得关注

角度	Sand AI 的差异化价值
学术深度	Swin Transformer 团队基因,网络架构创新有连续性
路线选择	自回归 + 扩散是少有人走的第三条路,而非简单复刻 Sora
开源彻底度	Apache 2.0 + 权重 + 代码 + Distill 版本全部公开
产品形态	Web / API / 自托管三入口齐备
物理理解	Physics-IQ 基准显著领先,适合科普/教育/科研内容
长视频	自回归路线天然支持无限延长

三层产业启示

Sand AI 的快速崛起对整个视频生成赛道至少留下了三层启示:

路线多样化:Sora / Veo / Kling 之外,自回归 + 扩散这条路可以走通,且在物理一致性上有结构优势;
小团队 + 开源也能 SOTA:不到 30 人 + Apache 2.0,照样能在 Physics-IQ 上跑赢大量闭源大厂;
学术血统的回归:Swin Transformer 这类"经典视觉模型"的训练经验,在视频生成时代仍然有强烈的延续价值。

这三点对 2026 年想入场视频生成的团队都有直接参考意义——你不需要 1000 张 H100 才能做出像样的模型,但你确实需要"懂架构、敢开源、肯卷物理一致性"的工程文化。

🎯 生态接入建议:对于希望把"开源 + 闭源"视频模型同时纳入产品的团队,我们建议把 Sora 2、Veo 3.1、Kling 3.0、MAGI-1 等放到一个统一接口下管理;在 MAGI 商用 API 尚未对外大规模放开之前,可以先通过 API易 apiyi.com 接入已商用化的视频模型完成业务跑通,等待 Sand AI 的 platform.sand.ai 进一步开放。

Sand AI 适合谁、不适合谁

回到一个非常实际的问题:你应该现在就用 Sand AI 的 MAGI 吗? 答案取决于你在视频生成上的具体诉求。

适合的人群

人群	适合理由
研究者 / 论文作者	完整开源 + 自回归新范式,适合做后续学术工作
自托管 / 私有部署团队	Apache 2.0 + 4.5B 蒸馏版,可本地跑权重
物理科普 / 教育内容创作者	Physics-IQ 领先,物理一致性好
长视频续写需求方	自回归路线天然支持 infinite extension
想做"分镜级可控生成"的产品	支持秒级时间轴 + chunk-wise prompting
中文 AI 内容生态参与者	北京团队,中文 prompt 友好

不太适合的人群

人群	原因
只追求"出片就行"的零代码用户	Sora 2 / Kling 等成熟产品的 UX 仍然更轻量
完全不愿意自部署的小团队	platform.sand.ai 商用 API 仍在持续完善
需要 4K + 长时长 + 含音频的影视级输出	当前定位仍偏研究 / 创意,而不是影视后期
对"权重许可"不敏感的纯应用层	直接调闭源 API 反而省心

🎯 试用建议:如果你的诉求是"立刻看效果",我们建议先去 magi.sand.ai 用 Web 应用免登录或快速注册体验一段;如果想对比 Sand AI 与其它视频模型的真实差异,可以同时通过 API易 apiyi.com 调用 Sora 2 / Veo 3.1 / Kling 3.0,用同一组 Prompt 并行出片,直观判断 MAGI 的自回归路线是否真的更适合你的业务。

Sand AI 常见问题 FAQ

Q1:Sand AI 是哪家公司?和 Stability AI、Midjourney 是同一类吗?

Sand AI 是一家成立于中国北京的 AI 初创公司,由 Swin Transformer 核心作者曹越(Yue Cao)创立,核心团队不到 30 人。和 Stability AI 偏图像、Midjourney 偏闭源订阅不同,Sand AI 专注于视频生成,且选择了完整开源(Apache 2.0)的路线。它的旗舰产品是自回归视频生成模型 MAGI-1 / MAGI-1.1。

Q2:MAGI-1 和 Sora、Kling、Veo 有什么本质区别?

最大的区别在技术路线:Sora / Veo / Kling 等主流模型一次性生成整段视频,而 MAGI 把视频拆成 24 帧一组的 chunk,chunk 内部做扩散去噪、chunk 之间走自回归因果连接。这种范式让 MAGI 在"无限视频延长"和"物理一致性"两件事上有结构性优势——sand.ai 官方在 Physics-IQ 基准上展示了显著领先的结果。

Q3:MAGI-1 真的完全开源吗?可以商用吗?

是的。MAGI-1 与 MAGI-1.1 按 Apache 2.0 协议在 GitHub(SandAI-org/MAGI-1)和 Hugging Face(sand-ai/MAGI-1)上开源,代码、权重、推理工具一应俱全。Apache 2.0 是一个非常友好的开源协议,允许商用、允许修改、允许闭源衍生,只需要保留版权声明。这意味着你可以把 MAGI-1 用在自己的产品里,也可以基于它做二次训练。

Q4:本地跑 MAGI-1 需要什么硬件?

完整版 MAGI-1 是 24B 参数,本地推理需要专业级多卡 GPU;如果你硬件预算有限,推荐用 Sand AI 在 2025 年 5 月发布的 4.5B Distill 版本 或 Distill+Quant 版本,显存需求显著下降,在单张高端消费级 GPU 上也能跑。如果只是想"看看效果",建议先去 magi.sand.ai 用 Web 应用,不需要本地配置。

Q5:Sand AI 有商用 API 吗?和 Sora、Kling 比起来怎么样?

Sand AI 的商用 API 平台 platform.sand.ai 已经上线,但生态成熟度仍然在追赶 Sora、Kling 这类已经全面商用的模型。如果你正在做一个需要"立刻可用、有充足配额、支持中文 prompt"的视频生成产品,我们建议先通过 API易 apiyi.com 这种统一中转平台调用 Sora 2、Veo 3.1、Kling 3.0 等已商用化的视频模型完成业务跑通,同时关注 Sand AI 后续 API 的开放节奏,在合适的时机再做替换或并行接入。

Q6:Sand AI 接下来值得关注吗?

非常值得。两个理由:第一,Swin Transformer 团队的学术血统意味着 MAGI 后续的版本迭代很有可能在架构层面持续创新,而不是单纯靠堆数据;第二,Sand AI 选择了一条"自回归 + 扩散 + 完整开源"的差异化路径,这条路如果走得通,将影响整个 2026-2027 年开源视频生成赛道的范式选择。无论你是研究者、产品开发者还是内容创作者,都建议把 sand.ai 加入持续观察清单。

总结:什么是 Sand AI 的最终答案

回到最初那个问题——"什么是 Sand AI?" 现在我们可以给出一个相对完整的回答:Sand AI 是一家由 Swin Transformer 核心作者曹越在北京创立、不到 30 人的小团队 AI 初创公司,以开源的自回归视频生成模型 MAGI-1 / MAGI-1.1 为旗舰产品,在 Physics-IQ 等物理一致性基准上跑出了优于多数开源与部分闭源模型的成绩,并且把全套权重与代码以 Apache 2.0 协议放在 GitHub 与 Hugging Face。这是一家"学术血统硬、路线选择新、开源态度彻底"的视频生成黑马。

对开发者和研究者而言,Sand AI 的真正意义不是"又多了一个视频模型",而是为整个视频生成赛道提供了一条可复制的差异化路径:不靠超大算力、不靠闭源圈地、不靠营销轰炸,而是靠学术功底 + 架构创新 + 完整开源。如果说 2025 年前的视频生成赛道是 Sora 一家独大,那么 Sand AI 的出现,让 2026 年的开源视频生态多了一种"小团队也能 SOTA"的可能性。

🎯 最终建议:想要第一时间跟进 Sand AI 与 MAGI 的进展,我们建议你做三件事:1) 关注 sand.ai 与 Hugging Face sand-ai 组织的更新;2) 用 magi.sand.ai 的 Web 应用跑一次自己的真实需求,形成第一手手感;3) 把 MAGI 与 Sora 2、Veo 3.1、Kling 3.0 等已商用化模型同时接入 API易 apiyi.com 这种统一平台做横向对比,在内部基准上判断它对你业务的真实价值。这套流程走完之后,Sand AI 是否值得纳入你的视频生成工具栈 的答案就会自然浮现。

作者:APIYI Team ｜关注 AI 大模型落地与开源生态,更多视频与多模态模型评测请访问 API易 apiyi.com。

什么是 Sand AI?Swin Transformer 团队打造的开源视频生成黑马 6 大要点全解析

Sand AI 核心信息一览