Sand AIとは何か？Swin Transformerチームが開発したオープンソースの動画生成におけるダークホース、6つの要点を完全解説

最近、Hugging FaceやGitHub、あるいは英語圏のAI関連のTwitter（X）で「Sand AI」という名前を繰り返し目にし、彼らが発表した「MAGI-1 / MAGI-1.1」に興味をお持ちではありませんか？もしそうなら、この記事はまさにあなたのために書かれたものです。多くの「突如現れた動画生成AIチーム」とは異なり、Sand AIには非常に強固な背景があります。CEOの曹越（Cao Yue）氏は、ICCV 2021でベストペーパー賞（Marr Prize）を受賞し、Google Scholarで3万回以上引用され、Microsoft Office 365、Azure、TikTok、快手（Kuaishou）などの大手製品で広く採用されている「Swin Transformer」の主要著者です。つまり、Sand AIは単なる新興チームではなく、Swin Transformerのオリジナルメンバーが、10年間にわたるビジョンモデルの蓄積を動画生成へと昇華させた存在なのです。

さらに海外コミュニティを熱狂させているのは、Sand AIが強力な動画生成モデルを開発しただけでなく、それを完全にオープンソース化したという点です。MAGI-1の全ウェイト、コード、推論ツールをApache 2.0ライセンスで公開し、GitHubとHugging Faceで誰でも利用できるようにしました。2025年から2026年にかけての「国産動画モデルのオープンソース化」の波の中で、Sand AIは「自己回帰型動画生成」という新しいルートを確立し、それをオープンソース化した数少ないチームの一つです。本記事では、会社背景、創業者プロフィール、MAGIの技術アーキテクチャ、オープンソース戦略、そしてターゲット層という6つの側面から、「Sand AIとは何か」を徹底解説します。

Sand AI 核心情報まとめ

詳細を解説する前に、「Sand AIとは何か」という問いに対する重要な事実を、以下の表にまとめました。

項目	Sand AI 公開情報
英語社名	Sand AI (Webサイト: sand.ai)
設立背景	Swin Transformerの主要著者、曹越氏が設立
本社所在地	中国・北京
チーム規模	30名未満、平均年齢30歳以下
企業ミッション	「AIで誰もが恩恵を受けられるようにする」、オープンソースとオープンな協力を推進
CEO	曹越 (Yue Cao)、元北京智源AI研究院ビジョンモデル研究センター責任者
主力製品	MAGI / MAGI-1 / MAGI-1.1 自己回帰型動画生成モデル
初回リリース	2025年4月21日 (MAGI-1)
最新バージョン	MAGI-1.1 (100% オープンソース)
モデル仕様	24Bと4.5Bの2つのパラメータバージョン
オープンソースライセンス	Apache 2.0, GitHub `SandAI-org/MAGI-1` + Hugging Face `sand-ai/MAGI-1`
核心技術	自己回帰 + 拡散モデルの統合 (Autoregressive Denoising Diffusion)
Web入口	`magi.sand.ai/app/projects`
APIプラットフォーム	`platform.sand.ai/docs`
主な競合	Wanシリーズ、HunyuanVideo、Hailuo、Soraなど

🎯 理解を深めるためのヒント: もし Sand AI を一言で記憶したいなら、「Swin Transformerで培ったビジョンモデリングの技術を動画生成に持ち込んだオープンソースのスタートアップ」と覚えてください。MAGIシリーズと他の動画生成モデルの違いを今すぐ試してみたい場合は、APIYI (apiyi.com) のような統合プラットフォームで Sora 2、Veo 3.1、Kling などの成熟したモデルを先に一通り試してから、sand.ai や Hugging Face で MAGI-1.1 を取得して比較することをおすすめします。そうすることで、「自己回帰型」というアプローチの独自性をすぐに実感できるはずです。

Sand AI の会社背景とチームのDNA

Sand AI がなぜこれほど早く競争力のある動画生成モデルを開発できたのか、その理由を知るには、まずチームの背景に注目する必要があります。

創業者：Swin Transformer の父、曹越（Yue Cao）

Sand AI の CEO である 曹越（Yue Cao） は、中国の AI 業界だけでなく、海外の学術界でも非常に有名な人物です。彼の主な経歴は以下の通りです。

時期	経歴
2019-2022	マイクロソフトリサーチアジア（MSRA）シニアリサーチャー、Swin Transformer の主要著者
2021	Swin Transformer が ICCV 2021 最優秀論文賞（Marr Prize）を受賞
2022-2023	Lightyear AI（光年之外）を共同設立、後に美団（Meituan）が買収
2023-2024	北京智源人工知能研究院（BAAI）ビジュアルモデル研究センター長、基礎ビジュアルモデルとマルチモーダル大規模言語モデルを統括
2024-現在	Sand AI を設立、CEO に就任

Swin Transformer の影響力は現在も続いており、Google Scholar での引用数は 30,000 回を超えています。Microsoft Office 365、Azure Cognitive Service、TikTok、快手（Kuaishou）などの製品における視覚理解プロセスで広く活用されています。また、これは Video Swin Transformer の前身となる研究でもあり、ある意味で曹越氏自身が「視覚理解から動画生成へ」という技術的進化の系譜を体現していると言えます。

チーム規模：30人未満の「超精鋭小規模チーム」

Sand AI のチーム構造は、他の大規模言語モデル企業とは大きく異なります。全メンバーが 30 人未満で、プロダクト、マーケティング、エンジニアリング、研究の 4 つの領域をカバーしており、コアメンバーの平均年齢は 30 歳以下です。このような小規模なチーム構成は、近年の大規模言語モデルのスタートアップブームの中では珍しいですが、以下の強みを生んでいます。

意思決定プロセスが短く、反復（イテレーション）が速い。
エンジニアリングと研究が高度に融合しており、論文レベルのイノベーションを直接プロダクトに反映できる。
大企業のような部門間の壁がなく、3 人いれば新しいパイプラインを構築できる。

この「小さく、かつ強力な」DNA こそが、Sand AI が 2025 年 4 月に MAGI-1 のような完成度の高いモデルをリリースできた重要な理由です。

会社のミッションとオープンソースへの姿勢

Sand AI は「about-us」ページで、そのミッションを 「Advance AI to benefit everyone（AI を進化させ、すべての人に恩恵を）」 と定義しており、「オープンソースを推進し、オープンなコラボレーションを通じて進歩を促し、最先端の AI を誰もが利用できるようにする」と明言しています。これは単なるスローガンではありません。Sand AI はその後リリースした MAGI-1、MAGI-1.1 を Apache 2.0 ライセンスで完全にオープンソース化し、重みデータ、推論コード、蒸留バージョンを GitHub や Hugging Face で公開しています。動画生成分野において、このようなオープンソースへの姿勢は非常に先鋭的です。

Sand AI のフラッグシップ製品 MAGI：自己回帰型動画生成の新しいパラダイム

チームの背景を理解したところで、本題である Sand AI のフラッグシップ製品 MAGI シリーズについて解説します。このモデルは、Sora、Kling、Veo、HunyuanVideo といった主要なソリューションとは根本的に異なる技術的アプローチをとっています。それは、「動画全体を一度に生成する」純粋な拡散モデルではなく、「自己回帰」と「拡散」を組み合わせ、チャンク（ブロック）ごとに動画を生成する手法です。

MAGI の重要事実

項目	MAGI / MAGI-1 / MAGI-1.1
初回リリース	2025 年 4 月 21 日
最新バージョン	MAGI-1.1（100% オープンソース）
パラメータ数	24B（フル版）+ 4.5B（軽量版）
蒸留バージョン	4.5B Distill + Distill+Quant（2025 年 5 月 26 日リリース）
オープンソースライセンス	Apache 2.0
リポジトリ	`github.com/SandAI-org/MAGI-1` / `huggingface.co/sand-ai/MAGI-1`
動画生成時間	現在 1〜10 秒、無限延長をサポート
1 セグメントのフレーム数	各チャンク 24 フレーム、共同ノイズ除去
並列処理能力	最大 4 チャンクを同時処理可能
生成時間	通常 1〜2 分で結果を出力
スタイル対応	写実的な動画 + 3D セミカートゥーンスタイル
制御能力	秒単位のタイムライン制御 + チャンクごとのプロンプト
物理理解	Physics-IQ ベンチマークでの動画継続生成において顕著にリード
パフォーマンス位置付け	オープンソースで SOTA を達成、Wan-2.1 / HunyuanVideo を上回り、クローズドソースの Hailuo を凌駕

自己回帰 + 拡散：なぜ新しいパラダイムなのか

主流の動画拡散モデル（Sora、Veo、Kling など）は、通常、動画全体を一つのテンソルとして扱い、一度にノイズ除去を行います。 この手法は画質面では強力ですが、2 つの固有の欠点があります。

無限延長が困難：一度に生成できる動画の長さが、推論時の VRAM とレイテンシによって制限される。
物理的一貫性が弱い：全体を一度に出力するため、「前のフレームから次のフレームを推論する」という因果関係が欠けている。

MAGI が採用したアプローチは、動画を 24 フレームずつのチャンクに分割し、各チャンク内部で拡散によるノイズ除去を行い、チャンク間は自己回帰的な因果制約を持たせるというものです。これにより、以下のメリットが生まれます。

動画を長くしたい場合？ 後ろに自己回帰でチャンクを追加していけばよく、原理的に上限はありません。これが sand.ai の公式サイトで「無限の動画延長能力（infinite video extension capabilities）」が強調されている理由です。
物理的にリアルにしたい場合？ すべてのフレームが先行して生成されたフレームに基づいているため、Physics-IQ のような物理予測ベンチマークにおいて構造的な優位性があります。
より細かな制御が必要な場合？ 各チャンクに個別のプロンプトを与えることで、「セグメントごとの監督」のような効果が得られます。

この設計は、Sand AI 自身のテストにおいて非常に優れた結果を示しており、オープンソースモデルの中で Wan-2.1 や HunyuanVideo などの強力なライバルを打ち負かし、クローズドソースとの比較でも Hailuo を上回るなど、Physics-IQ ベンチマークでは「既存のすべてのモデルを著しく凌駕する」性能を誇っています。

MAGI アーキテクチャにおけるエンジニアリングの革新

「自己回帰 + 拡散」というアプローチを実際に機能させるため、Sand AI は MAGI に一連のアーキテクチャ改良を施しました。

モジュール	役割
Block-Causal Attention	チャンク間に因果関係を持たせ、未来情報の漏洩を防ぐ
Parallel Attention Block	チャンク内部の並列処理効率を向上
QK-Norm + GQA	学習の安定化 + KV キャッシュの負荷軽減
Sandwich Normalization in FFN	大規模モデルの学習をさらに安定化
SwiGLU	非線形表現能力の向上
Softcap Modulation	アテンション分布の極端な値を制御
Transformer-based VAE	デコード速度の高速化

これらの革新は、個別に見て「画期的」というわけではありませんが、これらが組み合わさることで、MAGI-1 は 長尺動画、強力な物理理解、制御性、拡張性 という、両立が困難な 4 つの能力を同時に実現しています。

🎯 アーキテクチャ選定のアドバイス：もしあなたのビジネスで「長尺動画の継続生成」や「カット単位の制御」が必要な場合、MAGI のような自己回帰 + 拡散のパラダイムは検討に値します。正式な商用 API が提供されるまでは、APIYI（apiyi.com）上で Sora 2、Veo 3.1、Kling 3.0 などの商用化済みモデルを使用してプロトタイプを作成し、MAGI の商用 API が成熟した段階でシームレスに移行することをお勧めします。

Sand AI はどのようにして MAGI を開発者に提供しているのか

強力なモデルがあるだけでは十分ではありません。Sand AI は、その提供経路においても非常にエンジニアリングを意識した設計を行っています。一般ユーザーから開発者、そして研究者に至るまで、sand.ai は3つの異なる入り口を提供しています。

MAGI を利用する3つの方法

入り口	アドレス	対象ユーザー
Web アプリ	`magi.sand.ai/app/projects`	コンテンツクリエイター / 一般ユーザー（ブラウザで直接生成）
API プラットフォーム	`platform.sand.ai/docs`	開発者（MAGI を自社製品に組み込みたい方）
オープンソースリポジトリ	`github.com/SandAI-org/MAGI-1` + `huggingface.co/sand-ai/MAGI-1`	研究者 / 自社デプロイチーム（ローカルで重みを動かしたい方）

これら3つの経路は、**「ノーコードでの生成 → エンジニアリングによる統合 → 完全なセルフホスティング」**という全方位のニーズをカバーしています。「論文だけ公開して重みは出さない」あるいは「デモだけでオープンソース化しない」といったチームと比較すると、Sand AI のアプローチは非常に徹底しています。

24B と 4.5B の2バージョンが持つエンジニアリング上の意義

MAGI-1 が 24B と 4.5B という2つのパラメータ規模を同時に提供していることは、Sand AI が2種類のユーザー層を両立させようとしていることを示しています。

24B フルバージョン: 十分な GPU リソースを持ち、最高画質を追求する研究者や企業向け。
4.5B 蒸留バージョン: エンジニアリングによるデプロイを重視し、コストと遅延のバランスを追求するチーム向け。5月には Distill+Quant バージョンも追加され、VRAM 使用量がさらに圧縮されました。

このような「ハイエンド・ローエンドのデュアルモデル + 継続的な蒸留」というリリースリズムは、2025年から2026年にかけてのオープンソース大規模言語モデルにおいて最も成熟した戦略です。Sand AI はこの点で、Mistral や Qwen といったオープンソースの主要プレイヤーと歩調を合わせています。

動画生成市場における Sand AI の立ち位置と示唆

背景、製品、提供経路をすべてつなぎ合わせると、2026年の動画生成市場における Sand AI の立ち位置は非常に明確になります。

なぜ注目に値するのか

視点	Sand AI の差別化価値
学術的深み	Swin Transformer チームの遺伝子を受け継ぎ、ネットワークアーキテクチャの革新に連続性がある
ルート選択	自己回帰 + 拡散モデルは、Sora の単純なコピーではなく、他に類を見ない第3の道である
オープンソースの徹底度	Apache 2.0 + 重み + コード + Distill バージョンをすべて公開
製品形態	Web / API / セルフホスティングの3つの入り口を完備
物理的理解	Physics-IQ ベンチマークで顕著にリードしており、科学解説/教育/研究コンテンツに適している
長尺動画	自己回帰ルートにより、自然に無限の延長をサポート

産業への3つの示唆

Sand AI の急速な台頭は、動画生成市場全体に対して少なくとも3つの示唆を与えています。

ルートの多様化: Sora / Veo / Kling 以外にも、自己回帰 + 拡散モデルという道は実現可能であり、物理的な一貫性において構造的な優位性がある。
小規模チーム + オープンソースでも SOTA は可能: 30人未満のチーム + Apache 2.0 であっても、Physics-IQ で多くのクローズドな大手企業を凌駕できる。
学術的血統の回帰: Swin Transformer のような「古典的な視覚モデル」の学習経験は、動画生成時代においても依然として強力な継続的価値を持っている。

これら3点は、2026年に動画生成市場への参入を考えているチームにとって直接的な参考になります。1000枚の H100 がなければまともなモデルが作れないわけではありません。しかし、「アーキテクチャを理解し、オープンソース化を恐れず、物理的一貫性を追求する」というエンジニアリング文化が不可欠であることは間違いありません。

🎯 エコシステムへの統合アドバイス: 「オープンソース + クローズド」の動画モデルを同時に製品へ組み込みたいチームには、Sora 2、Veo 3.1、Kling 3.0、MAGI-1 などを統一されたインターフェースで管理することを推奨します。MAGI の商用 API が一般公開されるまでは、APIYI (apiyi.com) を通じて商用化済みの動画モデルを統合し、業務フローを確立させながら、Sand AI の platform.sand.ai のさらなる開放を待つのが賢明でしょう。

Sand AI は誰に向いているか、向いていないか

非常に現実的な問題に戻りましょう。「今すぐ Sand AI の MAGI を使うべきか？」 という問いへの答えは、あなたが動画生成に何を求めているかによって決まります。

向いている人

対象者	向いている理由
研究者 / 論文執筆者	完全オープンソースかつ自己回帰という新しいパラダイムであり、学術的な研究に適している
セルフホスティング / プライベートデプロイを行うチーム	Apache 2.0 ライセンスかつ 4.5B の蒸留版があり、ローカル環境で重みを実行可能
物理科学の解説 / 教育コンテンツ制作者	Physics-IQ での性能が高く、物理的な一貫性に優れている
長尺動画の続きを作成したい方	自己回帰型のため、自然に無限の延長（infinite extension）をサポート
「カット単位の制御生成」を行いたいプロダクト開発者	秒単位のタイムラインとチャンク単位のプロンプト制御をサポート
中国語 AI コンテンツエコシステムの参加者	北京のチームが開発しており、中国語プロンプトとの相性が良い

あまり向いていない人

対象者	理由
「とにかく動画ができればいい」というノーコードユーザー	Sora 2 や Kling などの成熟した製品の方が UX が洗練されている
自社デプロイを全くしたくない小規模チーム	platform.sand.ai の商用 API はまだ発展途上であるため
4K・長尺・音声付きの映画品質を求める方	現状は研究やクリエイティブ用途が中心で、映画制作のポストプロダクション向けではない
「ライセンス」にこだわらない純粋なアプリ層	閉源の API を直接呼び出す方が手間がかからない

🎯 試用のアドバイス: もし「すぐに結果を見たい」のであれば、まずは magi.sand.ai の Web アプリでログイン不要、または簡単な登録で体験してみることをお勧めします。Sand AI と他の動画モデルの本当の違いを比較したい場合は、APIYI (apiyi.com) を通じて Sora 2 / Veo 3.1 / Kling 3.0 を呼び出し、同じプロンプトで並行して生成を行い、MAGI の自己回帰アプローチが本当に自分のビジネスに適しているかを直感的に判断してみてください。

Sand AI に関するよくある質問 (FAQ)

Q1: Sand AI とはどんな会社ですか？Stability AI や Midjourney と同じようなものですか？

Sand AI は、中国の北京に拠点を置く AI スタートアップです。Swin Transformer の中心的な著者である曹越（Yue Cao）氏によって設立され、コアチームは 30 名未満です。画像生成に注力する Stability AI や、クローズドなサブスクリプションモデルの Midjourney とは異なり、Sand AI は動画生成に特化しており、完全オープンソース（Apache 2.0）の道を歩んでいます。主力製品は、自己回帰型動画生成モデル「MAGI-1 / MAGI-1.1」です。

Q2: MAGI-1 と Sora、Kling、Veo の本質的な違いは何ですか？

最大の違いは技術的なアプローチです。Sora / Veo / Kling などの主要モデルは動画全体を一度に生成しますが、MAGI は動画を 24 フレームずつの「チャンク」に分割し、チャンク内部で拡散モデルによるノイズ除去を行い、チャンク間を自己回帰的な因果関係でつなぎます。このパラダイムにより、MAGI は「無限の動画延長」と「物理的な一貫性」において構造的な優位性を持っています。sand.ai 公式は、Physics-IQ ベンチマークにおいて顕著なリードを示しています。

Q3: MAGI-1 は本当に完全オープンソースですか？商用利用は可能ですか？

はい。MAGI-1 と MAGI-1.1 は Apache 2.0 ライセンスの下、GitHub (SandAI-org/MAGI-1) および Hugging Face (sand-ai/MAGI-1) で公開されており、コード、重み、推論ツールがすべて揃っています。Apache 2.0 は非常に寛容なオープンソースライセンスであり、商用利用、改変、クローズドソースでの派生利用が許可されています（著作権表示の保持のみ必要）。つまり、MAGI-1 を自社製品に組み込んだり、それをベースに再学習を行ったりすることが可能です。

Q4: ローカルで MAGI-1 を動かすにはどのようなハードウェアが必要ですか？

完全版の MAGI-1 は 24B パラメータであり、ローカル推論にはプロフェッショナル向けのマルチ GPU 環境が必要です。ハードウェア予算が限られている場合は、2025 年 5 月にリリースされた 4.5B 蒸留版 または 蒸留＋量子化版 を推奨します。これらは VRAM 要件が大幅に抑えられており、ハイエンドのコンシューマー向け GPU 単体でも動作可能です。「まずは効果を確認したい」という場合は、ローカル設定不要の Web アプリ版 magi.sand.ai をお勧めします。

Q5: Sand AI には商用 API がありますか？Sora や Kling と比べてどうですか？

Sand AI の商用 API プラットフォーム platform.sand.ai はすでに公開されていますが、エコシステムの成熟度は、すでに商用化されている Sora や Kling に追随している段階です。「すぐに利用可能で、十分なクォータがあり、中国語プロンプトをサポートしている」動画生成プロダクトを開発している場合は、まずは APIYI (apiyi.com) のような統合 API 中継サービスを通じて Sora 2、Veo 3.1、Kling 3.0 などの商用モデルを利用してビジネスを構築しつつ、Sand AI の API 公開状況を注視し、適切なタイミングで切り替えや併用を行うことをお勧めします。

Q6: Sand AI は今後注目すべきですか？

非常に注目に値します。理由は 2 つあります。第一に、Swin Transformer チームという学術的なバックグラウンドがあるため、MAGI の今後のバージョンアップは単なるデータの積み上げではなく、アーキテクチャレベルでの革新が期待できる点です。第二に、Sand AI は「自己回帰＋拡散＋完全オープンソース」という差別化された経路を選択しており、この道が成功すれば、2026 年から 2027 年にかけてのオープンソース動画生成業界のパラダイム選択に影響を与える可能性があるからです。研究者、プロダクト開発者、コンテンツクリエイターのいずれであっても、sand.ai を継続的な観察リストに入れておくことを強くお勧めします。

まとめ：Sand AI とは何か、その最終的な答え

冒頭の問い「Sand AI とは何か？」に戻りましょう。現時点での答えはこうです。Sand AI は、Swin Transformer の中心的な開発者である曹越（Cao Yue）氏が北京で設立した、30名未満の少数精鋭による AI スタートアップです。オープンソースの自己回帰型動画生成モデル「MAGI-1 / MAGI-1.1」をフラッグシップ製品としており、Physics-IQ といった物理的一貫性のベンチマークにおいて、多くのオープンソースモデルや一部のクローズドソースモデルを上回る成績を収めています。さらに、モデルの全重みとコードを Apache 2.0 ライセンスで GitHub および Hugging Face に公開しています。まさに「確かな学術的背景、斬新な技術路線、徹底したオープンソース精神」を兼ね備えた、動画生成分野のダークホースと言えるでしょう。

開発者や研究者にとって、Sand AI の真の意義は「また一つ動画モデルが増えた」ことではありません。動画生成という競争領域において、再現可能かつ差別化された新たな道筋を示したことにあります。膨大な計算資源やクローズドな囲い込み、派手なマーケティングに頼るのではなく、確かな学術的知見、アーキテクチャの革新、そして完全なオープンソース化によって成果を出しているのです。2025年までの動画生成界隈が Sora の独壇場だったとすれば、Sand AI の登場は、2026年のオープンソース動画エコシステムに「小規模チームでも SOTA（最高精度）を達成できる」という新たな可能性をもたらしました。

🎯 最終的なアドバイス: Sand AI および MAGI の進捗をいち早く把握するために、以下の3つのステップをお勧めします。1) sand.ai および Hugging Face の sand-ai 組織のアップデートをフォローする。2) magi.sand.ai の Web アプリで実際に自分の作りたい動画を生成し、操作感を確かめる。3) MAGI を Sora 2、Veo 3.1、Kling 3.0 などの商用モデルと並べ、APIYI（apiyi.com）のような統合プラットフォーム経由で API 呼び出しを行い、横断的な比較を行う。自社のベンチマークを通じて、ビジネスにおける真の価値を判断してください。このプロセスを終えれば、Sand AI をあなたの動画生成ツールスタックに組み込むべきかどうか、その答えは自ずと見えてくるはずです。

著者: APIYI Team ｜ AI 大規模言語モデルの社会実装とオープンソースエコシステムに注目しています。動画モデルやマルチモーダルモデルの評価については、APIYI（apiyi.com）をご覧ください。

Sand AIとは何か？Swin Transformerチームが開発したオープンソースの動画生成におけるダークホース、6つの要点を完全解説

Sand AI 核心情報まとめ