GaussianGPTが登場！GPT方式で3D Gaussianシーンを「トークン単位」で生成するTUM発の新手法

GaussianGPTとは？

2026年3月、ミュンヘン工科大学（TUM） のNicolas von Lützow氏、Barbara Rössle氏、Katharina Schmid氏、そしてMatthias Nießner教授らが、「GaussianGPT: Towards Autoregressive 3D Gaussian Scene Generation」 という論文を発表しました。

一言で言えば、3D Gaussian Splatting（3DGS）のシーンを、ChatGPTのように「トークン単位で」生成するモデルです。

これまでの3D生成モデルの多くは拡散モデル（Diffusion Model）ベースで、シーン全体をホリスティック（一括）に洗練していくアプローチが主流でした。GaussianGPTはこれと根本的に異なり、シーンを少しずつ、離散的な決定の連続として構築していく点が革新的です。

"We introduce a GPT-style model that directly generates 3D Gaussian scenes, token by token, in a series of small, discrete decision steps."
（GPT風のモデルを導入し、3D Gaussianシーンを、小さく離散的な決定ステップの連続として、トークン単位で直接生成します）
— Matthias Nießner

何ができるのか？

GaussianGPTは、1つのモデルで以下の3つのタスクをカバーします。

1. 無条件生成（Unconditional Generation）

入力なしでゼロから3D Gaussianシーンを生成できます。

2. シーン補完（Scene Completion）

部分的に与えられた3Dシーンを条件として、残りの部分を補完します。「半分だけ作った3Dシーン」をAIが続きから埋めてくれるイメージです。

3. アウトペインティング（Outpainting）

学習時の生成範囲を超える、巨大な3Dシーンを生成できます。これは画像のアウトペインティング（外側に絵を描き足す）の3D版です。

シーンを繰り返し拡張していくことで、モデルが学習した範囲を超えた広大な3D空間を構築できます。

技術的アプローチ

GaussianGPTは大きく2つのフェーズで動作します。

フェーズ1: 圧縮（Tokenization）

まず、3D Gaussianシーンを離散的なトークン列に変換します。

Gaussian Primitivesを疎な3Dボクセルグリッドにマッピング
疎な3D畳み込みオートエンコーダ（Sparse 3D Convolutional Autoencoder） で圧縮
ベクトル量子化（Vector Quantization） により、低次元の潜在表現を生成

このプロセスは、画像生成におけるVQ-VAEのアプローチを3Dに拡張したものと考えるとわかりやすいです。連続的な3D空間を、離散的な「トークン」の集合に変換するわけです。

フェーズ2: 生成（Autoregressive Prediction）

量子化されたグリッドを xyz順の1次元トークン列 として扱い、GPT風の因果的トランスフォーマーで次のトークンを予測していきます。

ポイントは以下の2つです。

3D Rotary Positional Embedding (3D RoPE) を使用 — 位置エンコーディングを3次元に拡張し、空間的な関係を保持
幾何（geometry）と外観（appearance）を同時にモデリング — 形状と色を別々ではなく、一つのトークン列の中で統合的に扱う

つまり、ChatGPTがテキストを単語ごとに生成するように、GaussianGPTは3Dシーンを「ボクセルトークン」ごとに生成していくのです。

なぜ「自己回帰モデル」なのか？

3D生成の主流は拡散モデルですが、GaussianGPTがあえて自己回帰アプローチを採用した理由は、柔軟性にあります。

| 項目 | 拡散モデル | 自己回帰モデル（GaussianGPT） | |---|---|---| | 生成方式 | 全体を一括で洗練 | トークン単位で逐次生成 | | シーン補完 | 専用の手法が必要 | 自然にサポート | | アウトペインティング | 困難 | 得意分野 | | 制御性 | ガイダンス機構が必要 | 温度パラメータで簡単に制御 | | 生成範囲 | 学習時に固定 | 学習範囲を超えた拡張が可能 |

特にアウトペインティングは重要なポイントです。拡散モデルは生成サイズが固定されがちですが、自己回帰モデルなら「もう少し続けて生成して」と指示するだけで、シーンを際限なく拡張できます。

3D Gaussian Splattingとの関係

GaussianGPTは「3D Gaussian Splatting（3DGS）」を生成するモデルです。3DGSが写真から3Dシーンを再構成する技術だとすれば、GaussianGPTはゼロから3DGSシーンを作り出すAIと言えます。

既存の3DGSとの違い

従来の3DGS: 複数の写真からSfM＋最適化でシーンを再構成（あくまで実在するシーンの再現）
生成系3DGS（World Labs Marbleなど）: テキスト/画像から拡散モデルでシーンを生成
GaussianGPT: トークン単位の自己回帰モデルで、補完・拡張に強い

つまり、GaussianGPTは「3DGSの世界に言語モデル方式を持ち込んだ」研究と位置づけられます。

なぜ重要なのか？

この研究のインパクトは大きく3つあります。

1. 3D生成のパラダイムシフト

これまで3D生成はほぼ拡散モデル一択でしたが、自己回帰アプローチが現実的な選択肢となることを示しました。テキスト生成の世界がGPTで一変したように、3D生成にも同じ流れが来る可能性があります。

2. 大規模シーンへの道

アウトペインティングによる「学習範囲を超えたシーン生成」は、ゲームのオープンワールドやメタバース空間を自動生成するアプリケーションに直結します。

3. 既存パイプラインとの互換性

生成結果は3DGS形式なので、Three.js、Unreal Engine（NanoGS）、Spline、Nuke 17.0など、既存の3DGSビューア・編集ツールでそのまま使える点も実用上のメリットです。

まとめ

GaussianGPTは、3D Gaussian Splatting × 自己回帰トランスフォーマー という、これまでなかった組み合わせを実現した意欲的な研究です。

誰の研究？ TUM（ミュンヘン工科大学）、Matthias Nießnerグループ
何を生成？ 3D Gaussianシーン
どうやって？ ボクセルトークンを順番に予測するGPT方式
何ができる？ 無条件生成・シーン補完・大規模アウトペインティング
論文 arXiv:2603.26661
プロジェクトページ GaussianGPT
コード Coming Soon

2026年は3D Gaussian Splattingが標準化フェーズに入る年でもあり、生成系の研究もここから一気に加速するはずです。GaussianGPTは、その流れの中で**「3D生成の次のスタンダード」** を提示する一本になるかもしれません。

3D Gaussian Splattingの基礎については 3D Gaussian Splattingとは？NeRFとの違いからわかるリアルタイム3D革命も合わせてどうぞ。