
GaussianGPTが登場!GPT方式で3D Gaussianシーンを「トークン単位」で生成するTUM発の新手法
拡散モデルではなく次トークン予測。3D Gaussian Splattingに「言語モデル方式」を持ち込んだ研究
GaussianGPTとは?
2026年3月、ミュンヘン工科大学(TUM) のNicolas von Lützow氏、Barbara Rössle氏、Katharina Schmid氏、そしてMatthias Nießner教授らが、「GaussianGPT: Towards Autoregressive 3D Gaussian Scene Generation」 という論文を発表しました。
一言で言えば、3D Gaussian Splatting(3DGS)のシーンを、ChatGPTのように「トークン単位で」生成するモデルです。
これまでの3D生成モデルの多くは拡散モデル(Diffusion Model)ベースで、シーン全体をホリスティック(一括)に洗練していくアプローチが主流でした。GaussianGPTはこれと根本的に異なり、シーンを少しずつ、離散的な決定の連続として構築していく点が革新的です。
"We introduce a GPT-style model that directly generates 3D Gaussian scenes, token by token, in a series of small, discrete decision steps."
(GPT風のモデルを導入し、3D Gaussianシーンを、小さく離散的な決定ステップの連続として、トークン単位で直接生成します)
— Matthias Nießner
何ができるのか?
GaussianGPTは、1つのモデルで以下の3つのタスクをカバーします。
1. 無条件生成(Unconditional Generation)
入力なしでゼロから3D Gaussianシーンを生成できます。
2. シーン補完(Scene Completion)
部分的に与えられた3Dシーンを条件として、残りの部分を補完します。「半分だけ作った3Dシーン」をAIが続きから埋めてくれるイメージです。
3. アウトペインティング(Outpainting)
学習時の生成範囲を超える、巨大な3Dシーンを生成できます。これは画像のアウトペインティング(外側に絵を描き足す)の3D版です。
シーンを繰り返し拡張していくことで、モデルが学習した範囲を超えた広大な3D空間を構築できます。
技術的アプローチ
GaussianGPTは大きく2つのフェーズで動作します。
フェーズ1: 圧縮(Tokenization)
まず、3D Gaussianシーンを離散的なトークン列に変換します。
- Gaussian Primitivesを疎な3Dボクセルグリッドにマッピング
- 疎な3D畳み込みオートエンコーダ(Sparse 3D Convolutional Autoencoder) で圧縮
- ベクトル量子化(Vector Quantization) により、低次元の潜在表現を生成
このプロセスは、画像生成におけるVQ-VAEのアプローチを3Dに拡張したものと考えるとわかりやすいです。連続的な3D空間を、離散的な「トークン」の集合に変換するわけです。
フェーズ2: 生成(Autoregressive Prediction)
量子化されたグリッドを xyz順の1次元トークン列 として扱い、GPT風の因果的トランスフォーマーで次のトークンを予測していきます。
ポイントは以下の2つです。
- 3D Rotary Positional Embedding (3D RoPE) を使用 — 位置エンコーディングを3次元に拡張し、空間的な関係を保持
- 幾何(geometry)と外観(appearance)を同時にモデリング — 形状と色を別々ではなく、一つのトークン列の中で統合的に扱う
つまり、ChatGPTがテキストを単語ごとに生成するように、GaussianGPTは3Dシーンを「ボクセルトークン」ごとに生成していくのです。
なぜ「自己回帰モデル」なのか?
3D生成の主流は拡散モデルですが、GaussianGPTがあえて自己回帰アプローチを採用した理由は、柔軟性にあります。
| 項目 | 拡散モデル | 自己回帰モデル(GaussianGPT) | |---|---|---| | 生成方式 | 全体を一括で洗練 | トークン単位で逐次生成 | | シーン補完 | 専用の手法が必要 | 自然にサポート | | アウトペインティング | 困難 | 得意分野 | | 制御性 | ガイダンス機構が必要 | 温度パラメータで簡単に制御 | | 生成範囲 | 学習時に固定 | 学習範囲を超えた拡張が可能 |
特にアウトペインティングは重要なポイントです。拡散モデルは生成サイズが固定されがちですが、自己回帰モデルなら「もう少し続けて生成して」と指示するだけで、シーンを際限なく拡張できます。
3D Gaussian Splattingとの関係
GaussianGPTは「3D Gaussian Splatting(3DGS)」を生成するモデルです。3DGSが写真から3Dシーンを再構成する技術だとすれば、GaussianGPTはゼロから3DGSシーンを作り出すAIと言えます。
既存の3DGSとの違い
- 従来の3DGS: 複数の写真からSfM+最適化でシーンを再構成(あくまで実在するシーンの再現)
- 生成系3DGS(World Labs Marbleなど): テキスト/画像から拡散モデルでシーンを生成
- GaussianGPT: トークン単位の自己回帰モデルで、補完・拡張に強い
つまり、GaussianGPTは「3DGSの世界に言語モデル方式を持ち込んだ」研究と位置づけられます。
なぜ重要なのか?
この研究のインパクトは大きく3つあります。
1. 3D生成のパラダイムシフト
これまで3D生成はほぼ拡散モデル一択でしたが、自己回帰アプローチが現実的な選択肢となることを示しました。テキスト生成の世界がGPTで一変したように、3D生成にも同じ流れが来る可能性があります。
2. 大規模シーンへの道
アウトペインティングによる「学習範囲を超えたシーン生成」は、ゲームのオープンワールドやメタバース空間を自動生成するアプリケーションに直結します。
3. 既存パイプラインとの互換性
生成結果は3DGS形式なので、Three.js、Unreal Engine(NanoGS)、Spline、Nuke 17.0など、既存の3DGSビューア・編集ツールでそのまま使える点も実用上のメリットです。
まとめ
GaussianGPTは、3D Gaussian Splatting × 自己回帰トランスフォーマー という、これまでなかった組み合わせを実現した意欲的な研究です。
- 誰の研究? TUM(ミュンヘン工科大学)、Matthias Nießnerグループ
- 何を生成? 3D Gaussianシーン
- どうやって? ボクセルトークンを順番に予測するGPT方式
- 何ができる? 無条件生成・シーン補完・大規模アウトペインティング
- 論文 arXiv:2603.26661
- プロジェクトページ GaussianGPT
- コード Coming Soon
2026年は3D Gaussian Splattingが標準化フェーズに入る年でもあり、生成系の研究もここから一気に加速するはずです。GaussianGPTは、その流れの中で**「3D生成の次のスタンダード」** を提示する一本になるかもしれません。
3D Gaussian Splattingの基礎については 3D Gaussian Splattingとは?NeRFとの違いからわかるリアルタイム3D革命 も合わせてどうぞ。
次に読む
役に立ったら、関連記事とカテゴリ一覧もチェックしてください。



