Loading...
GaussianGPTが登場!GPT方式で3D Gaussianシーンを「トークン単位」で生成するTUM発の新手法

GaussianGPTが登場!GPT方式で3D Gaussianシーンを「トークン単位」で生成するTUM発の新手法

拡散モデルではなく次トークン予測。3D Gaussian Splattingに「言語モデル方式」を持ち込んだ研究

2026-04-107分で読める

GaussianGPTとは?

2026年3月、ミュンヘン工科大学(TUM) のNicolas von Lützow氏、Barbara Rössle氏、Katharina Schmid氏、そしてMatthias Nießner教授らが、「GaussianGPT: Towards Autoregressive 3D Gaussian Scene Generation」 という論文を発表しました。

一言で言えば、3D Gaussian Splatting(3DGS)のシーンを、ChatGPTのように「トークン単位で」生成するモデルです。

これまでの3D生成モデルの多くは拡散モデル(Diffusion Model)ベースで、シーン全体をホリスティック(一括)に洗練していくアプローチが主流でした。GaussianGPTはこれと根本的に異なり、シーンを少しずつ、離散的な決定の連続として構築していく点が革新的です。

"We introduce a GPT-style model that directly generates 3D Gaussian scenes, token by token, in a series of small, discrete decision steps."
(GPT風のモデルを導入し、3D Gaussianシーンを、小さく離散的な決定ステップの連続として、トークン単位で直接生成します)
— Matthias Nießner

何ができるのか?

GaussianGPTは、1つのモデルで以下の3つのタスクをカバーします。

1. 無条件生成(Unconditional Generation)

入力なしでゼロから3D Gaussianシーンを生成できます。

2. シーン補完(Scene Completion)

部分的に与えられた3Dシーンを条件として、残りの部分を補完します。「半分だけ作った3Dシーン」をAIが続きから埋めてくれるイメージです。

3. アウトペインティング(Outpainting)

学習時の生成範囲を超える、巨大な3Dシーンを生成できます。これは画像のアウトペインティング(外側に絵を描き足す)の3D版です。

シーンを繰り返し拡張していくことで、モデルが学習した範囲を超えた広大な3D空間を構築できます。

技術的アプローチ

GaussianGPTは大きく2つのフェーズで動作します。

フェーズ1: 圧縮(Tokenization)

まず、3D Gaussianシーンを離散的なトークン列に変換します。

  1. Gaussian Primitivesを疎な3Dボクセルグリッドにマッピング
  2. 疎な3D畳み込みオートエンコーダ(Sparse 3D Convolutional Autoencoder) で圧縮
  3. ベクトル量子化(Vector Quantization) により、低次元の潜在表現を生成

このプロセスは、画像生成におけるVQ-VAEのアプローチを3Dに拡張したものと考えるとわかりやすいです。連続的な3D空間を、離散的な「トークン」の集合に変換するわけです。

フェーズ2: 生成(Autoregressive Prediction)

量子化されたグリッドを xyz順の1次元トークン列 として扱い、GPT風の因果的トランスフォーマーで次のトークンを予測していきます。

ポイントは以下の2つです。

  • 3D Rotary Positional Embedding (3D RoPE) を使用 — 位置エンコーディングを3次元に拡張し、空間的な関係を保持
  • 幾何(geometry)と外観(appearance)を同時にモデリング — 形状と色を別々ではなく、一つのトークン列の中で統合的に扱う

つまり、ChatGPTがテキストを単語ごとに生成するように、GaussianGPTは3Dシーンを「ボクセルトークン」ごとに生成していくのです。

なぜ「自己回帰モデル」なのか?

3D生成の主流は拡散モデルですが、GaussianGPTがあえて自己回帰アプローチを採用した理由は、柔軟性にあります。

| 項目 | 拡散モデル | 自己回帰モデル(GaussianGPT) | |---|---|---| | 生成方式 | 全体を一括で洗練 | トークン単位で逐次生成 | | シーン補完 | 専用の手法が必要 | 自然にサポート | | アウトペインティング | 困難 | 得意分野 | | 制御性 | ガイダンス機構が必要 | 温度パラメータで簡単に制御 | | 生成範囲 | 学習時に固定 | 学習範囲を超えた拡張が可能 |

特にアウトペインティングは重要なポイントです。拡散モデルは生成サイズが固定されがちですが、自己回帰モデルなら「もう少し続けて生成して」と指示するだけで、シーンを際限なく拡張できます。

3D Gaussian Splattingとの関係

GaussianGPTは「3D Gaussian Splatting(3DGS)」を生成するモデルです。3DGSが写真から3Dシーンを再構成する技術だとすれば、GaussianGPTはゼロから3DGSシーンを作り出すAIと言えます。

既存の3DGSとの違い

  • 従来の3DGS: 複数の写真からSfM+最適化でシーンを再構成(あくまで実在するシーンの再現)
  • 生成系3DGS(World Labs Marbleなど): テキスト/画像から拡散モデルでシーンを生成
  • GaussianGPT: トークン単位の自己回帰モデルで、補完・拡張に強い

つまり、GaussianGPTは「3DGSの世界に言語モデル方式を持ち込んだ」研究と位置づけられます。

なぜ重要なのか?

この研究のインパクトは大きく3つあります。

1. 3D生成のパラダイムシフト

これまで3D生成はほぼ拡散モデル一択でしたが、自己回帰アプローチが現実的な選択肢となることを示しました。テキスト生成の世界がGPTで一変したように、3D生成にも同じ流れが来る可能性があります。

2. 大規模シーンへの道

アウトペインティングによる「学習範囲を超えたシーン生成」は、ゲームのオープンワールドメタバース空間を自動生成するアプリケーションに直結します。

3. 既存パイプラインとの互換性

生成結果は3DGS形式なので、Three.js、Unreal Engine(NanoGS)、Spline、Nuke 17.0など、既存の3DGSビューア・編集ツールでそのまま使える点も実用上のメリットです。

まとめ

GaussianGPTは、3D Gaussian Splatting × 自己回帰トランスフォーマー という、これまでなかった組み合わせを実現した意欲的な研究です。

  • 誰の研究? TUM(ミュンヘン工科大学)、Matthias Nießnerグループ
  • 何を生成? 3D Gaussianシーン
  • どうやって? ボクセルトークンを順番に予測するGPT方式
  • 何ができる? 無条件生成・シーン補完・大規模アウトペインティング
  • 論文 arXiv:2603.26661
  • プロジェクトページ GaussianGPT
  • コード Coming Soon

2026年は3D Gaussian Splattingが標準化フェーズに入る年でもあり、生成系の研究もここから一気に加速するはずです。GaussianGPTは、その流れの中で**「3D生成の次のスタンダード」** を提示する一本になるかもしれません。

3D Gaussian Splattingの基礎については 3D Gaussian Splattingとは?NeRFとの違いからわかるリアルタイム3D革命 も合わせてどうぞ。

次に読む

役に立ったら、関連記事とカテゴリ一覧もチェックしてください。

この記事が役に立ったら: