生成AIの種別 — 生成AI大全

生成AIは「何を生成するか（モダリティ）」と「どう生成するか（アーキテクチャ）」の二軸で整理すると見通しがよくなります。両者は独立しており、たとえば画像生成でも拡散モデルと自己回帰モデルの双方が存在します。

本章では二軸での分類に加え、潜在空間・マルチモーダル統合・提供形態 まで、生成AIの全体地図を描きます。

モダリティ別の分類

テキスト

対話・要約・翻訳・コード生成など、いわゆる LLM（大規模言語モデル） が該当します。

主な技術：自己回帰 Transformer
代表モデル：GPT 系、Claude 系、Gemini 系、Llama 系
実用度：★★★ 最も成熟

画像

テキスト・画像・スケッチから新しい画像を生成します。

主な技術：拡散モデル（Latent Diffusion）が主流、一部自己回帰モデル
代表モデル：Stable Diffusion / SDXL / FLUX、DALL-E、Midjourney、Imagen
実用度：★★★ 業務利用も普及（広告、UI、デザイン素材）

音声・音楽

音声合成（TTS）、音声認識（ASR の派生）、楽曲生成、効果音生成があります。

TTS（Text-to-Speech）：文字列 → 音声波形。話者の声色・抑揚を再現する。自己回帰（WaveNet系）と拡散の併用が主流。代表：ElevenLabs、Google WaveNet（DeepMind）、OpenAI gpt-4o-mini-tts、Voice Mode
音声クローン：数秒のサンプルから話者の声を再現（ElevenLabs）
楽曲生成：歌詞・スタイル指定 → 楽曲。商用サービス（Suno v5/v5.5、Udio v3.5、Stable Audio 3.0、いずれも 2026-05 時点のバージョン）の内部アーキテクチャは 公式未公表で、拡散系・自己回帰系の組み合わせと推定される。ボーカル分離と楽器分離を内部で行う
効果音・SE生成：テキスト → 環境音（AudioLDM、ElevenLabs Sound Effects）
Speech-to-Speech モデル：GPT-4o Realtime、Gemini Live など、音声で直接会話するモデル。TTS とは別系統

ASR（音声認識）は理解タスクで生成AIとは別系統だが、Whisper のように Transformer ベースで生成AIと技術基盤を共有する。

動画

時間方向の 一貫性 が大きな課題で、近年急速に発展している領域です。

画像生成を1秒間に24枚並べれば動画になりそうですが、フレームごとに独立に生成すると 同じ犬が次のフレームで違う犬になる ような不整合が起きます。動画生成モデルは「時間軸を含めた4次元のノイズ除去」を学習する必要があり、計算量は画像の数十倍、学習データも「動きの自然さ」を学べる映像コーパスが必要です。DiT（Diffusion Transformer、Peebles & Xie ICCV 2023）が動画で主流なのは、Transformer の長距離依存処理が時間方向の整合に効くため。物理整合性（落下、衝突、布の揺れ）はまだ未解決領域です。

代表モデル：Sora 2（OpenAI、2025-09-30 公開。アプリ／Web は 2026-04-26 に提供終了済、Sora API も 2026-09-24 終了予定で、OpenAI はコンシューマ動画生成から事実上撤退）、Veo 3.1（Google DeepMind、音声ネイティブ生成対応）、Runway Gen-4 / Gen-4.5、Kling 3.0（Omni One アーキテクチャ）
主な技術：拡散 + Transformer（DiT, Diffusion Transformer）
課題：物理整合性、長尺、コスト
World Model（世界モデル）：NVIDIA Cosmos 3、Genie 3、V-JEPA 2 などの「物理世界シミュレータ」系統。動画生成の次のフロンティアで、ロボット学習にも応用

コード

テキスト生成の一種ですが、構文の厳密さと実行可能性 が問われます。詳細は第13章 AIコーディング。

代表モデル：GPT-5.5 / GPT-5.4（gpt-5.5-codex 含む）、Claude Sonnet 4.6 / Opus 4.7、専用モデル（GitHub Copilot のベース）
ベンチマーク：SWE-bench Verified、Aider Polyglot、HumanEval

3D / アバター / シミュレーション

新興領域：

NeRF（Neural Radiance Fields）：複数の写真から「視点ごとの光の方向と色」を学習し、任意視点の画像を合成する手法
Gaussian Splatting：NeRF よりリアルタイム描画が高速。空間に多数のガウス分布（小さなぼんやりした粒）を配置して3D表現
3D生成（Meshy / Tripo / Rodin）：テキストや画像から3Dメッシュ（ポリゴン）を生成。ゲーム/ARアセット制作で注目
Avatar / Lipsync：HeyGen、Synthesia などのアバター動画生成。動画とは別カテゴリ

マルチモーダル — モダリティ間の橋渡し

異なるモダリティの入力を 共通のベクトル空間に写像 することで、横断的なタスクを可能にする統合モデルが現在の主流になりつつあります。

数年前までは「画像認識モデル + LLM + 音声認識モデル」を別々に動かし、テキストで橋渡しするパイプライン方式でした。GPT-5 系や Gemini 3.x は 同じパラメータが画像も音声もテキストも内部で扱える 設計で、モダリティ間で意味が直接渡るため、たとえば「画像に映る違和感を音声で説明する」ような複合タスクが破綻なくこなせます。これは「翻訳通訳者を介する会議」から「全員バイリンガル」に変わったような違いです。

CLIP（OpenAI 2021）：4億組の「画像とそのキャプション」を集め、ペアになっている画像とテキストは近くに、無関係なものは遠くに 配置されるよう学習。結果として「猫の画像のベクトル」と「a cat」というテキストのベクトルがほぼ同じ場所を指す。Stable Diffusion はプロンプトを CLIP でベクトル化し、そのベクトルを条件に画像を生成する——これがテキストから画像が出せる仕組みの核心（SD3 以降は CLIP×2 に加えて T5-XXL を併用 し、長文プロンプトの理解を強化）
GPT-5 系 / Gemini 3.x / Claude 4.5+：テキスト・画像・音声を単一モデルで統合的に扱う
Vision-Language-Action モデル：観察 → 推論 → ロボット操作まで一気通貫

「画像を見て説明する」「図を読んで質問に答える」「音声を文字起こしして要約する」といったタスクが、1つのモデル で完結するようになりました。

アーキテクチャ別の分類

生成の「やり方」には複数の系統があります。現在の主流は自己回帰モデル（テキスト）と拡散モデル（画像・動画） ですが、背景として GAN や VAE の知識も実務で役立ちます。

図3 — 自己回帰と拡散の違い

自己回帰は要素を一つずつ順に生成する（テキストの標準的な方式）。拡散はランダムなノイズから出発し、少しずつノイズを除去して目的の画像へ収束させる。

自己回帰モデル（Autoregressive）

要素を 一つずつ順番に 生成し、各ステップで「これまでの出力」を条件に次を予測します。

確率分布で書くと：

P(x₁, x₂, ..., xₙ) = P(x₁) · P(x₂|x₁) · P(x₃|x₁,x₂) · ... · P(xₙ|x₁,...,xₙ₋₁)

長い系列の確率を、条件付き確率の連鎖 に分解して扱えるのが利点です。テキスト生成（LLM）の標準的な方式。

長所：一貫性が高い、確率の解釈が直感的、訓練が安定
短所：本質的に直列生成のため、長い出力ほど時間がかかる
代表：GPT、Claude、Gemini、Llama すべての主流 LLM

画像でも自己回帰生成は研究されており（PixelCNN、Parti 等）、近年は テキストと画像を同じ自己回帰モデルで扱う統合モデル（GPT-4o の画像生成、後継の GPT Image 1.5 等）が再注目されています。GPT Image 系の内部アーキテクチャは OpenAI 未公表ですが、報道・分析では自己回帰系と推定されています。

なぜ画像生成では拡散が主流かというと、画像は 空間的に同時に存在 するもので、「左上から順に決める」必然性がないため。一方テキストは時間軸を持つ列で、「次の語」という構造に自己回帰が自然に適合します。逆に近年は「画像も離散トークン化すれば自己回帰で扱える」（GPT-4o 画像生成）方向の研究が再加熱しており、autoregressive + diffusion のハイブリッド構成も登場しています。

拡散モデル（Diffusion）

画像・動画生成の現在の主流 です。学習時にデータへ徐々にノイズを加える「前向き過程」を定義し、その逆をたどる「ノイズ除去（denoising）」をニューラルネットで学習します¹⁶ 。

生成時はランダムノイズから出発し、段階的にノイズを除去して画像へ収束させます（典型的には 20〜50 ステップ）。

「ノイズだらけのキャンバスから猫の絵が浮かぶ」のは直感に反します。仕組みはこうです。学習時に大量の画像へ少しずつノイズを加える過程を見せ、モデルは 「このノイズ画像の元は何だったか」を推測する力 を獲得します。生成時はピュアなランダムノイズを入力し、「これは猫の絵にノイズが乗ったものだ」と仮定して逆再生する——条件としてプロンプトを与えれば、その方向に収束していきます。霧の中から像が浮かぶイメージに近い処理です。

Latent Diffusion — 計算効率の革命

Stable Diffusion¹⁷ が広めた Latent Diffusion は、ピクセル空間ではなく VAE で圧縮した潜在空間 上で拡散を回します。これにより：

計算量が劇的に減少（512×512 ピクセル → 64×64 潜在）
個人の GPU でも動かせるようになり、OSS エコシステムが爆発的成長

DiT — 拡散 + Transformer

近年は U-Net 構造の代わりに Transformer ベース の拡散モデル（DiT: Diffusion Transformer）が主流化。Sora、Stable Diffusion 3、FLUX 等が採用しています。

長所：高品質、多様性、テキスト条件付けが効きやすい
短所：反復計算が必要（推論時のステップ数）
代表：Stable Diffusion 3.5、FLUX.2、Midjourney V7/V8.1、Sora 2、Veo 3.1（GPT Image 1.5 は OpenAI の現行画像生成モデルだが、内部アーキテクチャは非公表で自己回帰系と推定する報道が多く、純粋な DiT 代表とは扱わない。DALL-E 2 / 3 は 2026-05-12 に提供終了）

GAN（敵対的生成ネットワーク）

Goodfellow らが 2014年に提案した方式¹³ 。生成器（Generator） と 識別器（Discriminator） という2つのネットワークを 競わせて 学習します。

生成器：本物そっくりのデータを作ろうとする
識別器：本物と偽物を見分けようとする

両者がイタチごっこを繰り返すと、生成器の品質がどんどん上がっていく、というアイデアです。

黄金期と凋落

2018〜2021 年は StyleGAN シリーズ（NVIDIA） が顔画像生成で衝撃を与え、超高品質画像生成の標準でした。

しかし2022 年以降の拡散モデル台頭で、汎用画像生成の主役は拡散に奪われています。

長所：1ステップで高速に生成、特定領域での超高品質
短所：学習が不安定（モード崩壊：生成器が「識別器を騙せる安全な1パターン」だけを出すようになり、多様性を失う現象。「どの入力でも同じような顔しか出てこない」状態）、多様性が出にくい
現在の用途：顔画像、超解像、特定スタイル特化

VAE（変分オートエンコーダ）

Kingma & Welling が 2013年に提案¹⁴ 。データを 低次元の潜在空間 に圧縮（エンコード）し、そこから復元（デコード）する過程で分布を学びます。

潜在空間という概念

VAE が遺した最も重要な概念が 潜在空間（latent space） です。「データの本質的特徴を、低次元で連続的に表現する空間」という考えは、Latent Diffusion の基盤 となり、現代生成AIの根幹技術になっています。

長所：潜在空間の操作で意味的な編集が容易（属性のミックス等）
短所：単独利用では生成画像がぼやけがち
現在の用途：他モデルの圧縮層として（Stable Diffusion の VAE 等）

アーキテクチャ比較表

方式	主な用途	生成の特徴	長所	留意点
自己回帰	テキスト・コード・音声	1要素ずつ逐次生成	一貫性、解釈性	直列で長文は遅い
拡散	画像・動画・音声	ノイズから段階的に復元	高品質・多様	反復計算が必要
GAN	画像（特定領域）	生成器と識別器の競争	1ステップ生成、超高品質	学習不安定
VAE	圧縮・潜在表現	潜在空間を経由	潜在操作が容易	単体では精細さ限界

ハイブリッド・新興手法

現代の生成モデルは、複数手法の組み合わせ が標準になっています。

Latent Diffusion = VAE + Diffusion（Stable Diffusion）
拡散 + Transformer（DiT）= Sora、SD3、FLUX
Autoregressive + Diffusion（VAR、MaskGIT 系統）
GAN + Diffusion（ハイブリッドモデル）

「どの方式が正解か」という議論より、「どの組み合わせがタスクに合うか」 が現在のフロンティアです。

提供形態 — クローズドとオープン

利用者の視点では、モデルの提供形態の違いも重要です。

クローズド（プロプライエタリ）

API 経由で利用する形態。最新・高性能な反面、重みは公開されず内部のカスタマイズに制約があります。

代表：GPT 系、Claude 系、Gemini 系、Grok
長所：最先端性能、運用責任を提供元が持つ、サポートあり
短所：データを送る必要、深いカスタマイズ困難、ベンダーロック

オープンウェイト

重みが公開され、自前環境での実行や深いカスタマイズ（微調整）が可能です。「オープンソース」とは厳密に区別 されます（訓練データやコード全体は公開されないことが多い）。

代表：Llama 3.x / Llama 4（Meta）、Mistral / Mixtral、DeepSeek-V3 / R1、Qwen3、Gemma
長所：機密データを社外に出さずに運用、自由なカスタマイズ、推論コスト制御
短所：運用・GPU・更新の責任が自社、最先端性能から数歩遅れがち

クローズドAPIで可能なのは プロンプト調整・関数呼び出し・限定的なファインチューニング（提供元のサービスに乗せた範囲） まで。一方オープンウェイトでは LoRA、フルファインチューニング、量子化、社内データで継続事前学習 まで自由。社内特有の専門用語や文書スタイルを徹底的に学ばせたい場合や、推論を完全オフラインで動かしたい医療・防衛用途ではオープンウェイト一択になります。

真にオープンソース

訓練データ・コード・重みすべてが公開されているモデルは少数です。

OLMo（Allen Institute for AI）
Pythia / RedPajama

オープンウェイトは「料理の完成品レシピ」、真のオープンソースは「素材の仕入れ先・分量・調理過程のすべて」。再現性と研究改造の自由度では真のOSSが優れるが、データセット規模を維持する組織力がないと商用品質に届かないのが現状です。研究目的では重要ですが、商用品質では商用クローズドモデルに性能差があります。

選定の観点

モダリティ × アーキテクチャマトリクス

最後に、現在の主要モデルを モダリティ × アーキテクチャ で整理します。

	自己回帰	拡散	GAN	VAE
テキスト	GPT / Claude / Gemini / Llama	（研究中）	（非実用的）	–
画像	Parti / GPT-4o画像	Stable Diffusion / DALL-E / Midjourney / FLUX	StyleGAN	（圧縮として併用）
動画	（研究中）	Sora 2 / Veo 3.1 / Runway Gen-4.5 / Kling 3.0	–	–
音声・音楽	WaveNet 系	Suno / Udio / AudioLDM	–	–
コード	GPT-Codex / Claude Code	–	–	–
3D	（研究中）	Meshy / 3D拡散	–	–

「どの組み合わせが何に向くか」の地図として参考にしてください。新しいモデルが出るたびに、この表に新しい行・列が加わっていきます。

参考概念

Autoregressive generation, Self-attention, Decoder-only Transformer
DDPM（Ho et al. 2020）、Latent Diffusion、DiT
GAN（Goodfellow et al., 2014）、VAE（Kingma & Welling, 2013）、StyleGAN
CLIP（Radford et al. 2021）, Multimodal Vision-Language Models
オープンウェイト vs クローズドの運用トレードオフ（第7章）