04 第2部 技術 / どう動くか

生成AIの種別

モダリティ(テキスト・画像・音声・動画)とアーキテクチャ(自己回帰・拡散・GAN・VAE)の二軸で生成AIを整理。OSS/商用の提供形態も含めて全体地図を描く。

読了 約8分 最終更新 2026.05 モダリティアーキテクチャ拡散モデル自己回帰

生成AIは「何を生成するか(モダリティ)」と「どう生成するか(アーキテクチャ)」の二軸で整理すると見通しがよくなります。両者は独立しており、たとえば画像生成でも拡散モデルと自己回帰モデルの双方が存在します。

モダリティ別の分類

Text

テキスト生成

対話・要約・翻訳・コード生成など。いわゆるLLMが該当する。
Image

画像生成

テキストや画像から画像を生成。多くが拡散モデルを基盤とする。
Audio

音声・音楽生成

音声合成(TTS)、楽曲生成、効果音など。
Video

動画生成

時間方向の一貫性が課題。近年急速に発展している領域。
Code

コード生成

テキスト生成の一種だが、構文の厳密さと実行可能性が問われる。
Multimodal

マルチモーダル

テキスト・画像・音声などを横断的に入出力。複数モダリティを統合的に扱う。

マルチモーダルモデル は、異なる種類の入力を共通のベクトル空間に写像することで、「画像を見て説明する」「図を読んで質問に答える」といった横断的なタスクを可能にします。テキスト中心だった生成AIが、視覚・聴覚を含む方向へ拡張している流れの中心にあります。

アーキテクチャ別の分類

生成の「やり方」には複数の系統があります。現在の主流は自己回帰モデルと拡散モデルですが、背景としてGANやVAEも押さえておきたい技術です。

図3 — 自己回帰と拡散の違い
AUTOREGRESSIVE / 自己回帰次の1語を予測1要素ずつ、左から順に生成(テキスト向き)DIFFUSION / 拡散ノイズ中間画像段階的にノイズ除去
自己回帰は要素を一つずつ順に生成する(テキストの標準的な方式)。拡散はランダムなノイズから出発し、少しずつノイズを除去して目的の画像へ収束させる。

自己回帰モデル(Autoregressive)

要素を 一つずつ順番に 生成し、各ステップで「これまでの出力」を条件に次を予測します。テキスト生成(LLM)の標準的な方式です。逐次的なため一貫性が高い一方、生成は本質的に直列で、長い出力ほど時間がかかります。

拡散モデル(Diffusion)

画像生成の主流。学習時にデータへ徐々にノイズを加える「前向き過程」を定義し、その逆をたどる「ノイズ除去」を学習します。生成時はランダムノイズから出発し、段階的にノイズを除去して画像へ収束させます16 。高品質かつ多様な生成に優れ、画像生成の Stable Diffusion 17 などが該当します。

GAN / VAE(背景)

GAN(敵対的生成ネットワーク) 13 は、生成器と識別器を競わせて学習する方式で、拡散モデル以前の画像生成を牽引しました。VAE(変分オートエンコーダ) 14 は、データを低次元の潜在空間に圧縮・復元する過程で分布を学びます。いずれも単独利用は相対的に減りましたが、潜在空間の概念など、後続技術の基礎となっています。

方式主な用途生成の特徴長所 / 留意点
自己回帰テキスト・コード・音声1要素ずつ逐次生成一貫性が高い/直列で長文は遅い
拡散画像・動画・音声ノイズから段階的に復元高品質・多様/反復計算が必要
GAN画像生成器と識別器の競争高速生成/学習が不安定になりやすい
VAE圧縮・潜在表現潜在空間を経由潜在操作が容易/単体では精細さに限界

提供形態 — クローズドとオープン

利用者の視点では、モデルの提供形態の違いも重要です。クローズド(プロプライエタリ) なモデルはAPI経由で利用し、最新・高性能な反面、重みは公開されず内部のカスタマイズに制約があります。オープンウェイト なモデルは重みが公開され、自前環境での実行や深いカスタマイズ(微調整)が可能ですが、運用やインフラの責任は利用者側に移ります。

参考概念
  1. Autoregressive generation / Diffusion models(DDPM 等)
  2. GAN(Goodfellow et al., 2014), VAE(Kingma & Welling, 2013)
  3. マルチモーダル表現学習(vision-language models 等)
  4. オープンウェイト vs プロプライエタリの運用トレードオフ