生成AIとは何か — 生成AI大全

生成AI（Generative AI） とは、学習したデータの統計的なパターンに基づいて、新しいテキスト・画像・音声・動画・コードなどを生成するモデルの総称です。従来の「分類」「予測」を主目的とする識別系AIが「与えられた入力がどのカテゴリに属するか」を答えるのに対し、生成系AIは「次に来る確からしい要素は何か」を繰り返し出力することで、まとまった成果物を組み立てます。

本書で繰り返し登場する LLM（Large Language Model、大規模言語モデル） は、生成AIの中でもテキストを扱う代表格です。LLMは入力された文章を トークン（モデルが扱う最小単位。日本語ではおよそ1〜2文字、英語では数文字〜1単語に相当）の列に分解し、「直前までの列を見て、次に来るトークンは何か」をひたすら確率で推定します。たとえば「今日の天気は」の次には「晴れ」「雨」「曇り」が高い確率、「机」「走る」は低い確率、というように。この推定を1トークンずつ繰り返して並べた結果が、ChatGPT や Claude が返してくる文章です。この「次トークン予測の反復」こそが、LLMが文章を”生成”する唯一の仕組みであり、画像生成や音声合成も「予測する対象が画素やスペクトログラムに変わる」だけで本質は同じです。

本章では、生成AIを 根本から 理解するために必要な4つのことを扱います：

識別モデルと生成モデルの 数学的な違い — なぜ生成が難しいのか
確率分布のモデリング — 生成AIの理論的基盤
なぜ近年急速に発展したか — 計算・データ・アーキテクチャの3要因
能力と限界・よくある誤解 — 何ができて何ができないか

識別モデルと生成モデル — 数学的な違い

機械学習のモデルは、大きく 識別モデル（discriminative） と 生成モデル（generative） に分けられます。両者の本質的な違いは、何の確率分布を学習するかにあります。

何を学習するか

モデル種別	学習対象	数式	意味
識別モデル	条件付き確率	`P(y \| x)`	入力 `x` が与えられた時にラベル `y` である確率
生成モデル	同時分布 or 条件付き分布	`P(x, y)` または `P(x)`、`P(x \| y)`	データそのもの（または条件付きデータ）の確率分布

識別モデルは「分類境界線を引く」ことに特化しているため、データを生成する能力はありません。生成モデルは データそのものの分布 を学習しているので、その分布からサンプリングして新しいデータを作り出せます。

Discriminative

識別モデル

境界線を引く。入力を見て「これは何か」を答える。
例：ロジスティック回帰、SVM、ランダムフォレスト、画像分類CNN、感情分析、スパム判定。

Generative

生成モデル

分布を学ぶ。データの背後にある分布を捉え、新しいサンプルを引ける。
例：LLM、拡散モデル、VAE、GAN、自己回帰画像モデル、音声合成（TTS）。

同じタスクでも違うアプローチ

例えば「猫の画像を扱う」というタスクでも、識別と生成では取り組み方が真逆です。

タスク	識別アプローチ	生成アプローチ
猫の画像	「これは猫か？」（Yes/No）	「猫らしい新しい画像を描け」
メール	「これはスパムか？」	「お詫びメールの下書きを作れ」
文章	「これはポジティブか？」	「商品説明文を書け」
コード	「このコードはバグがあるか？」	「この機能を実装するコードを書け」

計算コストとデータ要求の違い

生成モデルは「データ全体の分布」を学ぶため、識別モデルと比べて 桁違いに多くのパラメータとデータ が必要になります。

識別モデル：数千〜数百万パラメータで十分なケースが多い
生成モデル（LLM）：数十億〜数千億パラメータが必要

GPT-3¹ は1,750億パラメータ、近年のフロンティアモデルは推定で数千億〜1兆パラメータ規模と言われています。これが生成AIの研究・運用が 大資本の話 になっている理由です。

確率分布のモデリング — 生成AIの理論的基盤

生成AIの中核にあるのは 確率分布のモデリング です。「データの背後にある分布を近似し、そこから新しいサンプルを引く」という一点に、すべての生成モデルが収束します。

「分布」とは何か

ある領域（例：すべての日本語文章、すべての猫の画像）の中で、「何がよく出現するか・しないか」を確率で表したものが分布です。

たとえば日本語文章の分布を考えると：

「こんにちは」で始まる文は確率が高い
「ヲ象徴的ニ吽暗號ヲ」のような無意味な羅列は確率が極端に低い

理想的な分布をモデルが学べれば、そこからサンプリングするだけで「自然な日本語文章」が無限に作れます。生成AIはこの 理想分布の近似 に挑んでいる、と言えます。

サンプリング — 「もっともらしさ」を実現する操作

学習した分布から1つのサンプル（具体的な出力）を確率的に取り出す操作が サンプリング です。

学習済み分布 P(x)
       ↓ サンプリング
新しい出力 x  ←  確率の高いものほど選ばれやすい

サンプリングが「毎回同じ結果にならない」性質は、生成AIの根本特性。同じプロンプトでも応答が違うのは、確率分布から異なる点を引いているだけです（第3章推論パラメータで temperature / top-p 等の制御を詳述）。

ここで「毎回いちばん確率が高いものを選べばいいのでは？」という疑問が浮かびますが、それをやると出力は単調で退屈になることが知られています。同じ書き出しからは常に同じ続きしか出てこず、創作にも対話にも使えません。そこで実用システムは、確率分布から抽選するように出力を選びます。temperature というつまみで「高確率に集中するか／低確率にも目を向けるか」を、top-p で「累積確率p%までの候補に絞るか」を調整できます。生成AIの”揺らぎ”は欠陥ではなく仕様だ、と覚えてください。

4つの主要アプローチ

「分布をどう近似するか」で、生成モデルは主に4つの流派に分かれます（詳細は第4章アーキテクチャ別の分類）。

アプローチ	仕組み	代表モデル	主な用途
自己回帰（Autoregressive）	一要素ずつ条件付きで生成	GPT、Claude、Gemini	テキスト、コード
拡散（Diffusion）	ノイズから段階的に復元¹⁶	Stable Diffusion¹⁷ 、DALL-E	画像、動画
GAN（敵対的）	生成器 vs 識別器の競争¹³	StyleGAN、CycleGAN	画像（特に高品質）
VAE（変分）	潜在空間経由¹⁴	（拡散モデルの基盤として）	表現学習

それぞれ「分布をどう近似するか」のアプローチが違うだけで、目指すゴールは同じです。

なぜ近年急速に発展したか — 3つの要因

生成AIの基礎理論は新しいものではありません（GAN は2014年、VAE は2013年、Transformer は2017年）。実用水準への到達は2010年代後半以降であり、背景には 3つの要因の重なり があります。

① 計算：GPU・TPU の革命

AlexNet ショック（2012）

深層学習の現代的な時代は、2012年の AlexNet から始まったというのが研究者の共通認識です。Krizhevsky・Sutskever・Hinton（トロント大学）が ImageNet 画像認識コンテストで、Top-5 エラー率 15.3% を達成。同年大会の2位（26.2%）に約 10.8 ポイント差 をつけた劇的な改善でした（前年 2011年の優勝記録は約 25.8%）。

出典：原論文 Krizhevsky et al. 2012「ImageNet Classification with Deep Convolutional Neural Networks」（NeurIPS 2012）

AlexNet の主要な技術的貢献：

ReLU 活性化関数：tanh / sigmoid より勾配消失が起きにくく学習が高速
Dropout（ドロップアウト率 0.5）：過学習を防ぐ正則化技法
GPU 並列訓練：当時の主流 CPU では現実的でなかった大規模学習を可能に
データ拡張（Data Augmentation）：訓練データを変形して水増し
ネットワークの深さ：8層という当時としては「深い」構造

これらの組み合わせが、後の深層学習革命の基盤となります。

計算量の指数的増加

OpenAI「AI and Compute」（2012〜2018年の分析）では、最先端 AI 訓練の計算量は 約3.4ヶ月ごとに倍 という指数的な増加が観察されました（出典：OpenAI: AI and Compute）。これはムーアの法則（約24ヶ月で倍）と比べると 倍加周期で約7倍速く、累積では桁違いの増加 という意味です。なお 2019年以降の傾向は別分析（Epoch AI 等）で約 6ヶ月の倍加周期に緩和したと報告されています。

近年の専用ハードウェア：

NVIDIA H100 / H200 / B200（フロンティアモデル訓練のデファクト）
Google TPU v5e / v5p（独自設計）
AWS Trainium / Inferentia（クラウド推論最適化）
Cerebras WSE-3、Groq LPU 等（特化型）

② データ：Web 規模のコーパス

近代生成AIは、Web規模のデータ で学習されています。

テキスト：Common Crawl（累計ペタバイト級・月次スナップショットで数百TB規模）、Wikipedia、書籍コーパス、コードリポジトリ
画像：LAION-5B（58億の画像-テキストペア）、ImageNet（1400万画像）
音声：YouTube などの公開動画から抽出されたペア

データの量だけでなく質も鍵で、近年は「データの厳選（curation）」「合成データの活用」「人間フィードバック」が研究フロンティアです。日本ではコモンクロール由来の日本語データが少ないことから、日本語特化モデル開発における重要課題になっています。

③ アーキテクチャ：Transformer + スケーリング則

Transformer 革命（2017）

2017年に Google が発表した Transformer¹² （「Attention Is All You Need」）が、現代の生成AIすべての基盤です。

RNN や CNN を使わず アテンション機構だけ で系列処理を行うこの構造は：

並列計算しやすい（GPU 効率が劇的に改善）
長距離依存を捉えやすい（離れた語の関係も捉える）
スケールしやすい（パラメータを増やしても破綻しにくい）

アテンション（Attention） とは、文中の各語が「自分の意味を確定させるために、他のどの語をどれくらい参照すべきか」を重みで決める仕組みです。たとえば「彼女は鞄を開け、それを取り出した」の「それ」は「鞄の中身」を指しますが、人間は文脈から自然に解決します。アテンションはこの 「どの語にどれだけ注目するか」を全語ペアで計算します。RNN（Recurrent Neural Network、系列を一語ずつ処理する旧来の手法）は語を順番に読まねばならず並列化が難しい一方、Transformer は全語の参照関係を一気に計算できるため、GPU上で劇的に高速化できました。これが Transformer が「スケールしやすい」理由の核心です。

詳細は第3章 Transformerとアテンション。

スケーリング則 — 「とにかく大きくすれば伸びる」

2020年、Kaplan ら（OpenAI） が スケーリング則（Neural Scaling Laws）²⁵ を発表しました。彼らの発見は単純で衝撃的でした：

モデルパラメータ・データセットサイズ・訓練計算量を増やすと、損失は予測可能なべき乗則（power-law）に従って減少する。この傾向は 7桁以上にわたって成立 する。

出典：Kaplan et al. 2020 “Scaling Laws for Neural Language Models”

これにより「とにかく大きくすればよい」というスケーリング・パラダイムが確立。GPT-3¹ （1,750億パラメータ）はこの考えを体現したモデルでした。

Chinchilla 修正（2022）

ところが2022年、DeepMind の Hoffmann ら が「Chinchilla」²⁶ 論文で重要な修正を発表：

Kaplan らの元の主張は、モデルサイズを過剰に大きく、データを過剰に少なく していた。最適な訓練では、モデルサイズとトークン数を同じ比率で スケールさせるべき。

DeepMind は 400以上のモデルを訓練して検証し、Chinchilla（70Bパラメータ）が Gopher（280B）より高性能になることを示しました。MMLU で 67.5%（Gopher 比 +7ポイント）。

出典：Hoffmann et al. 2022 “Training Compute-Optimal Large Language Models”

これ以降のモデル開発では、「より多くのデータでより小さなモデルを訓練」 が標準的アプローチになりました。Llama 系列（Meta）、Mistral 等の OSS モデルが Chinchilla 原則に強く影響されています。

生成AIの能力と限界

何ができるか

2026年5月時点で、生成AIは以下の領域で実務水準に達しています：

領域	例	実用度
自然言語生成	文章作成、要約、翻訳、対話	★★★
コード生成	関数実装、デバッグ、テスト作成	★★★（第13章）
多言語処理	英日中など主要言語の高品質変換	★★★
長文文書の読解	PDF・契約書・論文の要約と質問応答	★★★
画像生成・編集	テキストからの高品質画像、修正	★★★
音声合成・認識	自然な発話、高精度文字起こし	★★★
動画生成	短尺の高品質動画（Veo、Runway Gen-4、Kling 等。OpenAI Sora 2 は 2026-04 にアプリ／Web 終了、API も 2026-09 終了予定）	★★
複雑な推論	数学、論理、コード（推論モデル登場後）	★★
エージェント実行	自律的なタスク完遂	★★

何ができないか・苦手なこと

一方で、現状の生成AIには 構造的な限界 があります：

確実な事実回答：ハルシネーションは原理的にゼロにできない（第9章）
最新情報：学習データに カットオフ日 があり、それ以降の出来事は知らない（Web 検索を併用しない限り）
物理現象の精密シミュレーション：質量保存・物理法則は厳密には保証されない
真の新規発見：訓練データの分布外（OOD: Out of Distribution）の新概念は弱い
主観的体験の理解：感覚・身体性・社会的文脈の深い理解は研究途上
長期記憶：コンテキストウィンドウを超える「経験の蓄積」は仕組み上できない

これらは「改良で解決する」というより「仕組み上、別アプローチが必要」な領域です。

よくある誤解

生成AIには 構造から来る誤解 が多くあります。最低限知っておきたい4つを並べます。

誤解	実際
「AIは思考している」	確率分布からサンプリングしている。「思考」と呼ぶには擬人化が過ぎる
「AIに記憶がある」	毎ターン全会話を読み直している。記憶じゃなく文脈の再投入（第3章）
「AIは正解を計算している」	「もっともらしさ」を計算している。正しさは構造的に保証されない（第9章）
「AIは学習し続ける」	訓練と推論は別フェーズ。会話中に新しいことを学習しない（ファインチューニングは別途必要）

これらの理解があれば、生成AIに過度な期待を持たず、また過度に恐れずに付き合えます。

これから学ぶことの地図

本サイトは 本編15章＋付録2章の全17章 で構成されています。本章で導入した概念を、各章で深く扱います。

第I部基礎（本章 + 第2章歴史）：生成AIとは何か、どこから来たか
第II部技術（第3章仕組み + 第4章種別）：Transformer、確率分布、アーキテクチャの違い
第III部実践（第5章活用法 / 第6章カスタマイズ / 第7章サービス比較 / 第12章 FAQ / 第13章 AIコーディング / 第14章マルチエージェント / 第15章画像・動画・音声生成の実務）：業務で使いこなす
第IV部社会（第8章事例 / 第9章リスク / 第10章規制 / 第11章展望）：影響と責任
付録（用語集 / 参考文献・情報源と信頼性）

「業務で使いたい」が目的なら第5章と第7章から、「仕組みを根本から知りたい」なら第3章から、「コードを書きたい」なら第13章からどうぞ。

参考概念

確率的生成モデル（probabilistic generative models）— 識別と生成の理論的区別
Krizhevsky, Sutskever, Hinton 2012「ImageNet Classification with Deep CNNs」(AlexNet)
Vaswani et al. 2017「Attention Is All You Need」— Transformerの原論文
Kaplan et al. 2020「Scaling Laws for Neural Language Models」— スケーリング則
Hoffmann et al. 2022「Training Compute-Optimal Large Language Models」— Chinchilla
OpenAI Research「AI and Compute」— 計算量の指数的増加