歴史と系譜 — 生成AI大全

生成AIは突然現れた技術ではありません。記号によるAIから機械学習へ、そして深層学習とTransformerへ と続く約70年の積み重ねの上に立っています。ここでは現在に至る大きな転換点を、技術・社会・経済の3視点で追います。

黎明期（1950s〜1980s）— 記号から学習へ

ダートマス会議と第1次AIブーム

人工知能という言葉は 1956年のダートマス会議 で生まれました（John McCarthy、Marvin Minsky、Claude Shannon らが参加）。「学習や知能のあらゆる側面は、原理的に正確に記述でき、機械に模倣させられるはず」という野心が、AI 研究の出発点です。

初期のAIは、人間が規則を書き下す 記号AI（symbolic AI） が主流でした。論理推論・チェス・定理証明などで成果が出て第1次ブーム（1956〜1974）を迎えますが、現実世界の複雑さを規則で書き切ることは難しく、1970年代後半には「AI の冬」と呼ばれる停滞期に入ります。

同じ1950年代後半、Frank Rosenblatt が発表した パーセプトロン（1958）はニューラルネットの最初期モデルで、「機械が経験から学ぶ」可能性を示しました。しかし1969年、Minsky と Papert が著書『Perceptrons』で「単層パーセプトロンは XOR のような線形分離不可能な問題を解けない」ことを数学的に証明し、ニューラルネット研究は一気に冷え込みます。これに加え、機械翻訳の停滞を指摘した ALPAC レポート（1966、米国）や、英国の Lighthill レポート（1973）が政府資金を打ち切る結論を出したことで、AI 全体への研究予算が縮小しました。これが「第1次 AI 冬」の正体です。

エキスパートシステムと第2次ブーム

1980年代に エキスパートシステム（医療診断 MYCIN、企業向け XCON 等）が商業的に成功し、第2次ブーム（1980〜1987）が来ました。日本の「第五世代コンピュータプロジェクト」（1982〜1992、約540億円の国家プロジェクト）もこの流れの中。

しかし、エキスパートシステムは「知識のボトルネック」と呼ばれる問題に直面しました。専門家の暗黙知をルールに書き起こすコストが想定の数倍に膨らみ、ルールが増えるほど矛盾の保守も困難に。並行して、LISP マシン市場が汎用ワークステーション（Sun、DEC）に駆逐され、専用ハードを前提にした産業基盤も崩れます。1987年頃を境に投資が急減し、第2次 AI 冬（1987〜1990年代後半） に突入。日本の第五世代プロジェクトも目標としていた並列推論機の商業化に至らず、1992年に終了しました。

機械学習への重心移動

「人間が規則を書く」アプローチの限界が見え、1990年代以降は データからパターンを学ぶ機械学習（Machine Learning） に研究の重心が移ります。サポートベクターマシン、決定木、ランダムフォレストなどの手法が成熟し、検索エンジン・スパムフィルタ・推薦システムなど 「目立たないが効くAI」 が日常生活に浸透していきました。

深層学習の台頭（2010s前半）

AlexNet ショック

転機の一つが 2012年 です。AlexNet（Krizhevsky、Sutskever、Hinton）と呼ばれる深いニューラルネットワークが画像認識コンテスト ImageNet で圧勝（誤識別率を約26% → 15%へ大幅改善）し、深層学習（Deep Learning） の時代が始まります。

3つの条件が揃ったのが大きい：

GPU の汎用計算（CUDA） が普及し、ニューラルネット学習が現実的速度に
ImageNet などの大規模ラベル付きデータセットが利用可能に
ReLU 活性化関数、Dropout など学習を安定化させる工夫が出揃った

補足すると、ReLU（Rectified Linear Unit）は「入力が0以下なら0、それ以上ならそのまま出す」という極めて単純な活性化関数で、深い層を重ねても勾配が消えにくい性質があります。それ以前主流だった sigmoid 関数では、層を深くするほど学習信号が指数的に弱まる「勾配消失問題」が深層化の壁でした。Dropout は学習中にランダムな割合のニューロンを一時的に無効化する手法で、特定の経路への過剰依存（過学習）を防ぎます。地味な工夫に見えますが、この2つがなければ AlexNet の8層構造ですら安定して学習させることは困難でした。

画像認識から生成へ — GAN の登場

生成の文脈では、2014年 に Goodfellow らが提案した GAN（敵対的生成ネットワーク） ¹³ が、本物らしい画像を生成できることを示し、研究者・アーティストの注目を集めました。GAN は「生成器」と「識別器」の2つのネットワークを 敵対的に競わせる 構造で、現代の画像生成技術の祖先のひとつです。

同時期に VAE（変分オートエンコーダ） ¹⁴ も登場し、潜在空間（latent space）という概念が定着していきます。潜在空間とは、高次元データ（数百万ピクセルの画像など）を、本質的な特徴だけを抽出した低次元の数値ベクトルに圧縮した「意味の地図」のことです。例えば「猫らしさ」「明るさ」「角度」といった軸が自動的に形成され、近い位置にあるベクトル同士は似た画像に復元されます。VAE はこの空間を確率分布として滑らかに整える点が画期的で、ベクトルを少しずつずらせば連続的に変化する画像が得られる。後の拡散モデルが「ノイズ → 画像」を可能にするのも、内部に意味の整った潜在空間を持つからです。詳細は第4章アーキテクチャ別の分類。

Transformer 革命とスケーリング（2017〜2022）

“Attention Is All You Need”

2017年、Google の研究者らが論文 「Attention Is All You Need」¹² で Transformer を発表しました。RNN や CNN を使わず、アテンション機構だけ で系列処理を行うこの構造は、大規模化と並列学習に圧倒的に適しており、以後のほぼすべての大規模モデルの基盤 となりました（第3章 Transformerとアテンションで詳述）。

GPT・BERT — Pre-training の時代

2018年、Transformer を土台にした GPT（OpenAI、デコーダのみ）と BERT¹⁵ （Google、エンコーダのみ）が登場。「大量テキストで事前学習し、後から個別タスクに微調整する」というパラダイムが確立しました。

GPT（Generative Pre-trained Transformer）は 次の単語を予測する ことを延々と学習する「生成系」で、文章の続きを書けます。BERT（Bidirectional Encoder Representations from Transformers）は文中の 穴埋めを当てる ことを学習する「理解系」で、検索クエリや文書分類のように「意味を掴む」用途に強い。両者は同じ Transformer から派生した兄弟ですが、デコーダ系（GPT 系）は対話・生成へ、エンコーダ系（BERT 系）は検索・分類へと役割が分かれました。今日「生成 AI」と呼ばれるのは前者の系譜です。

スケーリング則の発見

2020年、Kaplan ら（OpenAI）が スケーリング則（Neural Scaling Laws） を発表。「モデルパラメータ・データ・計算量を一定の比率で増やせば、性能は予測可能に向上する」という法則を示しました。これにより「とにかくでかくすればよい」という大規模化レースが本格化。

GPT-3 ショック

2020年の GPT-3¹ （1,750億パラメータ）は、巨大化によって “Few-shot learning”（文脈内学習）が可能になる ことを示し、大きな衝撃を与えました。プロンプトに例を数件入れるだけで新しいタスクを解けるようになり、「AIの使い方がコーディングから対話に変わる」という予感を業界に広めました。

GPT-2 までは、新しいタスクごとに大量の正解データで再学習（fine-tuning）が必須で、AI 活用は機械学習エンジニアの仕事でした。GPT-3 は、プロンプトに「英文：Hello → 仏文：Bonjour」のような例を2〜3個書くだけで翻訳タスクをこなせた。これは モデル本体は変えず、入力文の中だけで「学習」が起きる 新現象で、In-context Learning（文脈内学習）と呼ばれます。意味するのは「AI を使うのにプログラミング不要」という、職業構造を変える転換でした。

生成AIの一般化（2022〜2023）

拡散モデルと画像生成の爆発

2022年 は生成AIが 一般社会に広がった年 です。画像生成では、Ho ら（2020）の 拡散モデル（Diffusion Models）¹⁶ を用いたサービスが相次ぎ：

拡散モデルは、画像にノイズを徐々に加えていく過程を逆再生する 発想で動きます。学習時には「綺麗な画像 → 完全なノイズ」へ少しずつ崩す経路を覚え、生成時にはランダムノイズから出発して「1ステップごとに少しずつノイズを取り除く」操作を繰り返し、画像を浮かび上がらせる。GAN より学習が安定し、生成品質と多様性で上回ったため、2022〜2024年は拡散モデル系が画像生成サービスをほぼ独占しました（2025年以降は GPT-4o 画像生成のような自己回帰型・ハイブリッド型も再台頭。詳細は第4章 4.2）。

DALL-E 2（OpenAI、2022年4月）
Midjourney（独立、2022年7月β、芸術系で爆発的人気）
Stable Diffusion¹⁷ （Stability AI、2022年8月、重みを公開 したことで個人開発が一気に広がる）

「テキストを書くだけで高品質な画像が得られる」体験が、初めて一般ユーザーの手に届きました。

ChatGPT — 2ヶ月で1億ユーザー

そして同年 11月30日、OpenAI が ChatGPT を公開すると、わずか 約2ヶ月で1億ユーザー に到達（UBS / Similarweb 推計、インターネット史上最速）。生成AIは専門家のものから「誰もが使う道具」へと変わりました。

GPT-3.5 をベースに RLHF（人間のフィードバックによる強化学習）で「丁寧・安全・対話的」に整えられたことが、一般受容の鍵でした（第3章学習プロセス）。

RLHF（Reinforcement Learning from Human Feedback） は、人間のラベラーが「どちらの応答がより好ましいか」をペアで評価し、その嗜好を報酬モデルに学習させ、それを使って言語モデル本体を微調整する手法です。GPT-3 は知識は豊富でも、初対面ユーザーに対して攻撃的・無責任・冗長な返答を返すことが多く、製品にはなりませんでした。RLHF を経た GPT-3.5 は「丁寧に断る」「曖昧な質問は確認を返す」「危険な依頼を拒否する」といった 社会的な振る舞い を身につけ、一般公開に耐える品質になった。技術より「躾」の差が普及の決定打でした。

マルチモーダルとエージェント化（2023〜現在）

入出力の多様化

2023年以降は、テキスト・画像・音声・動画を横断する マルチモーダル 化が進みました：

GPT-4（2023/3）：画像入力対応
Gemini 1.5（2024）：1M トークンの長文 + 動画理解
Claude 3.5/4 系（2024-2026）：図表理解、コンピュータ操作

エージェント時代の幕開け

AIが自ら計画し道具を使って課題を進める エージェント 化も進行：

GPT-4 with Tools / Function Calling（2023年）
Devin（Cognition、2024年3月）：「世界初の自律 AI ソフトウェアエンジニア」を謳う
Cursor / Claude Code（2024-2025）：開発者向けエージェント環境（詳細は第13章 AIコーディング）
MCP（Model Context Protocol）（Anthropic、2024年11月）：エージェント標準化が動き出す

推論モデルとベンチマーク飽和

2024〜2025年には、解答前に内部で「考える」推論重視のモデル（OpenAI o1/o3 系、Anthropic Claude with extended thinking 等）が登場。SWE-bench Verified はテスト欠陥と学習データ汚染が指摘されて OpenAI が報告をやめるなど、評価指標の更新が性能向上に追いつかない状況が続いています（数値・経緯の詳細は第13章ベンチマーク）。

推論モデルは、回答を出す前に「思考の連鎖（Chain-of-Thought）」を内部で生成し、自己検証や試行錯誤を経てから最終出力を返します。OpenAI o1（2024年9月）は、ユーザーに見える部分の前に長い隠れた思考過程があり、数学オリンピック・競技プログラミング・PhD レベルの理科問題で従来モデルを大きく上回りました。事前学習をひたすら拡大するスケーリングが頭打ち気味だったタイミングで、「推論時計算量を増やす」第二の軸 を提示した点が転換的で、以後の各社モデルはこの路線を追随しています。

振り返り：3つの「なぜいま」

生成AIがここ数年で爆発的に進んだ背景は3つに集約できます。

要因	内容
計算	GPU/TPU の大規模化と専用化（H100、TPU v5、Trainium 等）
データ	Web規模の高品質コーパスと、合成データ・人間フィードバックの活用
アーキテクチャ	Transformer の発明と、その上に積み上がった事前学習・RLHF・推論モデル

「いつ来たか」は偶然ではなく、3つが同時に揃った瞬間でした。