02 第1部 基礎 / 何を・なぜ知るか

歴史と系譜

記号AIから機械学習、深層学習、Transformer、大規模化、マルチモーダル・エージェントへ。生成AIに至る積み重ねを大局でたどる。

読了 約6分 最終更新 2026.05 歴史系譜大局

生成AIは突然現れた技術ではありません。記号によるAIから機械学習へ、そして深層学習とTransformerへと続く積み重ねの上に立っています。ここでは、現在に至る大きな転換点をたどります。

黎明期 — 記号から学習へ

人工知能という言葉は1956年のダートマス会議で生まれました。初期のAIは、人間が規則を書き下す「記号AI」が主流でしたが、現実の複雑さを規則で書き切ることは難しい。やがて、データからパターンを学ぶ 機械学習 へと重心が移っていきます。

深層学習の台頭

転機の一つが2012年です。AlexNet と呼ばれる深いニューラルネットワークが画像認識コンテスト(ImageNet)で圧勝し、深層学習(ディープラーニング)の時代が始まります。生成の文脈では、2014年にGoodfellowらが提案した GAN(敵対的生成ネットワーク) 13 が、本物らしい画像を生成できることを示し、注目を集めました。

Transformer革命とスケーリング

2017年、Googleの研究者らが Transformer 12 を発表しました。アテンション機構を核とするこの構造は、大規模化と並列学習に適しており、以後のほぼすべての大規模モデルの基盤となりました。

2018年以降、これを土台にした GPTBERT 15 などの言語モデルが登場し、「モデルとデータを大きくすると性能が伸びる」というスケーリングの考え方が広まります。2020年の GPT-3 1 は、巨大化によって文脈内学習が可能になることを示し、大きな衝撃を与えました。

生成AIの一般化(2022〜)

2022年は生成AIが一般社会に広がった年です。画像生成では 拡散モデル 16 を用いたサービス(Stable Diffusion 17 や DALL-E など)が相次いで公開され、テキストを入力するだけで高品質な画像が得られるようになりました。

そして同年11月、OpenAIが ChatGPT を公開すると、わずかな期間で世界的に普及し、生成AIは専門家のものから「誰もが使う道具」へと変わりました。

マルチモーダルとエージェントへ

2023年以降は、テキスト・画像・音声を横断する マルチモーダル 化と、AIが自ら計画し道具を使って課題を進める エージェント 化が進みました。さらに、解答前に内部で「考える」推論重視のモデルも登場しています。生成AIは、単発の応答から、継続的に作業をこなす存在へと役割を広げつつあります。