大規模言語モデル(LLM)は何をしているのか
LLMとは何か
― 本質は「次に来る単語の予測」
大規模言語モデル(LLM)とは、
任意の文章に対して「次に来る単語」を予測する数学的な関数
です。
重要なのは、LLMは
文章の意味を理解して答えを考えているわけではなく、
次に現れそうな単語に確率を割り当てている
という点です。
チャットボットはどうやって会話しているのか
チャットボットとの会話は、次の処理を高速に繰り返しています。
- 入力文を受け取る
- 次に来る単語の確率を計算する
- 1語を選んで文末に追加する
- これを何度も繰り返す
この単純な繰り返しによって、
長く自然な応答文が生成されます。
なお、毎回まったく同じ答えにならないのは、
- 確率の高い単語だけでなく
- あえて確率の低い単語も一定割合で選ぶ
という 確率的生成を行っているためです。
LLMの「賢さ」はどこから来たのか
ここまで見てきたように、
LLMが内部でやっていること自体は
「次に来る単語を予測する」 だけです。
それにもかかわらず、現在のLLMが
極めて自然で実用的に見えるのは、
次の 3つが同時に成立したためです。
- Transformer ― 技術的基盤
- スケーリング ― 進化の方向性
- RLHF ― 実用化の鍵
以下では、この3点を軸に、
LLMの仕組みを整理します。
1. Transformer ― LLMの技術的基盤
1.1 トランスフォーマーとは何か
LLMの性能を飛躍的に高めたのが、
トランスフォーマー(Transformer)というモデル構造です。
従来の言語モデルでは、
- 単語を順番に処理する
- 遠く離れた文脈を扱いにくい
という制約がありました。
トランスフォーマーは、
- 文章全体を 並列に処理し
- 長距離の文脈を 同時に参照できる
構造を実現しました。
1.2 アテンション機構
トランスフォーマーの中核にあるのが
アテンション機構です。
これは、単語同士が互いを参照し合い、
文脈に応じて重要度を変える仕組みです。
たとえば「bank」という単語は、
- 川の話なら「川岸」
- 金融の話なら「銀行」
として扱われます。
意味を理解しているわけではありませんが、
どの解釈が文脈上もっともらしいかを
統計的に判断しています。
1.3 従来モデルとの違い
| 観点 | 従来モデル | トランスフォーマー |
|---|---|---|
| 処理方法 | 単語を順番に処理 | 全文を並列処理 |
| 文脈理解 | 限定的 | 広範囲を同時参照 |
| 学習効率 | 低い | 高い |
Transformerは、
モデルを大きくするほど性能が伸びる
という性質を初めて実用レベルで実現しました。
2. スケーリング ― LLM進化の方向性
Transformerという基盤の上で、
LLMは スケーリングによって進化しました。
2.1 圧倒的な学習データ量
LLMの性能を支える最大の要因は、
学習データの量です。
インターネット規模の膨大なテキストを学習することで、
- 文脈に合った表現
- よくある言い回し
- 不自然にならない語順
を、意味理解ではなく
統計的なパターンとして獲得しています。
これは「賢い」というより、
とにかく大量に見て覚えている状態
に近いと言えます。
2.2 パラメータ(重み)という巨大な構造
LLMの内部には、
モデルの振る舞いを決める
**数千億個規模のパラメータ(重み)**があります。
- すべて連続値
- 人間が意味を理解して設定しているわけではない
- 初期状態はランダム
学習とは、これらを少しずつ調整する作業です。
イメージとしては、
無数のダイヤルを持つ巨大な装置を
ひたすら微調整していく
ようなものです。
2.3 事前訓練とは何をしているのか
スケーリングを可能にした学習方法が
**事前訓練(Pre-training)**です。
やっていることは非常にシンプルです。
- 文章の最後の単語を隠す
- それ以前を入力として与える
- 次に来る単語を予測させる
- 正解との差でパラメータを更新する
この処理を 何兆回も繰り返すことで、
- 見たことのない文章でも
- 文脈に合った続きを
予測できる能力が身につきます。
2.4 想像を超える計算量とGPU
この学習には、
常識外れの計算量が必要です。
仮に、
- 1秒間に10億回の計算ができても
- 最大規模モデルでは 1億年以上分
に相当します。
これを現実に可能にしたのが、
GPUによる大規模並列計算と分散学習です。
2.5 確率的に生成されるという性質
LLMは次に来る単語を
確率分布として予測します。
生成時には、
- 確率が高い単語を中心に
- 一定のランダム性を持たせ
- 確率がやや低い単語も含めて選択
します。
そのため、
同じ質問でも、
毎回まったく同じ回答になるとは限らない
という現象が起こります。
3. RLHF ― LLMを「使える道具」にした鍵
3.1 事前訓練だけでは不十分
事前訓練だけを終えたモデルは、
- 文法的に正しい文章
- それらしい続き
は生成できます。
しかし、
- 人間にとって役に立つとは限らない
- 危険な出力をすることもある
という問題が残ります。
3.2 RLHFとは何か
そこで導入されるのが、人間のフィードバックによる強化学習(RLHF)です。
RLHFでは、
- 人間が複数の回答を評価し
- 望ましい振る舞いを選び
- その評価をもとにモデルを調整
します。
3.3 事前訓練とRLHFの違い
| 項目 | 事前訓練 | RLHF |
|---|---|---|
| 目的 | 言語パターンの獲得 | 人間にとって望ましい応答 |
| 教師 | テキストデータ | 人間の評価 |
| 効果 | 文章が書ける | 役に立ち、安全になる |
現在のChatGPTの
**「使いやすさ」「会話らしさ」**は、
このRLHFによって実現されています。
まとめ:LLMの正体
攻めた表現をするなら、LLMは「考える存在」ではなく、
極めて高性能な次単語予測装置です。
それでも流暢で、魅力的で、実用的であり、
それは下記の
- 人間のフィードバックによる強化学習(RLHF)
- 圧倒的なデータ・計算資源、大規模パラメータでの学習(スケーリング)
- どの解釈が文脈上もっともらしいかをとらえるAttension構造(Transformer)
によって実現されています。

