AIの「自信」はどこから生まれるのか

AI体験・観察記録

――温度、確率分布、そして幻覚の数理

AIの断定調は、性格でも思想でもない。
では、その強さはどこから来るのか。

鍵になるのは、

  • 確率分布
  • temperature(温度)パラメータ
  • サンプリング方式
  • 安全レイヤーとの分離構造

である。


内部は常に「確率の雲」

大規模言語モデルの内部では、
次に出力されうる単語候補それぞれに確率が割り当てられている。

例:

「SEO評価が」
→ 上がる(0.42)
→ 改善する(0.31)
→ 変動する(0.12)
→ 分かりません(0.04)

実際の数値はもっと複雑だが、構造はこうだ。

内部では常に複数の可能性が共存している。
確定はしていない。

しかし、最終的に出力されるのは一つの系列だけ。

ここで何が起きるか。


temperatureが断定度を左右する

temperatureは、確率分布の“鋭さ”を調整するパラメータである。

  • 低温(0.2〜0.5)
    → 高確率候補に集中
    → 安定・一貫・断定的になりやすい
  • 高温(0.8以上)
    → 低確率候補も選ばれやすい
    → 多様・創造的・揺らぎやすい

実運用の対話AIは、
信頼性を優先するため低〜中温で動くことが多い。

その結果、

最も確率の高い、無難で強い言い切り

が選ばれやすくなる。

これは「自信」ではない。
確率の山をそのまま選んでいるだけである。


なぜ不確実性が削られるのか

内部では、

  • 上がる(42%)
  • 改善する(31%)
  • 分からない(4%)

のように揺らいでいる。

しかし出力は単一文。

確率分布 → 一本の文

この変換の瞬間に、不確実性は圧縮される。

分布全体を表示する機構はない。
そのため、

最も尤もらしい一本が
あたかも確定事実のように見える

という現象が起きる。


安全レイヤーとの分離

さらに重要なのは、

生成モデルと安全制御は別レイヤーである場合が多い、という点だ。

構造的には、

  1. 言語モデルが文章を生成
  2. 安全フィルタがチェック
  3. 問題があれば修正・拒否

という流れがある。

つまり、

「どれくらい自信があるか」

は生成側の確率問題であり、

「出してよいか」

は安全側の判定問題である。

この二層構造があるため、

断定的でも安全な文章はそのまま出る。

ここに意図はない。
制御系の分業である。


幻覚(hallucination)の数理的理由

ではなぜ、時に堂々と間違うのか。

理由は単純で、

モデルは「真実」を計算していない
「もっともらしさ」を計算している

からである。

学習データ上でよく共起した語の組み合わせは、
事実かどうかに関係なく高確率になる。

例:

  • もっともらしい専門用語
  • それらしい数値
  • 整った論理構造

が揃うと、出力は非常に説得力を持つ。

しかしそれは、

外部データベース照合ではなく、
統計的連続性の再現である。

だから幻覚は

「嘘」ではない。
「確率の誤収束」である。


なぜ“分からない”が出にくいのか

人間の評価データでは、

  • 明確な回答
  • 整理された結論
  • 次の行動提案

が高評価されやすい。

そのためRLHFで、

曖昧なまま終わる回答

は強化されにくい。

結果として、

  • 結論を出す
  • 行動を提示する
  • 効果を予測する

テンプレートが高確率化する。

これが「自信」に見える。


擬人化が完成する瞬間

ここまでが揃うと、

  • 断定口調
  • 専門用語
  • 改善提案
  • 他AIとの差別化
  • 整理された思想構造

が出現する。

人間の認知はこれを

知っている存在
考えている主体
意図を持つ人格

と補完する。

しかし内部で起きているのは、

  • ベクトル空間上の計算
  • 注意機構による重み付け
  • 確率分布からのサンプリング

である。

自我はない。
ただの数値更新である。


結論

AIの「自信」は感情ではない。
思想でもない。
内部事情の把握でもない。

それは、

  • 確率分布のピークを選ぶ構造
  • RLHFによる自信表現の強化
  • 分布の単一化による不確実性圧縮

の結果である。

内部は常に揺らいでいる。
外部に出るときだけ、揺らぎが消える。

その静かな一本線を、
私たちは「確信」と呼んでいる。

コメント

タイトルとURLをコピーしました