Ruby / Rails以外の開発一般

2025.11.12

ChatGPTのしくみとAI理論の根源に迫る:（12/16）基本的なトレーニングの次に何をするか（翻訳）

hachi8833

シェア
ツイート
ブックマーク
LINE

概要

原文サイトのCreative Commons BY-NC-SA 4.0を継承する形で翻訳・公開いたします。

英語記事: What Is ChatGPT Doing … and Why Does It Work?—Stephen Wolfram Writings
原文公開日: 2023/02/14
原著者: Stephen Wolfram MathematicaやWolframAlphaの開発者として知られる計算科学者・理論物理学者です

日本語タイトルは内容に即したものにしました。原文が長大なので、章ごとに16分割して公開します。
スタイルについては、かっこ書きを注釈にする、図をblockquoteにするなどフォーマットを適宜改善し、文面に適宜強調も加えています。

元記事は、2023年2月の公開時点における、ChatGPTを題材とした生成AIの基本概念について解説したものです。実際の商用AIでは有害コンテンツのフィルタなどさまざまな制御も加えられているため、そうした商用の生成AIが確率をベースとしつつ、確率以外の制御も加わっていることを知っておいてください。

本記事の原文を開いて、そこに掲載されている図版をクリックすると、自分のコンピュータでもすぐに実行して試せるWolfram言語コードが自動的にクリップボードにコピーされるようになっています。

コモンズ証 - 表示 - 非営利 - 継承 4.0 国際 - Creative Commons

前回: （11/16）ChatGPTのトレーニング方法とは

🔗 ChatGPTのしくみとAI理論の根源に迫る:（12/16）基本的なトレーニングの次に何をするか（翻訳）

ChatGPTをトレーニングするトレーナーの苦労の多くは、Web上や書籍などから大量の既存テキストをChatGPTに「読ませる」作業に費やされます。しかし、どうやらそれ以外にもかなり重要な部分が存在しているようなのです。

ChatGPTは、元となるテキストのコーパスを読まされて「生のトレーニング」が完了した段階で、早くも独自のテキストを生成してプロンプトに答える準備が整います。

しかし、この段階のChatGPTが生成する結果は妥当に思えることも多いのですが、どちらかというと人間らしくない形で回答が迷走することもしばしばあります。このような逸脱は、テキストに対して伝統的な統計処理を行っても容易に検出できませんが、本物の人間が読むとひと目で何かがおかしいことがわかります。

OpenAIのブログに掲載されているChatGPTを構成するうえで重要なアイデアの1つは、Webなどのテキストを「受動的に読む」トレーニングを終えたら、さらにChatGPTが実際に人間とやりとりを行い、人間はその結果を吟味したうえで、「よきチャットボットになる」ために必要なフィードバックをChatGPTに与える、というものです。

しかし、人間からのフィードバックをニューラルネットにどうやって与えられるのでしょうか？
その最初のステップは、ニューラルネットの生成結果を人間が評価することです。しかしここで、人間による評価付けの予測を試みる別のニューラルネットモデルを構築します。するとこの予測用モデルは、元のニューラルネットに対して、本質的に損失関数のように振る舞うようになり、人間から与えられたフィードバックを元にニューラルネットを事実上「チューンアップ」できるようになるのです。
そして実際のトレーニング結果を見てみても、この方法はシステムが「人間らしい」出力の生成に成功するうえで大きな効果を与えているようです。

「トレーニング済み」のネットワークを特定の方向に導くためにネットワークに対して与える必要のある刺激は、一般に驚くほど少なくて済むという点は実に興味深いことです（ネットワークが「何か新しく学習した」かのように振る舞うには、ネットワークの中に立ち入って、トレーニング用アルゴリズムを実行したり、重みを事細かに調整したりしなければならないのではないかとご想像の方も多いでしょう）。

しかし、そのような細かな作業を行わなくても、ネットワークを特定の方向に導けます。どうやら、基本的にはChatGPTにプロンプトで1度指示するだけで、その指示をテキスト生成時にうまく活用できるらしいのです。
繰り返しになりますが、この方法がうまくいくということは、ChatGPTが「実際に行っていること」を理解するために、そしてそれが人間の言語や思考の構造とどのように関連しているかを理解するうえで重要な手がかりになるだろうと私は考えています。

そこに「人間らしい何か」があるのは確かです。少なくとも事前トレーニングを1回済ませておけば、後はプロンプトで1回指示するだけでその指示を「記憶する」ようになるのです（少なくともそれを用いてテキスト片を生成するのに十分な期間は）。

いったいここでは何が起きているのでしょうか？
たとえば「プロンプトで与えるような指示は、実は既にどこかに存在していて、その適切な場所にたどり着けるよう人間が導いているだけ」なのでしょうか？
しかし流石にそのシナリオはありえないでしょう。

そうした適切な要素が既に存在しているとしても、具体的な内容は実は要素よりも「要素間の道筋」によって定義されていて、プロンプトで指示するということは、まさにその「道筋」を導入しているのだというシナリオの方がありそうです。

実際、ChatGPTの知っている思考の枠組みにまったく当てはまらないような突拍子もないプロンプトをChatGPTに伝えたとしても、人間のようにうまく「統合」できるとは思えません。ChatGPTが「統合」できるのは、基本的に既存の枠組みの上にかなりシンプルな形で乗っている場合に限られます。

ニューラルネットが「拾い上げる」ものは「アルゴリズム的な限界」を必然的に伴うということも、ここで改めて指摘しておく価値があると思います。

ニューラルネットに「これはあそこにつながる」という「浅い」ルールを伝えれば、ニューラルネットはそのルールを問題なく表現・再現できるでしょう。実際、ニューラルネットが言語から「既に学んだ」内容は、ただちに従うべきパターンをニューラルネットに与えてくれるでしょう。

しかし、縮約不可能（irreducible）な可能性のある計算を多く含む「深い」計算を実際に与えようとすると、うまく動きません。

原注

既に説明したように、ニューラルネットの各ステップでは、常に「データをフィードフォワード」しているだけであり、新しいトークンを生成する場合を除いてループは発生しないことを思い出しましょう。

もちろん、ニューラルネットは、そうした「還元不可能な」計算の答えを個別に学習することなら可能です。しかし、可能性の組み合わせが増えてくれば、その手の「テーブル参照方式」ではうまくいきません。
つまり、ついにニューラルネットも計算専用ツールに「手を伸ばす」ときがやってきたということです。実際、私が手掛けているWolfram AlphaとWolfram言語は、AIからアクセスして使う計算専用ツールとしてまさにうってつけと言えます。Wolfram Alphaは、言語モデルのニューラルネットが行うのと同じように「世界で起きていることについて自然言語で入力できる」ように構築されているからです。

次回: （13/16）ChatGPTは実際にどう動いているのか

ChatGPTのしくみとAI理論の根源に迫る:（1/16）実は語を1個ずつ後ろに追加しているだけ（翻訳）

ChatGPTのしくみとAI理論の根源に迫る:（2/16）その確率は「どこから」来たのか？（翻訳）

ChatGPTのしくみとAI理論の根源に迫る:（3/16）AIの「モデル」とは何か（翻訳）

ChatGPTのしくみとAI理論の根源に迫る:（4/16）人間らしいタスクをこなせるモデルとは（翻訳）

シェア
ツイート
ブックマーク
LINE

X: @hachi8833 GitHub: @hachi8833 コボラー、ITコンサル、ローカライズ業界、Rails開発を経てTechRachoの編集・記事作成を担当。これまでにRuby on Rails チュートリアル第2版のコンテンツ監修、Railsガイドのコンテンツ作成を担当。かと思うと、正規表現の粋を尽くした日本語エラーチェックサービス enno.jpを運営。 Claude Codeに夢中になりすぎないための方法を模索中。 ブログ:note.com/hachi8833、 Amazonウィッシュリスト: https://bit.ly/32aAmiI

ChatGPTのしくみとAI理論の根源に迫る:（12/16）基本的なトレーニングの次に何をするか（翻訳）

🔗 ChatGPTのしくみとAI理論の根源に迫る:（12/16）基本的なトレーニングの次に何をするか（翻訳）

関連記事

元スクラッチ開発エンジニアが語る、ノーコード開発の魅力

VSCode（Codex）からローカルLLM（Ollama）に接続して動かしてみた話

エンジニア組織の中間管理職がAI活用で1年間試行錯誤してみた

ChatGPTのしくみとAI理論の根源に迫る:（13/16）ChatGPTは実際にどう動いているのか（翻訳）

CSS: flexコンテナでは常に`flex-wrap: wrap`を指定しよう（翻訳）

どれくらいの抽選回数でビンゴになるの？　シミュレーションして調べてみた

Windowsでネットワーク速度を制限する方法

Windows環境でLMStudio（gpt-oss-20b）を動かしてみた話

2025年のファビコンを極める: 必要なファイルはほぼ3つに減った！（翻訳）

OracleにないLIMITの代わりにROWNUMを使う場合の罠

ビヨンドシリーズ第4弾「ビヨンド通知」を本日リリースしました！

Ruby 4.0.0がリリースされました

BPS株式会社 2025年度上半期の状況

Rails: sessionをブラウザに保存されるCookieの値から読み取ってみる

TechRacho記事が平日毎日更新開始以来'3000件'を達成しました

関連記事

CONTACT

ChatGPTのしくみとAI理論の根源に迫る:（12/16）基本的なトレーニングの次に何をするか（翻訳）

🔗 ChatGPTのしくみとAI理論の根源に迫る:（12/16）基本的なトレーニングの次に何をするか（翻訳）

関連記事

元スクラッチ開発エンジニアが語る、ノーコード開発の魅力

VSCode（Codex）からローカルLLM（Ollama）に接続して動かしてみた話

エンジニア組織の中間管理職がAI活用で1年間試行錯誤してみた

ChatGPTのしくみとAI理論の根源に迫る:（13/16）ChatGPTは実際にどう動いているのか（翻訳）

CSS: flexコンテナでは常に`flex-wrap: wrap`を指定しよう（翻訳）

どれくらいの抽選回数でビンゴになるの？ シミュレーションして調べてみた

Windowsでネットワーク速度を制限する方法

Windows環境でLMStudio（gpt-oss-20b）を動かしてみた話

2025年のファビコンを極める: 必要なファイルはほぼ3つに減った！（翻訳）

OracleにないLIMITの代わりにROWNUMを使う場合の罠

ビヨンドシリーズ第4弾「ビヨンド通知」を本日リリースしました！

Ruby 4.0.0がリリースされました

BPS株式会社 2025年度上半期の状況

Rails: sessionをブラウザに保存されるCookieの値から読み取ってみる

TechRacho記事が平日毎日更新開始以来'3000件'を達成しました

関連記事

VSCode（Codex）からローカルLLM（Ollama）に接続して動かしてみた話

リフォームトラブルをAIに助けてもらった話

エンジニア組織の中間管理職がAI活用で1年間試行錯誤してみた

CONTACT

どれくらいの抽選回数でビンゴになるの？　シミュレーションして調べてみた