大規模言語モデル

岡野原大輔：「岩波科学ライブラリー　大規模言語モデルは新たな知能か～ChatGPTが変えた世界」、岩波書店(2023)を読む。このHPでは類似の話題を何回か取り上げた。「ChatGPTあれこれ」('23)、「生成AI雑読(その一)&（その二)」('23)、「まちがえる脳」('23)。著者はIT産業の現役の社長。一般教養書。時期的には既読の資料と同じだから、情報としての新しさは少ないかも知れないが、見て感じる角度は違っておろう。一般教養書レベルの読者は、自分では技術の奥まで見通せないから、別の専門家から聞くこと自体が有意義であろう。

序章から第2章までは大規模言語モデルの実際の功罪を平たく述べてある。本HPの上記記事と重なる。第3章「機械はなぜ人のように話せないのか」に関しては、「機械翻訳と人工知能」('21)、「言語とフラクタル」('22)、「AI翻訳革命」('22)がこのHPにある。

「あなたの仕事に英語学習はもういらない」という言葉が「AI翻訳革命」の種本の副題に入っている。そして「自動翻訳の実用化に約70年かかっている。初期40年ほどはルールに基づく翻訳（RBMT）だった。柔軟性に富む言語に対応するためには、例外処理のルールを、無限に積み重ねねばならないことが判る。文法解析は長文になるほど可能性が極端に増加する。行き詰まった研究に対し当時京大教授であった長尾真氏が「EBMT（Example-based Machine Translation）という「ノー・モア・ルールズ」への転換を発表する。この開発思想ではルールは使わず、データを基盤とする。この思想がハードの驚異的な高速化巨大化に助けられて実用化の成功をもとらす。」とある。「AI翻訳各方法に通じての基本技術はむろん深層学習。「5GとAI」('19)にはその長所短所を幅広く紹介している。」とも書いている。

本書には長尾氏の貢献は引用されていない。ちょっと気になって「機械翻訳と人工知能」('21)を覗いてみた。「（文法を捨ててて）文の中心をなす動詞に注目し、その動詞と文中の主要な名詞とが、どのような意味関係で共存しうるかということに注目する。」とあるから、教師データの用例で繋いで文章を作ると云うことだろう。現在の大規模言語モデルに通じる方法論だ。長尾氏は科学技術文献翻訳に絞って研究した。

現在実用化されている最新の翻訳技術は、EBMTの第7世代(第3世代ニューラル(NMT))にあたる（「AI翻訳革命」('22)）。Google翻訳もNMTとCopilotはいう。ついでに両者の比較を聞いてみた。機械学習である点は共通しているが、EBMTは、長年の翻訳活動で蓄えられた質の高い対訳データつまり選別された専門家のデータを利用するのに対し、大規模言語モデルでは、（コンピュータと関連ハードの「べき乗則的」発展のおかげであろう）、無選別の大規模な自然言語の集合体（コーパス）から学習されると答えた。

EBMTは小規模言語モデル、Google翻訳は中規模言語モデル、Copilotは大規模言語モデルと書けばちょっとはわかった気になる。専門棋士を倒したチェス、囲碁、将棋などのAIは中規模言語モデル、よく新聞種になる医学関連の診断ソフトも中規模言語モデル相当だろう。

両者の利用上の差は仕事(プロンプト）指示の方法だ。EBMT～NMTは翻訳に固定してあるが、大規模言語モデルでは、仕事は得手不得手はあるだろうが一般にはお望み通りの何でもだ。懐がでかいからプロンプトを旨く与えると、目的にかなった仕事をしてくれる。プロンプトを読んでいる間に、急速にその仕事に適応できるように挙動を変える。はじめはトンチンカンな返事であっても、対話でこちらの思いを補充して質問の形を変えると、心が伝わったような返事になってくる。この指摘はほかでも見た。大規模言語モデルの使い方つまりプロンプトの設計法は、まだ「萌芽的」段階だとある。

第4章は「シャノンの情報理論から大規模言語モデルの登場前夜まで」。長尾氏のEBMTは'81年に発表された。その基礎のシャノンの情報理論は'48年。コンピュータにとって言葉は意味じゃない、確率だとした。珍奇なニュースは情報量が大きい。それが言語モデルを可能にし、学習方法が確立されて、言語モデルが文の意味や構造を理解するまでなる。文を作れる言語生成モデルが進歩する。

第5章は「大規模言語モデルの登場」。「べき乗則」の発見は企業家を勇気づけた。投資に見合う精度が確実に得られる。世界についての知識や問題解決能力を評価するスコアにMMULがある。各分野の専門家が解いた場合は89.8％、素人集団だと34.5％。GPT-4(2023)は86.4％。おそるべし。あらゆる部門の専門家を集めた集団の回答に今一歩のところまで来ている。

「べき乗則」はトランスフォーマーと呼ばれる手段を大規模言語モデルに適用した場合に成り立つ。ほかの手段は出てこないから、実質上は両者はイコールの関係にあるのだろう。訓練データサイズ、モデルサイズ、投入計算量(この3者は互いに幾分かは従属関係にある)に対して検証データの予測誤差が「べき乗則」に乗ることを示す。モデルサイズは、ニューラルネットワークNNWのパラメータ数を指し、モデル内の重みやバイアスの数である。計算量は、モデルの学習に必要な計算資源の量で、コンピュータ使用量のようなもの。天文学的計算はさすがにものすごく、学習1回数億円といった数字が出ている。スパコン富岳は日本に1台。同じように超大規模言語モデルも世界1モデルになって、あとはそれを中小規模のサテライト的応用と云った姿になるのだろうか。「モデルを大きくすると問題が急に解けるようになる（ことがある）。」そうだから、超大型化は悩ましい。超大規模になると大規模言語モデル段階でよく問題になった過学習の落とし穴が無くなるという。

大規模言語モデル時代に指摘されていたもう一つの問題、算数ができない、ルールを理解できない問題には本書は触れていない。超大規模化で解決したのか? 言語モデルだから人工言語のプログラミング言語は「そこそこ」にこなすらしい。シミュレーションなどの時どの言語が良いかとか、プログラムの例示はするが信頼できるとは限らないと云ったところか。

第6章は「大規模言語モデルはどのように動いているのか」。NNWの学習は誤差逆伝搬法というフィードバックで、各シナプスの重みを修正することで達成する。大能生理学的には発火の閾電位をいじることだ。ディープラーニングは、巨大なNNW(パラメータ数で6千万、それまでの10～100倍)が、目を見張る精度を上げてから俄然注目されだした。ディープラーニングはトランスフォーマーなるモデルの登場で大発展し、大規模言語モデルに至った。

「生成AI雑読（その一）」('23)には、「脳はAI(具体的にはトランスフォーマー)に近い分散表現で計算をしている可能性が高い」と書いている。データや問題がコンピュータの中では高次元(数千から数十万次元)の点に相当している。この点がお隣の点と相関しあっている、その影響は無限に近い変数を持つ一次関数といった印象だ。学習の表現が明快なのがディープラーニング成功の一因という。

トランスフォーマーは、自己注意機構とMLPブロックと呼ばれる単位を交互に重ねていき、データを処理するモデルであるという。自己注意機構は過去の単語列で重要な部分を思い出す短期記憶と考えることができる。MLPブロックは､学習中に出会った情報を保存しておき、今処理している内容と関係しそうな記憶を読み出して処理している長期記憶に対応する部分だと見なすことができるという。脳の海馬と大脳皮質に対応するような内容である。

自己注意機構には本文中(In-Context)学習の機能がある。自分で考えて自己修正をするという人に迫る注目すべき機能だ。大規模言語モデルでは利用時にはパラメータは固定してあるはずだが、自己注意機構は､あたかもパラメータを変えて学習した場合と同様に、指示や､今生成しているデータに合わせて、モデルを急速に適応させてゆく。言語モデルと自己注意機構の組み合わせが、学習方法自体を学習させるメタ学習を生んだ。これは通常の汎化を超えた汎化(分布外汎化)を達成させる。

今後の発展方向として目標駆動学習が上がっている。人間のフィードバックによる強化学習である。専門家が各様のプロンプトを与え、大規模言語モデルにどんな対話がよいのか悪いのか、価値感や考え方を教え込む。モデルに人間臭を付与する学習か。これを自動評価システムとして組み込む。終章「人は人以外の知能とどのように付き合うのか」に、大規模言語モデルを他のアプリケーションサービスと組み合わせるサービスは既に提供されているとある。野放図にしておくととゆくゆくは目標達成のために、虚偽情報を流したり金融取引に不正な介入をしたり、電力遮断に打って出たりの「人でなし行動」に出るかも知れない。米国大統領選挙やウクライナ侵攻のニュースに噂として出てきている。個人レベルのSNSフェイク攻撃は実際に行われている。言語モデルに、人格とか品性に相当する制御機構を持たせることは重要だ。

大規模言語モデル

('24/4/18)