深層学習の原理
- 今泉允聡:「岩波科学ライブラリー303 深層学習の原理に迫る〜数学の挑戦」、岩波書店(2021)を読む。著者は東大文系出身の統計学者。116p。索引はない。
- このHPには「深層学習」に触れた記事が結構多い。「八月の概要(2017)T」には「(人工知能)AIの(深層学習に拘わる)重要な問題は、結論に至る理由が理解できないことが多い点」と記載しているし、「5GとAI」('19)には「AIが陥りやすい罠に過学習がある」とあり、「AIの2大リスクは「不透明性」と「制御不能性」」と総括している。「脳・心・人工知能」('16)は、学習に対するAIのニューラルネットワークの発想が脳科学から来ていることを示す。本書は、今では、AIが脳科学からは独立した道を歩んでいると書いている。
- 本書は6章立てで、ページ数にして1/4(第1章「深層学習の登場」、第2章「深層学習とは何か」)はいわば概論だ。問題意識を鮮明にする。もうすこし懇切丁寧な初歩的数学による解説が欲しかったので、金丸隆志:「BLUE BACKS 高校数学からはじめるディープラーニング〜初歩からわかる人工知能が働くしくみ」、講談社(2020)を借り出してみた。この本は、本書の第3章の終わりの方に出てくる、画像認識問題を最終章に取り上げており、382pあり索引も付いている、演習用プログラム付きという親切さだ。概論理解にはより適切だと思う。私の「深層学習」の理解度は、脳科学とのアナロジー程度だから、それはそれで興味があるが、本HPではそれは記述しないで、最大関心事である上記2問題に関する数学的解説第4、第5章から取り組むことにした。第6章は総括。そのあと深層のわけを説く第3章に移る。
- 第4章は「厖大なパラメータ数の謎」。
- 「生成AI雑読(その二)」('23)に「Googleの大規模言語モデルBERTの事前学習の・・・基本はテキストの中の単語をunknownにして、それを推測できるように、ニューラルネットは学習の過程で内部にあるニューロンの重み付け(パラメータ)を少しづつ変化させてゆく「単語あてクイズ」の実行だ。」とある。脳神経細胞はネットワークを通して繋がりあっているが、繋がっている相手が活動電位を伝える(発火する)かどうかは、貰った電位を加算した値がある閾値(バイアス)を越えるかどうかだ。閾値が脳科学でのパラメータである。脳が最終段階、例えば筋肉収縮を命じる段階、に至るまでには、この伝達段階が何層にも何層にも重なっているはずだ。
- さてAI。最先端の機械ではパラメータ数が1億を超える。厖大なパラメータによる過学習(訓練データへの過適合現象:細かくfittingしようとするあまり大局観を失う現象)は避けられているか。従来の数学は過適合のしやすさが、ニューラルネットワークの自由度の平方根に比例し、訓練データの数の平方根に逆比例するとする。自由度とは層数とパラメータ数に比例する。ところが深層学習のコンピュータは過学習を起こさない。この矛盾に対する新しい自由度理論が提出されている。3種の新理論が紹介されているが、いずれも深層学習の本質を実験的に推測して、従来の純数学的演繹に制限を加えたようなもののようだ。どんな場合でも過学習はないとは言い切れてはいない。
- 第5章は「なぜパラメータの学習ができる?」。
- 誤差が凸関数的なら、勾配降下法で誤差最小のパラメータ群を求めることができる。だが深層学習の損失関数は凸関数からかけ離れている。そのような損失関数のもとでは、損失を最も小さくするパラメータの発見は非常に困難だ。多層ニューラルネットワークの層の数が増えれば増えるほど、損失関数が持つ細かい谷の数が増え、凸関数からより遠ざかる。だが、深層学習の実際(確率的勾配降下法)はよいパラメータを学習できている。数学的な予想よりは大幅に少ない計算資源および時間で、高い予想性能を発揮している。ただし本当に訓練損失を最小にしたかどうか、検証できないからその保証はできない、しかし深層学習は結果論的に非常に精度の高い予想をやる。
- 損失関数の形状やパラメータ学習の実体を、数学的にフォローすることは一般的には困難だ。だが特殊例はある。1つは過剰に多いパラメータで損失関数をシンプルにし、重なり合った山と谷を解きほぐして、孤立化させたような状態で確率的勾配降下法に掛けるというもの。2つは、確率的勾配降下法によるパラメータ更新の影響の分析にランジュバン動力学を応用するというもの。どちらの方法も記述されている限りでの理解は困難だ。成果は画期的と評価されているが、前提になった数学的条件は証明できていない。
- 第6章は「原理を知ることに価値はあるか」。
- 図6-1はムーアの法則をコンピュータの1000ドルあたり・1秒あたりの計算能力を年度にたいしてプロットした図だ。'25年には量子コンピュ−タも仕上がるような予測になっている。今は集積回路の時代で、Core i-7がマウス脳の処理能力に達したとしてある。人間の脳の処理能力はその1万倍。マウス脳のAIがヒト様に深層学習で奉仕申し上げる。
- ヒト様は限界領域ではなかなか譲らない。アップルが完全自動EV計画を断念したと言う(「2月の概要(2024)」)、NHKが開発した「社会問題解決型AI(人工知能)」が「40代ひとり暮らしが日本を滅ぼす」と言う結論を出し、住宅手当が一人暮らし解消に有効であると提言する(「八月の概要(2017)T」)。ヒト相手のAI提言は数学的理論にきっちり支持されていない限り、社会が理解するのは困難だ。
- 深層学習の成功は、従来のデータ分析法の限界を明らかにした。NHKの「ヒューマニエンス」(1/23)でも云っていたが、ヒトの脳は間違えるし取り違えもする。そこに進化論的な値打ちがあるという。このずぼらな脳と、かちんかちんに論理的な数学の妥協点というか落としどころというかが、えらく観念的な話だが、新しい解析法を開くのではないかと妄想する。
- 第3章は「なぜ多層が必要なのか」。
- 多層は深層学習の本質だがその理由ははっきりしないという。私は脳科学から先に勉強したから当たり前のように思っていたが、不思議と云えば不思議である。数学は、滑らかなカーブを描くような連続事象になら、ニューラルネットワークは2層で十分近似できる連続関数を提示できることを証明する。多項式近似が有効だ。だが不連続事象(例えば相転移現象)では4層以上の深層学習が表現に必要だ。事象は滑らかな連続関数と不連続の例えばステップ関数が合体したものと理解され、1層目と2層目で前者を近似し、3層目で後者を近似、最終的には合成して、ジャンプを持つ関数の近似をする。不均一な滑らかさを持つ事象ではウェーブレット近似が有効だ。この近似法は異なる幅を持つ短冊状の関数を並べる方法だ。これにたいしても、深層学習の有効性が証明されている。
- 画像認識は特徴量抽出によって可能になる。特徴量は低次元で滑らかな構造の場合が多い。良い例が太い輪郭線だ。雑多な風景の中のネコを認識するのに、色も模様も細かい個性表現も不要だ。洋服と帽子のネコ駅長と言った不自然な相手は困るけど。数学的に多層ニューラルネットワークに識別力を持たせられることが証明されている。特徴量は多様体やフラクタルといった概念によって低次元構造と把握できる場合が多い。ビッグデータの多くは非常な高次元であるが、本質的な低次元構造を隠し持つ場合が多い。
- '16年時点で既に層数が1000以上の、超深層ニュートラルネットワークが出現している。ここに述べた数学的結果はせいぜい数10の層の役割を記述するにとどまり、さらに層を増やすことへの意義は、未解決である。それから特徴量を記述する概念がまだ十分とは言えない問題が残っている。実用上はデータのより具体的な構造を詳細に捕らえる必要がある。
- 市図書館から本を借り出すようになって気付いた。芥川賞直木賞などの受賞作には借り出し申し込みが多くて、手元に来るまでに半年かかる場合はざらなのに、ホットな話題と云う意味では引けを取らないはずと思うが、今回の「深層学習」といった理系図書は、人気がなくすぐ借り出せる。図書館の方も心得ていて、受賞小説は何冊も購入するのにこのありさまだ。図書館に入荷する本の種類も文系が圧倒的に多いから、出版界もそうなのだろう。理系敬遠傾向が産業競争力の劣化に結びついているのは明らかだ。私はGDP世界第2位あたりで現役を去った。せめて今の第4位は維持してほしい。それにはこの敬遠傾向を排除せねばと思う。具体策? まずは大学入試科目の採点の重みを、すこし理系に移すことだろう。
('24/3/10)