言語とフラクタル
- 田中久美子:「言語とフラクタル〜使用の集積の中にある偶然と必然〜」、東京大学出版会('21)を読む。著者は東大教授の数理統計学者で言語の解析に関心が深い。自然言語から著者最新の統計的言語普遍の研究までを総括する専門書である。一般教養書にありがちな、詳細を省いて結論だけを言うという姿勢ではなく、厳密を旨とする説明で、例えば数学的概念の内容も、理系ならトレースできるようにと、きちんと数式を用いて提示したと書いてある。
- フラクタル幾何学は、私は現役時代に、粒子の集合状態の統計的特性を説明するのに用いたことがある。だから言葉に対するアレルギーはないのだが、もう何十年も昔の話で、論理の演繹過程などとうに頭から消えている。やっぱり誤解と偏見を覚悟しつつ、斜交い読みする以外無さそうと観念した。
- 「11月の概要(2021)」に「ドイツのマックス・プランク人類史科学研究所を中心に、日本、中国、韓国、ロシア、米国などの言語学者、考古学者、人類学(遺伝学)者で構成する研究チームは、日本語(琉球語を含む)、韓国語、モンゴル語、ツングース語、トルコ語などユーラシア大陸に広範に広がるトランスユーラシア語の起源が約9000年前の中国東北地方の西遼河(せいりょうが)流域で、日本には朝鮮半島を経て約3000年前に入り、先住の縄文人言語(アイヌ語)と置き換わった、沖縄先住民言語との置き換わりは11世紀と発表した(英ネイチャー11/10号)。」と書いている。
- 言語学進歩のさわりを聞きたいというのが本を探し始めた動機であった。
- その一方では、コンピュータと自然言語の繋がりという問題意識も消えなかった。現役を退くころは、音声文字翻訳や異国語間の自動翻訳などという問題が実用化寸前まで行っていた。今はもうケータイにさえ搭載されるほどに進歩した。退役後は趣味の話になったが、人工知能AIが「チェス」「将棋」「囲碁」の専門棋士を破るようになり、ビッグデータ解析が、東北大震災を契機に、大規模災害の解明に役立つことがメディアを通して一般にも知られるようになる。
- 結語の第21章に言語を用いて言語を考える困難さを述べている。せめて言語を客観的に捉えるために、言語を言語から外在させて探求しよう。人が簡単には制御することができない言語の側面を考える。著者がとった方法が統計的言語普遍で、大規模なデータをコンピュータを用いて統計処理して初めて見える統計的な性質を探し求める。
- 私は「普遍」に拘った。本書の英語題名は「STATISTICAL UNIVERSALS OF LANGUAGE~MATHEMATICAL CHANGE VS. HUMAN CHOICE~」だ。こちらの方が本書の題名としてはぴったりしている。研究社の新英和大辞典には、universalsにばっちり「言語の普遍的特性」という訳語が付けてある。もっとも基礎的な普遍は単語の分布の中の普遍だ。
- それに関してもっとも著名な法則はZipf則だ。私も昔聞いた覚えがかすかに残っている。文書の中のある単語の出現頻度が k 番目に多いと、1位のものの頻度と比較して 1/k になるという順位頻度分布の経験則である。kをkのs乗と拡張すると、ウェブページへのアクセス頻度、都市の人口(都市の順位・規模法則)、上位3%の人々の収入、音楽における音符の使用頻度、細胞内での遺伝子の発現量、地震の規模、固体が割れたときの破片の大きさなどにも適用できるという(Wikipedia)。
- Zipf則は頻度の少ない稀少な単語が語彙の中で大きな割合をしめる。言語は開放的なのだ。文書の一部を取り出しても成り立つ。これは自己相似性だ。フラクタル幾何学の根源ドグマである。ところがお猿にキーボードをたたかせて得られるモンキー列においてもZipf則が成り立つ。Zipf則は自然言語より広い集合を含む。自然言語を特徴づける数学的因子は何か。すぐ思い浮かぶのはもちろんフラクタル次元である。
- 自然言語ではnグラムの順位頻度分布にもZipf則型の冪傾向が見られるという。nグラムとはn個の連続する単位(文字あるいは単語の場合がほとんど)だから、お猿との差は歴然というわけ。Zipf則はどんどん研究が進んでいくつもの派生則がでている。単語をシャッフルした列でも大本の文書とはあまり区別がつかないとある。シャッフルとはランダムなつなぎ合わせだから、数学モデル化の落とし穴と言うことか。
- そこで単語の間隔分布、長相関、ゆらぎが出てくる。このいずれにおいても、自然言語の文書は、単語シャッフル列とは異なる統計的性質を示す。まあ当然だろう。自然言語では、単語が長く記憶され、いつまでも再現されうることを示す。長相関というのは、系列中の二部分の相関の、部分の距離に対する減衰を調べるものである。相関はその距離に対して冪で減衰する。ゆらぎは事象が現れる回数:くどさの指標と思ったらいいのだろう。
- いろんな指標が自然言語のそれぞれの特徴を捉えている。総合的にどの程度複雑なのかを、エントロピーレートという形で表す研究が進んだ。ここらあたりからは情報理論の素地がないと理解困難になる。本書第10章には、文字列の場合や単語列の場合のエントロピーレートの算出法が例示してある。場合の数(情報量)は要素の数が増えると天文学的に増加する。統計力学では、ボルツマン係数のマイナス値が対数で表した場の数とエントロピーを結ぶ比例常数だ。情報理論の分野では、ボルツマン係数に相当するのがエントロピーレートである。
- 本書のデータ整理には冪関数がしばしば現れる。工学では、複雑現象の相関を求めるのにlog-log plotは常套手段であった。理論があっても制限範囲が狭いのが普通だから、あらっぽく大づかみに入れ子の入れ子(自己相似)的感覚で全体を把握する。実験室規模からパイロット規模の研究を経て実装置に至るスケールアップ感覚もそんなものだ。言語にもそんな特性があるということだろう。スケーリング則とは応用範囲抜群だ。
- 以上で本書の約半分が終わる。以下さらにW→Y部へと展開する。第W部は「統計的言語普遍から言語の部分構造へ」、第X部は「統計的言語普遍と言語の数理モデル」、最後の第Y部は「思索的考察」である。言語について考えられてきた統計的生成モデルでは、複雑系ネットワーク上のランダムウォークモデルと、深層学習言語モデルだけが、自然言語の統計的言語普遍を再現する可能性を示した。深層学習は人工頭脳のキモだ。具体的な方法は解説されていないが、長い記憶を再現できる長所がある。何となくわかる話ではある。
- 本書の最後の最後にある次の一句は、既述の通り、工学屋であった私も同感だ。「言語のシステムとは、人間特有のシステムでありながら、他の数多くの複雑系の一つである。このことは、本書で示されている複雑系科学の知見が、他の複雑系の探求においても数多くの報告があることからも知ることができる。自然や社会の他のシステムと、言語は似た側面を持つ系である、そのことをふまえて言語を捉え直すことは、新しい言語の理解へとつながる。」と。秩序がある世界とない世界があって、真実はその中間といったシステムは、自然ではむしろ常態と言えるほどに数多いものだ。それを冪で捉えているのだろう。
('22/1/20)