野球の統計学

鳥越則央:「岩波科学ライブラリー223 勝てる野球の統計学 セイバーメトリクス」、岩波書店(2014)を読む。出版された頃の日本プロ野球界は、セ・リーグでは打撃のバレンティン(ヤクルト)、パ・リーグでは投手の田中将大(楽天)が活躍した頃だった。統計学が必要とするマス・データが利用できるようになってきた。野球はラグビーやサッカーなどに比べれば、チーム戦ながら選手個人の価値を評価しいやすいゲームであるのが幸いして、アメリカでは既に科学の導入が始まっていた。
大谷翔平選手がエンジェルスからドジャースに移籍になった時の契約金の高さは、我らの目にはまさに法外で、ドジャースのマネージメントの根拠を知りたいと思った。セイバーメトリクス(SABR Metrics)のセイバー(SABR)はアメリカ野球会の略称で、セイバーメトリクスは彼らによる「強いチ−ム作りのための統一的な選手評価の強力な手法」だと表紙にでている。100pほどの小冊子だし、難しい内容ではないから一気に読める。本書の値打ちは、私には、「おわりに−セイバーメトリクスとID(Important Data)野球」にあると思える。今日のメトリクスの進化が予測されている。
ID野球とは野村克也氏の提唱。捕手、監督を含めての現役時代に、彼は相手チーム相手選手のあらゆる徴候を「科学」的に嗅ぎ取って勝利に貢献した。それは誰もがやる分析だろうが、彼は一段深くデータ活用を取り入れて考えた。「一段深く」には個人能力に負うところが大きい。野村は打者としては投手の腕の振りや、動作の違いから球種を読み、捕手としては打者の構えやタイミングの取り方から狙い球を読むのが得意であった。各局面での特殊性に応じて相手選手とかけひきし、相手チームの狙いや作戦を読む。IDと言ってもデータは数値化されたものではなかろう。
'13年頃のセイバーメトリクスが活用できた統計データは、勝敗数、出塁数、四死球数、失策数、安打数、塁打数、本塁打数などといったマクロデータで、本書の議論の大半はこれらのマクロデータに基づいている。でも今はTV解説など見ていたらよく判るとおり、投手の投げた球のスピードから回転軸の方向と速度、バッターボックスでの通過位置と曲がり具合まで瞬時に判る。バッターのスイングだって同じようなものでしっかり解析データが取れるだろう。「科捜研の女」によく出てくるように、AIが足癖や歩き癖で犯人を識別する時代だ。野村克也並みの行動解析AIが、その内に(もう実現しているかも知れないが)、ベンチの監督やグランドの選手に刻々近々未来予想を伝える時代がやってくる。これは野球現場での話だが、チームのマネージャーはより正確に野村のIDを身につけて、狙いの選手にウン千億円を投資するようになる。
最後の第5章「真のMVPは誰か?−勝利への貢献度を数字で表す」は監督を含めたマネージャークラスのもっとも関心度が高い話だろう。MVP投票は取材歴5年以上の野球記者によるもの。記者は1〜3位を選んで投票する。1位が5点、2位が3点、3位が1点。これでは下々の選手は数字になって出てこない。メジャーリーグでは選手の総合評価指数としてWAR(Wins Above Replacement)が採用されている。攻撃の指標wRAA、投手の指標FIP、守備の指標UZRはプレーを得点の価値に置き換えているので、異なるポジションの選手を比較することができる。WARにはこれらに走塁の貢献度を加える。WARは「控えレベル(リプレイスメント・レベル)の選手に比べて、1年間で何勝分貢献したのか?」という意味になる数値にしてあるという。
第4章は「イメージ先行で語られがちな「守備の達人」−失策が多くても守備範囲は広かった」。投手と打者の評価は割りと数値化が容易だ。第1、第2、第3章に述べられている。しかし守備の勝利への貢献は評価困難だ。この困難性は、ラグビーその他のチームプレーの色彩が強いスポーツに共通した面があるから、「守備の統計学」の成功は「全スポーツの統計学」に繋がる可能性がある。
野手の成績を守備率(=(刺殺+捕殺)/(刺殺+捕殺+失策))で見ると守備範囲の広さによる貢献が入ってこない。UZRはUltimate Zone Ratingで「同じポジションの平均的な選手に比べて何点分の失点を防いだか」を示す。簡易的に式化すると、「守備範囲」+「失策をしない能力」+「併殺奪取能力」+「肩力」である。内野手はこの4項目全部、外野手は「併殺奪取能力」以外の3項目、投手、捕手の守備評価は別式という。捕手には「盗塁阻止率」をいれるなど。
実際の計算例が'12年のセ・リーグ・サードの各選手について求めてある。ファンには守備の名手と唱われたヤクルトの宮本慎也選手が、巨人の村田修一選手や広島の堂林翔太選手よりもUZRが低くなる。その差は守備範囲から来ている。宮本の守備範囲は6チーム中の第5位だった。
UZR解析の肝は、球場を本塁から見た方向と距離によってゾーン分け(実際は176ヶ所)し、打球の質(ゴロ、フライ、ライナーの3種)、打球の強さ(番とも含め4区分)を入れて、打球の質を分類するゾーンデータ化である。昔も今もそんな公式記録はないが、電子記録とAI解析でおそらく、現在では自動的に記録できるようになっているだろう。三遊間にヒット性の打球が飛んできた。堂林は横っ飛びに飛んで捕球し、ヒットにさせない確率が俄然高いという数字が出てくる。一方堂林は失策王だった。三遊間の猛ゴロを積極的に追いかけた貢献度は公式記録にはでないが、UZRでは評価される。守備範囲の具体的な計算例を示してある。
第1章は「"無死満塁"は点が入りにくいのか?−野球のセオリーを検証する」。ドジャースに移った大谷翔平選手の打席定位置はDHの2番だった。今はレギュラーの1番が負傷したため1番に入っている。エンゼルス時代は3番または4番を打ったと記憶している。日本では1番はヒット製造型で俊足な選手、2番はバントなどの小技が得意な「つなぎ役」タイプというのが常識だった。ドジャースの起用方法は正しいか。
この章の最後に「「1番から始まる好打順」は本当か」と題するコラムがある。"無死走者なし"の機会は打順1番が他の打順より倍ほど多い。だったら普通は3番4番の強打者を1番上げて、2番3番にする方がチームの得点能力は大きくなる。そんなことは大谷出現前から判っていた。日本のプロ野球10年のデータを見ると、2番打者がチーム内で最も高いOPSを誇っていたという例がないそうだ。
OPSは「得点能力」を評価する指標でOn-base Plus Sluggingの略号。1.57x(出塁率)+(長打率)でチームの得点とチームのOPSの間には、相関係数0.95という高い相関がある。OPSは色んな経験的恣意的fittingが為されていることに注意。安打も四死球も両方に出てくるし、長打率には四死球に1、単打に2、二塁打に3、三塁打に4、本塁打に5という重み付けが付いている。出塁率の係数1.57は日本のプロ野球だけの係数のようだ。
第2章は「ホームランバッターか三割打者か?−「全員イチロー」vs「全員バレンティン」」。WARに用いたwRAAはweighed Runs Above Averageの略号で、四球、敬遠、死球、単打、失策出塁、二塁打、三塁打、本塁打にそれぞれの重み付けをした得点期待値を算出し、リーグ平均のそれとの差から、リーグの平均的な打者に比べ、どれだけ得点を増やすことができたかを示す指標になっている。
第3章は「防御率だけでは見えない名投手の条件−失点に占める投手の責任の割合」。WARに出てくるFIPはFielding Independent Pitchingの略号。投手の責任である「奪三振」「与四球+与死球−敬遠」「被本塁打」に重みをつけて投球回数ごとの値をだし、さらにリーグごとの補正値を加える。'13年では田中将大が抜群の2.08で、前田健太は2.69だった。
球団経営者は有望選手をスカウトする時なんぼ出すか考える。そのときものを言うのはWARの分布状態である。大谷はきっと3σを超えて4σほども行っていたのだろう。経営者はさらに人気がどうかを考えるだろう。それは人柄に直結しているはず。人柄だって統計学的解析に乗るのではないか。

('24/6/26)