ウマ娘で学ぶ機械学習の考え方

見かけて、これはブログネタにちょうどいいと思ったものを題材。具体的に事例紹介するのは控えておいて、自分で要約。

状況：手元に「弧線のプロフェッサー」習得イベントが起きる直前のウマ娘の各情報と、その後の弧線のプロフェッサーが習得か否かのデータが十分揃っている

前提：弧線のプロフェッサーの習得率はスピード依存だということが公式に言及されている

問い：ここでスピードが本当に弧線のプロフェッサー習得に関係あるデータか判断し、どのように関係するかをモデル化しろといわれたら、あなたはどうする？

解答例は続きに

散布図を書くのが初手。ただ、1刻みだとデータ数が足りなそうなので、区間に区切る。

(1) スピードを50幅か25幅かに区切って、各区間に区切る。50ずつなら各区間に、1 (0-50) から 24(1150-1200) のように番号つける

(2) 区間別に習得率を求める

(3) 番号と成功率で散布図を描く

これが初手。やってみると成功率をスピードで表す予測モデル式がすぐ作れるみたいなので、初手で終わり。

解法は「エレガント」なものの方が好ましいという、数学が得意な人にはおなじみの考え方がある。機械学習を使わないで散布図描くだけで終わるなら、その方がずっとエレガント。

前にシャドウバースでも似たようなことがあったのでそちらも紹介する

「ゼウス（ファンファーレでランダム要素があるほう）の、各能力が発動するかどうかの確率を求める」

というテーマで、プロ選手達が一斉にエクセルで漸化式を作り出して、「ドモルガンの法則で一般解がすぐ出るのに、なんでエクセルで漸化式をわざわざ計算しているんだ」と思ったことがある。

2例とも自分は、機械学習でいう「過学習」を、人間が起こしていると捉えられるものだと考えている。

わたしの考える「機械学習における大事な考え方」を最後にまとめよう。機械学習において一番大事なことは、予測モデルの過学習を避けることではなく、扱う自分自身が過学習に陥らないことなのだ。