見かけて、これはブログネタにちょうどいいと思ったものを題材。具体的に事例紹介するのは控えておいて、自分で要約。
状況:手元に「弧線のプロフェッサー」習得イベントが起きる直前のウマ娘の各情報と、その後の弧線のプロフェッサーが習得か否かのデータが十分揃っている
前提:弧線のプロフェッサーの習得率はスピード依存だということが公式に言及されている
問い:ここでスピードが本当に弧線のプロフェッサー習得に関係あるデータか判断し、どのように関係するかをモデル化しろといわれたら、あなたはどうする?
解答例は続きに
散布図を書くのが初手。ただ、1刻みだとデータ数が足りなそうなので、区間に区切る。
(1) スピードを50幅か25幅かに区切って、各区間に区切る。50ずつなら各区間に、1 (0-50) から 24(1150-1200) のように番号つける
(2) 区間別に習得率を求める
(3) 番号と成功率で散布図を描く
これが初手。やってみると成功率をスピードで表す予測モデル式がすぐ作れるみたいなので、初手で終わり。
解法は「エレガント」なものの方が好ましいという、数学が得意な人にはおなじみの考え方がある。機械学習を使わないで散布図描くだけで終わるなら、その方がずっとエレガント。
前にシャドウバースでも似たようなことがあったのでそちらも紹介する
「ゼウス(ファンファーレでランダム要素があるほう)の、各能力が発動するかどうかの確率を求める」
というテーマで、プロ選手達が一斉にエクセルで漸化式を作り出して、「ドモルガンの法則で一般解がすぐ出るのに、なんでエクセルで漸化式をわざわざ計算しているんだ」と思ったことがある。
2例とも自分は、機械学習でいう「過学習」を、人間が起こしていると捉えられるものだと考えている。
わたしの考える「機械学習における大事な考え方」を最後にまとめよう。機械学習において一番大事なことは、予測モデルの過学習を避けることではなく、扱う自分自身が過学習に陥らないことなのだ。