ウマ娘で学ぶ機械学習の考え方

 

見かけて、これはブログネタにちょうどいいと思ったものを題材。具体的に事例紹介するのは控えておいて、自分で要約。

 

状況:手元に「弧線のプロフェッサー」習得イベントが起きる直前のウマ娘の各情報と、その後の弧線のプロフェッサーが習得か否かのデータが十分揃っている

 

前提:弧線のプロフェッサーの習得率はスピード依存だということが公式に言及されている

 

問い:ここでスピードが本当に弧線のプロフェッサー習得に関係あるデータか判断し、どのように関係するかをモデル化しろといわれたら、あなたはどうする?

 

解答例は続きに

 

 

散布図を書くのが初手。ただ、1刻みだとデータ数が足りなそうなので、区間に区切る。

 

(1) スピードを50幅か25幅かに区切って、各区間に区切る。50ずつなら各区間に、1 (0-50) から 24(1150-1200) のように番号つける

(2) 区間別に習得率を求める

(3) 番号と成功率で散布図を描く

 

これが初手。やってみると成功率をスピードで表す予測モデル式がすぐ作れるみたいなので、初手で終わり。

 

 

解法は「エレガント」なものの方が好ましいという、数学が得意な人にはおなじみの考え方がある。機械学習を使わないで散布図描くだけで終わるなら、その方がずっとエレガント。

 

 

前にシャドウバースでも似たようなことがあったのでそちらも紹介する

 

「ゼウス(ファンファーレでランダム要素があるほう)の、各能力が発動するかどうかの確率を求める」

 

というテーマで、プロ選手達が一斉にエクセルで漸化式を作り出して、「ドモルガンの法則で一般解がすぐ出るのに、なんでエクセルで漸化式をわざわざ計算しているんだ」と思ったことがある。

 

2例とも自分は、機械学習でいう「過学習」を、人間が起こしていると捉えられるものだと考えている。

 

わたしの考える「機械学習における大事な考え方」を最後にまとめよう。機械学習において一番大事なことは、予測モデルの過学習を避けることではなく、扱う自分自身が過学習に陥らないことなのだ。