あなたは学校の先生で、「なるべく落第者を出さないこと」が使命だったとしよう。そこで、「授業についてこられない学生に補習をしたい」と思うわけだが、その年の成績が出る前に、落第しそうな生徒にだけ補習をするのは、意外に難しいものだ。
「授業がわからなかった人は補習に出るように」と呼びかけても、やる気のある生徒だけが出席し、本当に授業についてこられなかった生徒は出席しない。成績全体が悪い生徒を指名して出席させる形式にも問題がある。補習科目だけは得意だという生徒を指名してしまうかもしれないし、成績全体が平均でも、その科目だけが苦手な生徒も取りこぼしてしまう可能性もあるからだ。
授業が進んでから落第しそうな生徒がわかるのではもう遅い。できることなら、数回であっても、学生にわからない授業を聞かせたくない。授業よりも前に、誰がその授業をわからないのか知れるのが理想だ。
ここであなたが利用するデータは、「前年同じ授業を受けていた学生の成績一覧」と、「これから受け持つクラスの学生の過去の成績一覧」だ。前年のクラスでは、すでに誰が落第か確定している。前年のクラスの学生と、これから受け持つクラスの学生の過去の成績一覧を比べて、なるべくほかの教科の成績が似ている学生を、k人ずつ選ぶことにする。そうして、これから受け持つクラスの全員に、前年の学生をk人ずつ紐づけた後に、その人たちの合否の数を調べる。k人中不合格が合格を上回ったら、その学生を不合格候補者として補習クラスに呼ぶことにする。
この方法は「k近傍法」と呼ばれる、機械学習の方法だ。このやり方をすれば、どの科目の成績を、あなたがこれから受け持つ科目の合否予測に使うのか、自分では何も考えなくても合否を予想してもらうことができる。これが、機械学習の重要な性質だ。
先ほどはわかりやすく「似ている」と表現したが、k近傍法は、
3,400冊以上の要約が楽しめる