過学習とは?初心者でもなんとな~くわかるAI用語解説!

AIはデータを学習することで賢くなっていきます。

しかし、『じゃあ、どんどんデータ詰め込んで学習しまくればええやんけ!!』と簡単にはいかないのです。

簡単に言うと、『え!?テスト勉強って答えを丸暗記したら100点取れるんじゃないの!?』とAI君が勘違いしているイメージです。

そもそも機械学習とは

過学習の話をする前に『ここから見始めたんですケド…』って方もいるかもなので、まずはざっくりと機械学習の仕組みをおさらいしておきましょうか。

機械学習とは『コンピューターが学習する技術』のことです。

機械学習にはデータを読み込んで特徴(特徴量)を学ぶ学習と学んだ特徴を使って推測などをする推論という2つの過程があります。

『まだ機械学習のイメージがつかめない!』方のために…

機械学習の詳しい仕組みについてこちらの記事で説明していますので、どうぞご一読ください。

👇こちらから読めます👀

過学習とは?

機械学習の目的は『用意したデータから特徴をつかみ、未知のデータを与えられたときどういった出力になるのかを予測する』事です。

つまり、未知のデータに対しての予測能力が高い(正確さが高い)AIモデルを作ることこそが機械学習の一番の目的です。

この『正確さ』のことを正解率と言います。

正解数をデータの数で割ったもので、1に近ければ近いほど賢いってことです。

さて、この正解率を上げるためにはコンピュータが学習の時にデータを読み込んで特徴を捉える必要があります。が…

あくまでもコンピュータは『教師データから特徴を学ぶだけ』。

学習データの量が多すぎたり、データが偏っていると学習データの余計なものまで特徴として学習してしまうのです。

そしてその特徴は推論の際、邪魔になることが多く、本来なら当てはまっているデータも『違う』と認識してしまいます。

学習の時は正解率が高かったのに、テストデータの時には著しく正解率が下がってしまう…。

この現象が『過学習(OverFitting)』です。

過学習はなぜ起こる?

もう少しわかりやすくなぜ過学習が起こるのかを見てみましょう。

例えばネコを判別するモデルがあったとします。

ちなみに今回は例として『教師データが多すぎた場合』で説明させてもらいましたが、これ以外にも過学習はデータが少ない場合や条件を増やしすぎた時などにも起こります。

つまり過学習はモデルが複雑な時に起こりやすいのです。

まとめ

今回は過学習についてざっくりと解説しました。

今回のまとめ
  • 過学習は偏った学習のせいで正解率が大きく下がってしまう現象のこと。
  • 正解率とはAIモデルの賢さを表す指標のことで、1に近いほど高い予測能力を持つ。
  • 過学習はモデルが複雑な時に起こりやすい。

過学習は教師あり学習をしているといつかは直面する問題です。

具体的な対処方法についてはまた今度解説しますのでお楽しみに~。