今回はモデルの精度についてである。分類モデルの生成では、その精度(Accuracy)が非常に重要であることは前回までに述べた。今後、種々の分析手法を紹介するが、それらは、何らかの方法でデータに対するモデルの精度を推定してやらなければならない。その代表的な方法が交差検証法(モデルの精度を推定する) である。下図で四角に囲んである部分がその設定である。
この方法では、まず元のデータをn個のブロックに分割し(通常10~20の値が用いられる)。その際、各ブロックに割り当てられる件数が同程度になるようにする。
と、ここで、「トレーニングデータ」と「テストデータ」の概念が必要である。
例で、ゴルフをplayするかどうかの決定木分析を行なったが、このデータ件数は14件である。
仮にこれを10件と4件に分割し、10件でモデルを作成する。作成されたモデルと4件を比較すると正答率が把握できる。このときの10件をトレーニングデータ、4件をテストデータと呼ぶ。訓練データ、教師データと呼ぶ場合もあるみたいである。
このようにしなければ、精度が求まらないのである。このことを交差検証法(モデルの精度を推定する) ではうまく表現していて:
「これは、受験勉強に例えることができます。参考書の問題を「解答をみながら」解いていけば、参考書に載っている問題ならばどのような問題でも100%正解できるようになるでしょう。だからといって、本番のテスト(解答は見れない!!)でも良い結果が得られるとは限りません。そこで、何らかの方法で未知のデータに対するモデルの精度を推定してやる必要がでてきます。受験勉強で言えば、「あなたは○○大学に合格できる確率は60%です」といった目安が必要になってきます」」
だそうである。
要は、例えば100件のデータを10件ごとに、A,B,C,D,E,F,G,H,I,Jと区切り、A~Iでモデルを作成し、Jで答えあわせを行なう。次に、B~Jでモデルを作成しAで答えあわせを行なう。更に、B以外でモデルを作成しBで答えあわせを行なう、更に・・・を続けて精度を算出しているのである。実務上は、決定木分析といえども、種々に条件を変えて行なうが、アウトプットで表示される「Correctly Classified Instances」の%に着目して、モデルの精度が高いものを採用すればよいのである。
(「Wekaを起動する(交差検証法)」了)
--> 次回は「決定木分析で予測」を行ないます。
*ブログ中の図はクリックすれば、拡大されます。
*本ブログ記事の下「Labels」の「データマイニング」をクリックすると、データマイニングに関する記事が一括掲載されます。
0 件のコメント:
コメントを投稿