Wekaを起動する（交差検証法）。-社会人MBA－技術者編：MBA技術者の視点

今回はモデルの精度についてである。分類モデルの生成では、その精度（Accuracy）が非常に重要であることは前回までに述べた。今後、種々の分析手法を紹介するが、それらは、何らかの方法でデータに対するモデルの精度を推定してやらなければならない。その代表的な方法が交差検証法（モデルの精度を推定する）である。下図で四角に囲んである部分がその設定である。

この方法では、まず元のデータをn個のブロックに分割し（通常10～20の値が用いられる）。その際、各ブロックに割り当てられる件数が同程度になるようにする。

と、ここで、「トレーニングデータ」と「テストデータ」の概念が必要である。
例で、ゴルフをplayするかどうかの決定木分析を行なったが、このデータ件数は14件である。

仮にこれを10件と4件に分割し、10件でモデルを作成する。作成されたモデルと4件を比較すると正答率が把握できる。このときの10件をトレーニングデータ、4件をテストデータと呼ぶ。訓練データ、教師データと呼ぶ場合もあるみたいである。

このようにしなければ、精度が求まらないのである。このことを交差検証法（モデルの精度を推定する）ではうまく表現していて：

「これは、受験勉強に例えることができます。参考書の問題を「解答をみながら」解いていけば、参考書に載っている問題ならばどのような問題でも100%正解できるようになるでしょう。だからといって、本番のテスト（解答は見れない!!）でも良い結果が得られるとは限りません。そこで、何らかの方法で未知のデータに対するモデルの精度を推定してやる必要がでてきます。受験勉強で言えば、「あなたは○○大学に合格できる確率は60%です」といった目安が必要になってきます」」

だそうである。

要は、例えば100件のデータを10件ごとに、A,B,C,D,E,F,G,H,I,Jと区切り、A～Iでモデルを作成し、Jで答えあわせを行なう。次に、B～Jでモデルを作成しAで答えあわせを行なう。更に、B以外でモデルを作成しBで答えあわせを行なう、更に・・・を続けて精度を算出しているのである。実務上は、決定木分析といえども、種々に条件を変えて行なうが、アウトプットで表示される「Correctly Classified Instances」の%に着目して、モデルの精度が高いものを採用すればよいのである。

（「Wekaを起動する（交差検証法）」了）
--> 次回は「決定木分析で予測」を行ないます。

＊ブログ中の図はクリックすれば、拡大されます。
＊本ブログ記事の下「Labels」の「データマイニング」をクリックすると、データマイニングに関する記事が一括掲載されます。

Wekaを起動する（交差検証法）。

0 件のコメント:

コメントを投稿

自己紹介

MBA技術者の視点

このブログを検索

ラベル

ブログアーカイブ