wekaを使用して決定木分析を行うが、これまではデフォルトの設定で分析したが、詳細な分析条件の設定は以下の図で行うことが出来る。
画面の"more"をクリックすると説明がなされているが、おおまかには:
binarySplits=属性データ(例では天気、風など数値でないデータ)で決定木を作成する。
minNumObj=リーフごとのinstancesnの最小数。
seed=seed数を設定。
subtreeRaising=刈り込みの際の設定
unpruned=刈り込みを行うかどうか。
などであるが、種々の設定を行って分析して、アウトプットの"Correctly Classified Instances"における%の表示でモデルの精度が高い設定がよい。
さて、モデルを構築したら、企業実務では「予測」がメインワークとなる。
「この条件が○○で、あの条件が○○のとき、ゴルフへは行くのか?」である。
下のCSV形式ファイルは、weather.arffをweather.csvに保存し、エクセルで編集、CSV形式で保存したもので(「Wekaを起動する。」参照;wekaが使用しやすいのは、エクセルでデータ入力が行える点である→データ数がエクセルの行数(約6万桁)を超えない場合)、赤字の部分は予測したい条件を追記したものであり、"play"の部分には"?"を入力している。追記したファイルは"westher_2.csv"として保存している。このファイルを読み込み、分析を開始する。
ファイルを読み込んだら、上の設定で、あらかじめ、"Correctly Classified Instances"が高い条件を設定し、下の図のように、"More options..."をクリックし、"Output predictions"にチェックを入れ、"OK"をクリック、分析をstartする。
すると、上図がアウトプット画面に挿入されている。"actual"は実際のデータで、"predicted"は分類(予測)されたデータのことで、予測する際に"?"と入力した項目には"?"がアウトプットされていることがわかる。
従って、この条件での予測は"yes"である。
(「Wekaを起動する(決定木分析③予測する)。」了)
--> 次回は「因果関係を知る」です。
*ブログ中の図はクリックすれば、拡大されます。
*本ブログ記事の下「Labels」の「データマイニング」をクリックすると、データマイニングに関する記事が一括掲載されます。
0 件のコメント:
コメントを投稿