Wekaを起動する（決定木分析③予測する）。-社会人MBA

wekaを使用して決定木分析を行うが、これまではデフォルトの設定で分析したが、詳細な分析条件の設定は以下の図で行うことが出来る。

画面の"more"をクリックすると説明がなされているが、おおまかには：
binarySplits=属性データ（例では天気、風など数値でないデータ）で決定木を作成する。
minNumObj=リーフごとのinstancesnの最小数。
seed=seed数を設定。
subtreeRaising＝刈り込みの際の設定
unpruned=刈り込みを行うかどうか。

などであるが、種々の設定を行って分析して、アウトプットの"Correctly Classified Instances"における％の表示でモデルの精度が高い設定がよい。

さて、モデルを構築したら、企業実務では「予測」がメインワークとなる。
「この条件が○○で、あの条件が○○のとき、ゴルフへは行くのか？」である。

下のCSV形式ファイルは、weather.arffをweather.csvに保存し、エクセルで編集、CSV形式で保存したもので（「Wekaを起動する。」参照；wekaが使用しやすいのは、エクセルでデータ入力が行える点である→データ数がエクセルの行数（約6万桁）を超えない場合）、赤字の部分は予測したい条件を追記したものであり、"play"の部分には"?"を入力している。追記したファイルは"westher_2.csv"として保存している。このファイルを読み込み、分析を開始する。

ファイルを読み込んだら、上の設定で、あらかじめ、"Correctly Classified Instances"が高い条件を設定し、下の図のように、"More options..."をクリックし、"Output predictions"にチェックを入れ、"OK"をクリック、分析をstartする。

すると、上図がアウトプット画面に挿入されている。"actual"は実際のデータで、"predicted"は分類（予測）されたデータのことで、予測する際に"?"と入力した項目には"?"がアウトプットされていることがわかる。

従って、この条件での予測は"yes"である。

（「Wekaを起動する（決定木分析③予測する）。」了）
--> 次回は「因果関係を知る」です。

＊ブログ中の図はクリックすれば、拡大されます。
＊本ブログ記事の下「Labels」の「データマイニング」をクリックすると、データマイニングに関する記事が一括掲載されます。

Wekaを起動する（決定木分析③予測する）。

自己紹介

MBA技術者の視点

このブログを検索

最近読み返した過去記事

テクニカルマネジャーの役割 1/2

ラベル

ブログアーカイブ