Wekaを起動する(決定木分析③予測する)。

2007年8月26日

データマイニング

t f B! P L
wekaを使用して決定木分析を行うが、これまではデフォルトの設定で分析したが、詳細な分析条件の設定は以下の図で行うことが出来る。



画面の"more"をクリックすると説明がなされているが、おおまかには:
binarySplits=属性データ(例では天気、風など数値でないデータ)で決定木を作成する。
minNumObj=リーフごとのinstancesnの最小数。
seed=seed数を設定。
subtreeRaising=刈り込みの際の設定
unpruned=刈り込みを行うかどうか。

などであるが、種々の設定を行って分析して、アウトプットの"Correctly Classified Instances"における%の表示でモデルの精度が高い設定がよい。

さて、モデルを構築したら、企業実務では「予測」がメインワークとなる。
「この条件が○○で、あの条件が○○のとき、ゴルフへは行くのか?」である。

下のCSV形式ファイルは、weather.arffをweather.csvに保存し、エクセルで編集、CSV形式で保存したもので(「Wekaを起動する。」参照;wekaが使用しやすいのは、エクセルでデータ入力が行える点である→データ数がエクセルの行数(約6万桁)を超えない場合)、赤字の部分は予測したい条件を追記したものであり、"play"の部分には"?"を入力している。追記したファイルは"westher_2.csv"として保存している。このファイルを読み込み、分析を開始する。



ファイルを読み込んだら、上の設定で、あらかじめ、"Correctly Classified Instances"が高い条件を設定し、下の図のように、"More options..."をクリックし、"Output predictions"にチェックを入れ、"OK"をクリック、分析をstartする。




すると、上図がアウトプット画面に挿入されている。"actual"は実際のデータで、"predicted"は分類(予測)されたデータのことで、予測する際に"?"と入力した項目には"?"がアウトプットされていることがわかる。

従って、この条件での予測は"yes"である。

(「Wekaを起動する(決定木分析③予測する)。」了)
--> 次回は「因果関係を知る」です。

*ブログ中の図はクリックすれば、拡大されます。
*本ブログ記事の下「Labels」の「データマイニング」をクリックすると、データマイニングに関する記事が一括掲載されます。

自己紹介

自分の写真
エンジニアの視点から、品質技法、解析技術、生成AIについて発信しています。 (シックスシグマ・ブラックベルト、MBA)

このブログを検索

最近読み返した過去記事

テクニカルマネジャーの役割 1/2

昔、係長、今、テクニカルマネジャー いやに便利な受け皿となっている役職であるが、この周辺の役職次第で組織は大きく活性化する。何より、課長、部長は日頃のあまりにも繁多な業務の中、そう思っているであろう。 職務を分担したり、肩書きを付けたりすることは、だんだん人間が働かなくなるこ...

ブログ アーカイブ

QooQ