Wekaを起動する(決定木分析④因果関係を知る)。

2007年8月27日

データマイニング

t f B! P L
wekaを使用し決定木分析を行い、その因果関係を知ることが今回の目的である。前回まで、ゴルフをplayするか否かJ48を使用し分類、また、こちらが指定する条件での予測を行った。

さて、今回は、例において、「温度」は分類にはいらないのか?という疑問である。
結論からすれば、分析でそうなっていないのだから、分類の因子には入らない。
では、どのような因果関係にあるのであろうか?

その分析は"Bayesian"を使用し行う。ベイズの法則を利用したものである。
が、ここで特にベイズの法則を理解する必要はない。Wikipediaでの検索で十分である。

なぜなら、日頃エクセルで使用している線形グラフ(一次関数:y=ax+bに代表される)で、y=ax+bのa,bは最小二乗法で算出されているが、その数式や概念を理解して使用している人は・・・

下の図が手順である:
Classify:BaysNet:GeneticSearchを選択している。HillClimberでもよい。分析条件はデフォルトのまま行った。


下の結果を見比べてみると、J48で「温度」が分類されなかった理由が一目される。
「play」に関しては、「windy(風)」「humidity(湿度)」「outlook(天気)」が矢印で向かっているので、因果関係が存在する。「temperature(温度)」は湿度、天気に因果関係があり、playに寄与しにくいのである。



ここまでの分析では、企業実務では、データを分類、ある条件下での予測、モデルの精度を表明し、その解説として、「それは○○は△△な関係があるためです」とまで言えるのである。


Bayesianに関してはBayesianの使い方のページにて詳細に説明されています。ご参考ください。


(「Wekaを起動する(決定木分析④因果関係を知る)」了)
--> 次回は「記憶ベース推論」です。

*ブログ中の図はクリックすれば、拡大されます。
*本ブログ記事の下「Labels」の「データマイニング」をクリックすると、データマイニングに関する記事が一括掲載されます。

自己紹介

自分の写真
エンジニアの視点から、品質技法、解析技術、生成AIについて発信しています。 (シックスシグマ・ブラックベルト、MBA)

このブログを検索

ブログ アーカイブ

QooQ