wekaを使用し決定木分析を行い、その因果関係を知ることが今回の目的である。前回まで、ゴルフをplayするか否かJ48を使用し分類、また、こちらが指定する条件での予測を行った。
さて、今回は、例において、「温度」は分類にはいらないのか?という疑問である。
結論からすれば、分析でそうなっていないのだから、分類の因子には入らない。
では、どのような因果関係にあるのであろうか?
その分析は"Bayesian"を使用し行う。ベイズの法則を利用したものである。
が、ここで特にベイズの法則を理解する必要はない。Wikipediaでの検索で十分である。
なぜなら、日頃エクセルで使用している線形グラフ(一次関数:y=ax+bに代表される)で、y=ax+bのa,bは最小二乗法で算出されているが、その数式や概念を理解して使用している人は・・・
下の図が手順である:
Classify:BaysNet:GeneticSearchを選択している。HillClimberでもよい。分析条件はデフォルトのまま行った。
下の結果を見比べてみると、J48で「温度」が分類されなかった理由が一目される。
「play」に関しては、「windy(風)」「humidity(湿度)」「outlook(天気)」が矢印で向かっているので、因果関係が存在する。「temperature(温度)」は湿度、天気に因果関係があり、playに寄与しにくいのである。
ここまでの分析では、企業実務では、データを分類、ある条件下での予測、モデルの精度を表明し、その解説として、「それは○○は△△な関係があるためです」とまで言えるのである。
Bayesianに関してはBayesianの使い方のページにて詳細に説明されています。ご参考ください。
(「Wekaを起動する(決定木分析④因果関係を知る)」了)
--> 次回は「記憶ベース推論」です。
*ブログ中の図はクリックすれば、拡大されます。
*本ブログ記事の下「Labels」の「データマイニング」をクリックすると、データマイニングに関する記事が一括掲載されます。
0 件のコメント:
コメントを投稿