社会人MBA-技術者編

August 19, 2007

Wekaを起動する(決定木分析①)

このシリーズ(データマイニング入門-weka)はこちらにPDF化しています。ご参照ください。
データマイニングの分類と簡単な説明はこちらです。

まず、「習うより慣れろ」だと思う。今回は、とりあえず、決定木を作成する手順を紹介する。データは、weather.arffを用いる(この投稿のシリーズでも掲載したが、csv形式でもファイルを読めるので実用上はエクセルでデータ作成→csv形式で保存→wekaで読み込みの流れになるが、説明のためインストールするとお試し用に作成されているデータを用いている。記事の投稿の最後のほうに"Labels"があり"データマイニング"を選択すると関連記事が並んで表示されます)。

ファイルの読み込みは、下のとおり(クリックすると拡大されます)。
wekaを起動し、"Explorer"をクリック、"Open file..."をクリックし、指定のファイル(weather.arff)を開く。


次に、"Classify"タブをクリック、"Chooes"タブをクリックし"tree"の"J48"を選択する。


下の画面の設定で"start"をクリックする。すると、アウトプット画面に結果が表示されていることが確認できる。


さらに、下の画面の操作に従い、操作すると、決定木が作成されていることが分かる。データマイニングの決定木分析が完了したのである。あまりにもあっけないので拍子抜けするかもしれない。


--> 次回はこの分析結果の解説を行います。

(「Wekaを起動する(決定木分析①)」了)

データマイニングに関する種々のサイト
http://www.weka-jp.info/
Wekaの日本語情報のページ
http://www.kdnuggets.com/
データマニングのためのフリーソフトを紹介する有名なページ(英語)。
http://www.mindware-jp.com/kdnuggets/index.html
上の関連サイト(日本語)
http://bruch.sfc.keio.ac.jp/course/DM01/man-a.html
相関ルールの分析が行えるフリーソフトaprioriがダウンロードできる。
大学関係のページで使用法が詳しい。
http://www1.doshisha.ac.jp/~mjin/R/200611_40.pdf
相関ルール分析の報告(同志社大学 金明哲教授による)
*報告関係はこれ以外に検索サイトで多くヒットします。
http://musashi.sourceforge.jp/
MUSASHIのページ。「MUSASHIは、当初、ビジネスにおけるデータマイニングの実施に必要となる、大量データ処理のために開発されたコマンド群です。MUSASHIが処理対象とするデータはXMLで記述されたXMLtableもしくはPlain Textによる表構造のデータです。マシンのスペックにもよりますが、数百万件~数千万件のデータ処理が可能です」本文より。

*本ブログ記事の下「Labels」の「データマイニング」をクリックすると、データマイニングに関する記事が一括掲載されます。

Labels:


0 Comments:

Post a Comment

<< Home