前回掲載したarff形式のデータはどのように作成されているのか?
下の画面がその答えとなる。前回掲載(このブログの前の記事)のcsv形式のデータと比較すると違いがよくわかる。
「あープログラムなのかぁ」と思われるかも知れないが、私もこの分野は素人であるが、使うことが出来ているので、安心(!?どういう意味で!?)である。確かXML形式でもこのような形式だったと思う。
仕組みは以下である。
一行目の@relation weather は名前とする。ちなみに、プログラムに関係のないコメントを挿入する際は、文頭に「%」をつけて記入していることが多い。
次に、「@attribute」で属性や因子を宣言する。「outlook」の場合「{sunny, overcast, rainy}」のいずれか、という属性データになる。「temperature」の場合"real"としてあるのは、数値が入る宣言である。このように属性や因子を宣言していけばよい。
そして、@data以下に「,」を区切りとしてデータが入力されているのである。
ズボラな私は、このデータの上書きで分析対象ファイルを作成し、活用している。素人なのでこの方法が手堅い。これだと、(汎用PCであっても)データが数万桁であろうが対応できる。
「で、あなたは、上の画面をどうやって見てるの?」
これは「TeraPad」というテキストエディタを使用している。これもフリーソフトなので非常に便利である。
データマイニングは統計解析のように論理的に回答が算出されるわけではない。あぁいう傾向、こうゆう傾向、など、分析の方法を変化させれば、百人が百人同じ行動をするわけでない様に種々に傾向が見つかるものである。それを踏まえてどのような行動をするかは戦略である。
今後紹介する分析が「サラリーマンのお小遣い」程度の出費で行なえる(いやネットをサーフすれば、投資はほとんどいらないかもしれない)のであれば、結局は、取得しているデータの傾向がつかめればいいのであれば・・・「安いにこしたことはない*」
本ブログ記事の下「Labels」の「データマイニング」をクリックすると、データマイニングに関する記事が一括掲載されます。(本文中の*はその昔、(全盛期の頃の)ダイエーの中内氏が膨大なデータを分析するシステムの提案を受けていた時、そういったそうです)
(Wekaを起動する(補足)了)
次回は決定木分析です。
0 件のコメント:
コメントを投稿