Wekaを起動する。

2007年8月16日

データマイニング

t f B! P L
Weka ページにてダウンロード、インストールが終了したら、Wekaを起動する。起動すると右のような画面が現れる。"Explorer"が実際のマイニングを行なうコマンドである。"knowledgeFlow"はマイニング作業のフローをアイコンを使用し、実際に計算も実施することができる。

が!使用したことはない。"Explorer"からで問題ない。
試しに、適当でよいのでアイコンを配置してみると・・・そういえば、提供企業がマイニング作業の説明にこの画面に似た画面を使用して説明してくださった。

問題は、使用者が「どのようなデータを用いて、何をマイニングしたいのか」である。
例えば、ショップのレシートからどの商品と、どの商品の組み合わせがよく売れているのか?(ちなみに一般的にこの分野で言われているのは”ビール”と”おむつ”です)、またある商品を購入した人は、次にどのような商品を購入している確率が高いのか?などである。

典型的には、コンビニエンスストアにて、レジ打ちの際に、性別と年代を入力している(よーくレジを見てみて下さい。受け取った金額を入力したあとに押すボタンです)。これと天候などの情報を組み合わせて、発注する商品を決定する。これこそ、マイニングである。また、現在はポイントカードを使用する店も多く性別などの属性、購入商品履歴が店に保存されているため、大手電器量販店などの棚の配置換えはそのデータに基づいて行なっているのである。

さて、作業に戻り、次に"Explorer"を押すと下の画面が出てくる。

画面左の"Open file.."をクリックしファイルを読み込み、分析を開始させるのである。おそらく、最初の起動時には、Wekaをインストールしたドライブのprogram filesフォルダ内にあるWekaフォルダが参照され、その中のdataフォルダ内が見えるはずである。ファイルの拡張子はarffである(***.arffとなっていて鳥のようなアイコン)。

とここまでくると、「じゃ、arffデータはどうやって作るのか」と知りたくなるが、分析すべきデータが6万桁以下の場合は、csvファイルで行なえる。ちなみに、"Open file.."をクリックし"weather.arff"を開き、上の画面の右上"Save"でファイルをcsv形式に変更して保存してみる。これを立ち上げたものが、下の画面。


この画面から、このデータは、「天気」「温度」「湿度」「風」により「Play」するかどうかのデータである(*playはゴルフ)。逆に言うと、一行目に属性や因子、それ以降にデータを入力する形をとれば、エクセル内でデータを作成し、csv形式で保存したファイルを使用することが可能である。

とりあえず、今後の分析はこのデータを使用していきますのでご確認ください。

(「wekaの起動」了)

*データマイニングに関しては学術分野での活用は進んでいますが、企業実務では?なのですが、本当に参考になる日本語の参考図書はあまりありません。当然、Wekaのようなソフトを使用しての解説本は皆無です。ただ、大よその分析の原理などを丁寧に記載してあるのは下の図書ですので、よければ参考にしてください。


自己紹介

自分の写真
エンジニアの視点から、品質技法、解析技術、生成AIについて発信しています。 (シックスシグマ・ブラックベルト、MBA)

このブログを検索

ブログ アーカイブ

QooQ