Weka どうマイニングする?

2007年8月14日

データマイニング

t f B! P L
Data mining --- データマイニングはといえば、大量のデータを取り扱う、特別なPC、指導が必要である、など思われているかも知れないが、企業の実務レベルにおいては、これだけインターネットが普及し、情報が溢れている状況では、特別な手法ではなくなってきている。

これを使用していくのに、統計をマスターしなくては!?ということもいらない。やっていくうちにわからない用語が出てくれば、調べればいいだけのことである。ネットで調べるもよし、いやテキストがなくては・・・と考える方は下のテキストは参考になる。

考えてみれば簡単なことだが、製造業で開発設計者が利用する「実験計画法」は最適解を求めるために使用するが、彼らが、数量化理論を理解しているだろうか?彼らは、何かひとつの方法をマスターしていき、そこを基点として、種々の方法や理論をマスターしているのである。

確かに数学的素養は必要である。が、それは、車の運転に慣れてから車の仕組みに詳しくなっても問題がないレベルの話である。

ビジネス実務は出来た者勝ちである。英語はしゃべれたほうがいいし、数字の分析に強いほうが得である。同時に、出来る者を知っていることも重要である。ならば、高額に位置づけられているデータマイニングを最小限の投資(サラリーマンのお小遣いの範囲)で手元に置くことは確かな情報ソースへアクセスすることである。

それは、釈迦に説法だが、ソフトには必ずフリーが存在することを知ることである。かつ、このケースの場合、日本ではソフトウェアの開発は学術的に評価が低いことが現状であるが、ならば、それが「高い」国や地域へアクセスすればよい。

私が使用しているのは、Weka と呼ばれるニュージーランドの大学で開発されたソフトである(フリーソフトです)。テキストは下にあるとおりで、やや高額な書籍(かつ英語)であるが、云百万(いやPC込み、ネットワーク構築云々といって更に高い金額)かかることを考えると、企業の実務レベルでの使用では、経費すら落ちない価格かもしれない。

ネットをサーフすると、使用の仕方をブログ等で指南したり、実施例の報告などされており、時間とともにその使用方法を理解するであろう。

そこで、あなたは必ず落胆する。決定木分析、ニューラルネットワーク、リコメンデーション(k-nnによる)、相関ルール・・・これらはソリューションを提供するものではないのである。

例えば・・・
高度成長期の日本のGDPを年代ごとにプロットすると右肩あがりであることがわかる。この「右肩あがり」がマイニングした結果なのである。

あなたのショップで、ある企業の商品Aと別の企業の商品B、Cが同時に購入されている割合が高いことが判明した。この判明したことがマイニングなのである。

商品A,B,Cを同じページ(ネットショップだとすると)に掲載することも、Aを選択する人にBを薦めることも、また、amazonのように「このような商品を購入された方は・・」とCを紹介することも・・・あなたの経営判断なのである。

ここまで注目されるようになったのは、企業の実験室レベルでの数十から数百レベルのn数ではなくて、百貨店で発行したレシート総数を分析できるなど、マスデータを取扱い、かつ傾向を分析できるからである。(ご存知のようにエクセルでは6万桁程度しかないのでそれ以上の数を取り扱うことは難しい)

と、ここまでくれば、それらに膨大なコストをかけるのは馬鹿らしくなってしまう。実際、私もデータマイニングを提供してくれる企業と幾度が打ち合わせを行い、自社への導入状況(より拡大するかなど)を検討してきたが、答えはNoである。イニシアティブをこちら側へ移行できないので、いつまでも保守点検費などを支払わなければならず、また、システム自体が眠ってしまっている・・・(従業員が使わない、使えない、わからない)。

結局、何が出来て、何を実現できるかを把握していないという本質的問題なのである。(提供企業の問題ではありません)

従って、本ブログでは、まず簡便にソフトを使用いただくため、Weka を使用した代表的な分析の方法を順次公開し、皆様のお役に立てればと考えています。


・・・私もデータマイニングを銀の弾丸と考えていたんですよ・・・。

<参考図書>

自己紹介

自分の写真
エンジニアの視点から、品質技法、解析技術、生成AIについて発信しています。 (シックスシグマ・ブラックベルト、MBA)

このブログを検索

ブログ アーカイブ

QooQ