Wekaを起動する(記憶ベース推論②)

2007年9月6日

データマイニング

t f B! P L
今回は、最近傍アプローチのイメージを掲載している。
最近傍アプローチは、過去に経験した類似の状況を元に分析を行う手法で、分類、推定、予測などの問題を解くために用いられ、記憶ベース推論、協調フィルタリングとしてよく説明されている。

記憶ベース推論で「k-NN(k-Nearest-Neighbor法)」とよく表現されるが、イメージは下の図である。
図のように、k個の近傍データを使用することから概念がイメージできる。




図のように、k個の近傍データを使用することから概念がイメージされる。

***kの予測の影響***
予測に求めることは、分散が小さく「実際の値とのズレが小さい、こと」である。このことを踏まえると、kを多くとると分散減少は減少する。が、もし、実際の値から外れていて分散が小さかったら・・・
つまり、やみくもに大きくしても予測精度は上がらない・・・
最適なkの値はデータの構造によって異なるのでk=1、3、5などいろいろ試してみることがお薦めである。

協調フィルタリングでは、予測する場合、類似ユーザの好みに基づいて,対象ユーザの好みに合いそうなアイテムを予測していることから、イメージは図のようになる。


Amazonで類似ユーザーが高く評価した本が推薦される、などはこの好例である。

(「Wekaを起動する(記憶ベース推論②)」了)
--> 次回は「ニューラルネットワーク」です。

*ブログ中の図はクリックすれば、拡大されます。
*本ブログ記事の下「Labels」の「データマイニング」をクリックすると、データマイニングに関する記事が一括掲載されます。

自己紹介

自分の写真
エンジニアの視点から、品質技法、解析技術、生成AIについて発信しています。 (シックスシグマ・ブラックベルト、MBA)

このブログを検索

ブログ アーカイブ

QooQ