平均値の落とし穴

2009年2月10日

有意差あり!

t f B! P L
ファイナンスやマーケティングはMBAの代名詞みたいに用いられることが多いが、在学時、意外に苦戦するのが統計学である。

苦戦してでも我が物とするのは、統計学の出来、不出来により、後の研究の深みに差が出てしまうことを周知しているからである。

というより、研究開発者や設計者はタグチメソッド(実験計画法)や検定は多用するし、マーケターの守備範囲はアンケートから顧客選好など非常に広い。

結局、数学を根拠にしない者の理屈は「なんとなく~」でしかないのである。

よく聞く”平均値”は実はデータをよく吟味しないとわかりにくいものである。”平均値”と聞くと、感覚的には、「平均値が100ですよ」と言われると、100の人が多いのかなと思いがちであるが、下のグラフはいずれも平均値が100である。

○記事のヒストグラム(両データともn=100、平均値は100)
左のグラフでは、100周辺のデータが多そうであるが、右のグラフではよくわからない。

工場に勤務している方は、これまでの経験でよく存じておられるかもしれないが、問題のある工程などのデータを取得すると、右のグラフのように正規分布*に従わない場合が多い


工場では、安定が求められるが、安定とは、いわゆるバラツキが小さく、日々やロットの変動なども含めて、狙い値に近い品質を生産できることである。

要は、あるデータを取得し、なんでもかんでも平均値のみで評価、処理してしまうことは、何かの問題解決のヒントや重要なシグナルを見逃してしまう可能性が高いのである。

データの(標本の)分布の表現には、多くの統計量が用いられる。データによっては、中央値**や最頻値*** を含めたほうが、そのデータの様相をうまく表現している場合もある。

    **メディアン(median)、データの大きさに関してちょうど中央に当たるデータ。5つのデータであれば、3番目のデータ。
    ***モード(mode)、データのうち、度数分布において最も高い度数を示す値。最も多く現れているデータの値。
平均値に落とし穴があるというよりは、何かひとつの統計量のみを頼りにすることに落とし穴がある。

・・・データはいろいろ語ってくれてます。。。


<最頻値、中央値>
要約統計量(Wikipedia)を参照。

<お勧めの書籍>


photo by Maco

自己紹介

自分の写真
エンジニアの視点から、品質技法、解析技術、生成AIについて発信しています。 (シックスシグマ・ブラックベルト、MBA)

このブログを検索

ブログ アーカイブ

QooQ