苦戦してでも我が物とするのは、統計学の出来、不出来により、後の研究の深みに差が出てしまうことを周知しているからである。
というより、研究開発者や設計者はタグチメソッド(実験計画法)や検定は多用するし、マーケターの守備範囲はアンケートから顧客選好など非常に広い。
結局、数学を根拠にしない者の理屈は「なんとなく~」でしかないのである。
よく聞く”平均値”は実はデータをよく吟味しないとわかりにくいものである。”平均値”と聞くと、感覚的には、「平均値が100ですよ」と言われると、100の人が多いのかなと思いがちであるが、下のグラフはいずれも平均値が100である。
○記事のヒストグラム(両データともn=100、平均値は100)
左のグラフでは、100周辺のデータが多そうであるが、右のグラフではよくわからない。
工場に勤務している方は、これまでの経験でよく存じておられるかもしれないが、問題のある工程などのデータを取得すると、右のグラフのように正規分布*に従わない場合が多い。
- *分布には多くの種類があり、下のサイトでは種々の分布について簡単に記載しています。
→確率分布-種々の分布の特徴
工場では、安定が求められるが、安定とは、いわゆるバラツキが小さく、日々やロットの変動なども含めて、狙い値に近い品質を生産できることである。
要は、あるデータを取得し、なんでもかんでも平均値のみで評価、処理してしまうことは、何かの問題解決のヒントや重要なシグナルを見逃してしまう可能性が高いのである。
データの(標本の)分布の表現には、多くの統計量が用いられる。データによっては、中央値**や最頻値*** を含めたほうが、そのデータの様相をうまく表現している場合もある。
- **メディアン(median)、データの大きさに関してちょうど中央に当たるデータ。5つのデータであれば、3番目のデータ。
***モード(mode)、データのうち、度数分布において最も高い度数を示す値。最も多く現れているデータの値。
・・・データはいろいろ語ってくれてます。。。
<最頻値、中央値>
要約統計量(Wikipedia)を参照。
<お勧めの書籍>
photo by Maco
0 件のコメント:
コメントを投稿