*少し、前置きがありますが、本記事タイトルの本題は、下のリンクからはじまります。(こちらをクリックすると下部に移動します)。
(追記)画像は投稿時と差し替えています、またChatGPTを使用した有意差検定の記事はこちら「実務でのChatGPT(統計 有意差検定+箱ひげ図:Data Analyst)」(2024年2月)
F検定、t検定* など、バラツキや平均値の検定は工程管理には欠かせない検定である。
* F検定:データとデータのバラツキに差があるかどうかの仮説検定で、2つの分散の比を検査してその同等性を決定する。
t検定:独立な2サンプルの平均値に有意性があるかどうかの際に行われる検定。複数のサンプルの場合は、ANOVA(分散分析や等分散性の検定)が好適。
これらの判定は、要は、有意性があるのかないのか、に尽きる。平均値であれば、例えば、ある平均値「90」と「95」に違いがあるとしていいのか否か、である。
その基準になるのは、p-値であるが、統計ソフトMinitabのヘルプを引用すると―
というものである。要は、各種の検定で計算される統計量(各種の分布に従う統計量)から確率を把握するものである。
一般的には、p-値は0.05(5%)、0.01(1%)が用いられ、検定での計算結果が、それぞれ0.05、0.01より小さければ有意性がある、としている。
さて、前置きは長くなったが、p-値に関する“よくある疑問”は―
①発表ではどう言えばいいのか?
②後だしジャンケン問題
である。
・発表ではどう言えばいいのか?
実際の現場、発表会や報告書などでは:
「あ、有意ですよ、それ」
「有意性が認められ・・・」
などとは口頭では言えるが、資料上では、「有意性あり!」など、ポップのごとく強調したり、統計ソフトの検定の画面をキャプチャしても何か足りない感じがする(重みがない)。
従って、報告書的なものとしても通用するようにするには、文書でもしっくりくる表現が望まれる***。
*** 資料は発表用、報告書用と別々であることが望ましいが、実際には、両方をまとめるような時間はないので、兼用でも耐えうるものになってしまう。
その際には、例えば、有意水準に0.05を適用したのであれば―
「有意水準5%において有意である(でない)。」
というのは、無難である。これで問題ない。
・後だしジャンケン問題
次に、その有意水準は、どうやって決まっているのか?であるが、例えば、ある検定で、p-値が0.075であったとする。
p-値は、統計量を変換したものであるため、その検定での統計量がいくつであれ、有意か否かは関係ない。それはこちらの判断なのである(こちらの設定している有意水準次第)。
だから―
(検定の結果)
「有意水準10%において有意であった。」
「有意水準5%において有意でなかった。」
と、どちらでもいいことになる。
経験的には、工場でのQCでは一般的に用いられる0.05、社会科学分野(MBAの課程で出てきそうな)での調査では0.01、実験室での実験では0.10~0.20を用いていた。
もちろん―
であり、p-値にあわせて有意水準を変更することは後だしジャンケンである。
様々な産業、様々な工程の中で、その能力や、どの程度の変化で、結果に有意性を及ぼすほどの影響があるのかは、はっきり言ってわからない(一概に言えない)。
当該工場(企業)でこれまでに積上げてきた知見がモノをいう。
最後に――
何らかのプロジェクトで問題に対処していく際の、統計や数値解析に関わる方法論は幾多にものぼるが、最も評価しなければならないことは、問題自体が発生しないこと(=予防的行動)である。
そして、問題が発生しないように、日々、日陰ともいえる地道に品質を保つ作業をしていることに、(プロジェクトなどで)問題を解決した以上にレベルの高い評価が必要であろう。
・・・「だれでも知っているとおり、現実的、永続的な改善は、大部分が日常の退屈でつらい仕事の連続から生まれる。」[2]
<参考文献>
[1] 永田靖, 『統計的方法のしくみ―正しく理解するための30の急所』, 日科技連, 2001, 16章 P値; p102 より。
[2] 大前研一, 田口統吾翻訳, 『ボーダレス・ワールド』, プレジデント社, 1990, p330, 「第12章 地道な努力」より。
* F検定:データとデータのバラツキに差があるかどうかの仮説検定で、2つの分散の比を検査してその同等性を決定する。
t検定:独立な2サンプルの平均値に有意性があるかどうかの際に行われる検定。複数のサンプルの場合は、ANOVA(分散分析や等分散性の検定)が好適。
これらの判定は、要は、有意性があるのかないのか、に尽きる。平均値であれば、例えば、ある平均値「90」と「95」に違いがあるとしていいのか否か、である。
その基準になるのは、p-値であるが、統計ソフトMinitabのヘルプを引用すると―
仮説検定において、帰無仮説**を棄却するかどうかを判断するために使用します。p-値は、帰無仮説が真の場合に、実際の計算された値と同程度以上に極端な検定統計量が得られる確率です。一般に使用されるp-値の基準値は0.05です。たとえば、ある検定統計量の計算されたp-値が0.05より小さい場合は、帰無仮説を棄却します。** 帰無仮説、対立仮説については「仮説検定(Wikipedia)」参照。
というものである。要は、各種の検定で計算される統計量(各種の分布に従う統計量)から確率を把握するものである。
一般的には、p-値は0.05(5%)、0.01(1%)が用いられ、検定での計算結果が、それぞれ0.05、0.01より小さければ有意性がある、としている。
* * * * * * *
さて、前置きは長くなったが、p-値に関する“よくある疑問”は―
①発表ではどう言えばいいのか?
②後だしジャンケン問題
である。
・発表ではどう言えばいいのか?
実際の現場、発表会や報告書などでは:
「あ、有意ですよ、それ」
「有意性が認められ・・・」
などとは口頭では言えるが、資料上では、「有意性あり!」など、ポップのごとく強調したり、統計ソフトの検定の画面をキャプチャしても何か足りない感じがする(重みがない)。
従って、報告書的なものとしても通用するようにするには、文書でもしっくりくる表現が望まれる***。
*** 資料は発表用、報告書用と別々であることが望ましいが、実際には、両方をまとめるような時間はないので、兼用でも耐えうるものになってしまう。
その際には、例えば、有意水準に0.05を適用したのであれば―
「有意水準5%において有意である(でない)。」
というのは、無難である。これで問題ない。
・後だしジャンケン問題
次に、その有意水準は、どうやって決まっているのか?であるが、例えば、ある検定で、p-値が0.075であったとする。
p-値は、統計量を変換したものであるため、その検定での統計量がいくつであれ、有意か否かは関係ない。それはこちらの判断なのである(こちらの設定している有意水準次第)。
だから―
(検定の結果)
「有意水準10%において有意であった。」
「有意水準5%において有意でなかった。」
と、どちらでもいいことになる。
経験的には、工場でのQCでは一般的に用いられる0.05、社会科学分野(MBAの課程で出てきそうな)での調査では0.01、実験室での実験では0.10~0.20を用いていた。
もちろん―
有意であるか否かを判定するための有意水準をデータを取るに先だって決めておくことが原則である[1]。
であり、p-値にあわせて有意水準を変更することは後だしジャンケンである。
様々な産業、様々な工程の中で、その能力や、どの程度の変化で、結果に有意性を及ぼすほどの影響があるのかは、はっきり言ってわからない(一概に言えない)。
当該工場(企業)でこれまでに積上げてきた知見がモノをいう。
最後に――
何らかのプロジェクトで問題に対処していく際の、統計や数値解析に関わる方法論は幾多にものぼるが、最も評価しなければならないことは、問題自体が発生しないこと(=予防的行動)である。
そして、問題が発生しないように、日々、日陰ともいえる地道に品質を保つ作業をしていることに、(プロジェクトなどで)問題を解決した以上にレベルの高い評価が必要であろう。
・・・「だれでも知っているとおり、現実的、永続的な改善は、大部分が日常の退屈でつらい仕事の連続から生まれる。」[2]
<参考文献>
[1] 永田靖, 『統計的方法のしくみ―正しく理解するための30の急所』, 日科技連, 2001, 16章 P値; p102 より。
[2] 大前研一, 田口統吾翻訳, 『ボーダレス・ワールド』, プレジデント社, 1990, p330, 「第12章 地道な努力」より。
0 件のコメント:
コメントを投稿