実務でのChatGPT(統計 有意差検定+箱ひげ図:Data Analyst)

2024年2月23日

03 解析技術の視点 AI備忘録 実務でのChatGPT 統計解析

t f B! P L

「成形工程改善したんだって?」

「そう、周囲の温度の影響を受けているから、センサーを付けて制御したの」

「で、結果は?」-> このような時は、有意性を知りたいですよね。




次のデータ;成形工程の何らかのアウトプットを以下として、解析を進めます。
*データは、csvファイルをアップしました。 

解析で使用したデータ

ここでは、最終的に平均値は有意性を有するか否かを検定することが目的です。この際、検定の流れは以下のようになります。

  1. データが正規分布に従うか?
  2. ばらつきに有意差があるか?
  3. 平均値に有意差があるか?


この手順の理由は、データに正規性があるかどうかで、ばらつきの有意性を確認する検定の種類がかわり、またまた、ばらつきに有意性があるかどうかで、平均値の検定の種類も変わるからです。


GPTsでData Analyst というのがあり、データ分析、統計、プログラミングに関連する質問やタスクに対応しています。このようなややこしいのは、そういう事情をプロンプトで表現します。


ファイルの「改善前」「改善後」のデータで、データが正規分布に従うか検定後、その結果に応じて、ばらつきに有意差があるか検定してください。次にばらつきの検定の結果に応じて、平均値に有意差があるか検定してください。また、p値も教えてください。それぞれ有意水準は5%とします。


次のような回答を得られました。*灰色箇所

まずは、「改善前」と「改善後」のデータが正規分布に従っているかをシャピロ・ウィルク検定で検定します。これにより、データが正規分布しているかどうかの基本的な前提を確認できます。検定を実施しましょう。

シャピロ・ウィルク検定の結果、以下のp値が得られました。

改善前のデータのp値: 約0.302
改善後のデータのp値: 約0.965
これらのp値は、有意水準5%(0.05)よりも大きいため、改善前と改善後のデータが正規分布に従うという帰無仮説を棄却することはできません。つまり、両方のデータセットは正規分布に従っていると考えられます。

次に、データが正規分布に従うことが確認できたので、ばらつき(分散)に有意差があるかを検定します。ここでは、2つの独立した標本の分散が等しいかどうかを検定するルビーンの等分散検定を使用します。

ルビーンの等分散検定の結果、p値は約0.014です。このp値は、有意水準5%(0.05)よりも小さいため、改善前と改善後のデータの分散が等しいという帰無仮説を棄却します。つまり、両方のデータセットのばらつきには有意差が存在すると考えられます。

分散に有意差があることが確認できたため、平均値に有意差があるかを検定する際にはウェルチのt検定を使用します。これは、2つのサンプルの分散が等しくない場合に適した検定方法です。検定を実施しましょう。

ウェルチのt検定の結果、p値は約0.065です。このp値は、有意水準5%(0.05)よりも大きいため、改善前と改善後のデータの平均値が等しいという帰無仮説を棄却することはできません。つまり、両方のデータセットの平均値に有意差は存在しないと考えられます。

実際にばらつきは小さくなっており、p値からが有意であることが伺えます。平均値は5%有意水準では有意ではありませんが、実験レベルのデータならば考慮すべきp値です。
*回答でのそれぞれの検定の区切りでは、pythonのcodeが示されています。


結局のことろ、ばらつきが小さくなっており、製造系では望ましい結果でしょう。



・・・会話で検定ができてしまうんですね。



[追記]
*ファイルをアップした最初のプロンプトで「このファイルを分析してください」と入力すると、「改善前」「改善後」それぞれの統計量が回答されます。


ChatGPTによる統計解析

ChatGPTによる統計解析

ここで、ヒストグラム、箱ひげ図による視覚化の提案があるので、箱ひげ図を選択すると―


ChatGPTによる統計解析、箱ひげ図の描画


上のように、箱ひげ図を生成してくれます。


<過去の統計解析に関する投稿>


自己紹介

自分の写真
エンジニアの視点から、品質技法、解析技術、生成AIについて発信しています。 (シックスシグマ・ブラックベルト、MBA)

このブログを検索

ブログ アーカイブ

QooQ