第16回 標準偏差と正規分布の関係を知ろう(2) ~95%の確率と5%の確率
[ 2014年10月15日(水) ]
正規分布の重要な特徴として、正規分布では、平均値を中心にして存在する標準偏差の間にどれだけのデータが存在するのか理論上決まっているというお話を前回しました。今回はそのお話の続きをしたいと思います。 さくらさん、標準偏差の範囲には、全体の何%が入っているのか覚えていますか?
『はい。約68%ですよね。』
そう、その通り!
『あの、理論上の決まりはまだあるんですよね?』
はい。引き続き、正規分布の重要な特徴のお話ですので、しっかり覚えてくださいね。 次の図9の塗りつぶし部分を見てください。 2SDという表現が目に入るでしょう。
これは、標準偏差の値を2倍にしたものを指しています。 標準偏差(SD)の範囲には、全体のデータの約68%のデータが入りますが、この塗りつぶし範囲には、約95%のデータが含まれています。 この約95%という数字は正規分布の特徴の中でも、特に重要な役割を持つので確実に覚えてください。
『2倍の次は3倍が気になってきますが……。』
そうですか? 3倍だとどれだけのデータが入るのかも、すでに、昔の偉い統計学者が計算してくれています。 次の図を見てください。 図10の塗りつぶし部分は標準偏差を3倍にした範囲です。
この3SDの区間には、全体のデータの約99%が入るのです。 このように、前回学んだ標準偏差と正規分布を組み合わせると、データの広がり具合が直感的にわかってくるのです。 話を少し戻しましょう。標準偏差を2倍にした範囲には、データの約95%が含まれます。 実は、この約95%という数字は、統計を学んでいくうえで非常に重要な数字なんです。 さくらさん、95%信頼区間(Confidence interval=CI)という言葉を聞いたことがありませんか?
『ええっと、製品の資料で見たことがありますね。何かと聞かれたら答えられませんけど。』
聞いたことがあるというだけで、十分です。 この用語は後ほど必ず解説しますので、初めて聞いた人もなんとなく頭の片隅に置いておいてください。 実は、この約95%という数字ですが、人間は、約95%くらいの確率で起こる物事についてほぼそうなるという感覚を持つことができるといわれています。
『はい?』
えーと、とにかく、人間はそういう感覚を持っているんだそうです。私が言い始めたわけではありませんよ。 そういった経験上の理由から、研究や調査の結果のデータを判定するのにも、95%という確率を基準とすることが多いのです。 要するに、この正規分布の特徴は人間の感覚に合っているというわけなのです。
『じゃあ、5%くらいの確率で起こる物事は、ありえないって思うんでしょうかね?』
おお、鋭いですね。その通りです。 逆に95%を引いた残りの5%の部分ですが、人間は5%くらいの確率で起こる物事を、ほぼありえないとか例外と感じるといわれています。 CRAの皆さんであれば、薬の副作用の発現頻度の定義などを思い出すとわかりやすいと思います。 「まれに」という副詞は0.1%未満の、「ときに」という副詞は0.1~5%未満の発現頻度の副作用に使われています。 副詞のない副作用の発現頻度は、5%以上または頻度不明の場合です。 この言葉の定義は人間の感覚的なものですが、この感覚的な範囲を示すのに、正規分布の持つ特徴は(偶然ですが)ピッタリと合っているのです。
『なるほど、おもしろいですね。』
そうでしょう!? おもしろついでに、95%の人が笑う私の鉄板ジョークも言いましょうか。
『え? どうせ5%の人しか笑わないジョークでしょう?』
……厳しいですね。薬にまつわるジョークなんですが……。
『クスリともしませんよ!』
……さくらさん、ジョークの話はお互いにやめておきましょう。 とにかく、これで、正規分布の特徴については確認できましたね。 ここまでは、標本から得られたデータを表現するための基礎的な統計用語に続いて、そのなかでも重要な標準偏差と正規分布について詳しく説明しました。 次回からは、標本から得られた結果をもとに、母集団について推論していく推論統計を中心にして、より実践的な統計の考え方を学んでいくことになります。 なんとなく納得できない基礎用語があった人も、次回以降でより深く理解することになるでしょう。
出典:世界一わかりやすい。医学統計シンプルスタイル プラス
医学系出版社SCICUS(サイカス)の書籍
実際の臨床研究を題材に、論文吟味のポイントを踏み込んで解説
ドキドキワクワク論文☆吟味。医学統計ライブスタイル (\2,940)
大手新薬メーカーのMR研修資料も多数手がける、サイカスの新書
新人MRマニュアル (\1,500)