第11回 統計の基礎用語をマスターしよう!(6)データのバラツキ具合を把握するには?
[ 2014年06月13日(金) ]
前回は、集めてきたデータの整理とそれに関する基礎用語を紹介しました。
膨大なデータを整理するために、平均値や最大値、最小値、中央値、最頻値といった代表値が役立つことをお話しましたが、それぞれの代表値がどのようなものか、覚えていただけたでしょうか。
今回も前回に引き続き、代表値について解説しますので、不安な点がある方は、この先を読む前に、前回のお話をもう一度、振り返ってみてください。
そういえば、さくらさんから、疑問が出てましたね。
『ええ、平均値や最大値、最小値、中央値、最頻値とかは、たくさんのデータを、たったひとつの数字で表現するものですけど、ひとつの数字でたくさんのデータを過不足なく表現できるものなのでしょうか?』
前回登場した代表値は、平均値、最大値、最小値、中央値、最頻値でしたが、さくらさんが指摘したように、データをひとつの数字だけで代表させようとすると、何か取りこぼしてしまうかもしれません。
今回は、この問題について、解説します。
実は、これまでに挙げた代表値では、どうしてもできないことがあります。
それは、データの全体像を把握することです。 なぜかというと、膨大なデータには、当然バラツキがあるからです。
たとえば、最大値と最小値によってデータの範囲はわかりますが、それだけでは異常な値が混じっているかどうかを判断することはできません。
では、平均値だとどうでしょう。
ある会社で社内の男性社員の身長を測ったとします。 もし、2メートル級の大型社員が1人でもいれば、平均身長はそれに引きずられて高くなってしまうでしょう。
『そうですね。高身長の人が多い会社だと思われちゃいますよね。』
はい。逆をいえば、平均値だけを見ると、この2メートル級の大型社員の存在が無視されてしまうことになります。
また、中央値や最頻値を見た場合も同様に、2メートル級の社員の存在に気づくことはできないでしょう。
残念ながら、これまでに挙げた代表値では、このようなデータのバラツキ具合を表現できないのです。
『バラツキ具合を表現できないと、全体像を把握することはできないんですね』
はい。そこで必要になってくるのが、データのバラツキ具合を示すことができる代表値なんです。
『でも、そんな便利な代表値なんてあるんですか?』
それが、あるんですよ。 さくらさん、学生時代の統計の記憶を掘り起こしてみてください。
『ええと、ええと…偏差値かなぁ? なんか違うような…。』
さくらさんが学生時代に悩まされた偏差値とはまったくの別物ですよ。親戚ではありますけど。
『そうなんですね。でも、私、学生時代に偏差値に悩まされたりしていませんよ!』
本当ですか?
『ほ、本当です…それより、はやく便利な代表値を教えてください!』
ははは、失礼しました。 データのバラツキ具合を示す代表値とは、標準偏差と呼ばれるものです。
『あぁ〜、標準偏差でした! 偏差値じゃなかったですね。』
はい。偏差値ではありませんので、誤解のないようにお願いします。
標準偏差は、英語ではStandard Deviationと呼ばれ、医学論文などでは、これを略して、SDと表記されています。 きいたことはあっても、きちんと理解している人が意外に少ない用語です。
そして、はっきりいって、この標準偏差=SDを理解することが、統計の基礎用語を学ぶ上での最大の山場といっても過言ではありません。
『おお、いきなり山場に突入ですか? まだ心の準備が…。』
そうですか…。 この標準偏差については、後ほど、別に項目を設けて、じっくりわかりやすく解説する機会を設けたいと思います。
とにかく、ここでは、データにはバラツキがあり、そのバラツキの度合いを把握するためによく利用される代表値が標準偏差であるということだけを、覚えておいてください。
『はい、わかりました。』
ところで、データのバラツキ具合を示し、データの全体像を把握できるのは、実は数値を使った方法だけとは限りません。次回は、その方法について解説することにしましょう。
–(チャレンジ問題)——
次の文章の〔 〕内にあてはまる言葉をそれぞれ答えてください。
問1 膨大なデータには、当然バラツキがあります。 たとえば、社内の男性社員の身長を測ったとして、2メートル級の大型社員が1人でもいれば、平均身長は引きずられて高くなってしまうでしょう。逆をいえば、平均値だけを見ると、この2メートル級の大型社員の存在が無視されてしまうことになります。 これまでの代表値では、このようなデータの〔 ① 〕を表現できないのです。そこで、データの〔 ① 〕を示す代表値が必要になってきます。 それが、〔 ② 〕と呼ばれるものです。
問2 問1の②は、医学論文などで、英語を略して〔 〕と表記されています。
——– ■解答
問1 答え.①バラツキ具合 ②標準偏差 標準偏差によってデータのバラツキ具合が示され、全体像を把握することが可能になります。
問2 答え.SD 標準偏差=Standard Deviationを略して、SDと表記されます。 ——–
出典:世界一わかりやすい。医学統計シンプルスタイル プラス
医学系出版社SCICUS(サイカス)の書籍
実際の臨床研究を題材に、論文吟味のポイントを踏み込んで解説
ドキドキワクワク論文☆吟味。医学統計ライブスタイル (\2,940)
大手新薬メーカーのMR研修資料も多数手がける、サイカスの新書
新人MRマニュアル (\1,500)