第12回 統計の基礎用語をマスターしよう!(7)データの全体像を視覚で捉える
[ 2014年07月07日(月) ]
これまで、統計を理解するのに欠かせない基礎用語について紹介してきましたが、基礎用語についての解説は、今回が最後になります。
もしも、これまでに出てきた基礎用語や、それらがなぜ重要なのかという理由について、あやふやな部分がある場合は、ぜひこれまでの回を読み返してみてください。
さて、前回は、膨大なデータの全体像を把握するには、データのバラツキ具合を示す標準偏差という代表値が役に立つことを説明しました。
標準偏差の詳しい説明は後回しにしていますが、実は、標準偏差のような数値で表現しなくても、データの全体像を視覚的に捉えることはできるんです。 それは、どんな方法なのでしょうか。
さっそく、さくらさんに質問してみましょう。 ズバリ、どんなやり方だと思いますか?
『う〜ん…。おそらくグラフにするんですよね。』
そう、その通りです。
グラフを使えば、データをわかりやすく視覚的に捉えられるのです。 そして、グラフの描く形は、データの分布を示しています。
統計学では、この分布の形がどのような性質を持っているのかを検証していくことになります。
さくらさん、次の図のような釣り鐘型のグラフを目にしたことがありませんか?
『なんとなくですけど、この釣り鐘型のグラフって、以前、統計を学んでいたときによく見たような…。 ええっと、なんと呼ぶんでしたっけ…。どうしても記憶があやふやで…。』
残念、名前が出てこないようですね。 これは、正規分布と呼ばれています。
『そう、その通り!』
…できれば「その通り!」は私だけのセリフにしてほしいのですが…。
でも、「正規分布」という言葉は思い出してもらえたようですね。 説明を続けましょう。
数的データの場合は、理論的にこの正規分布になることが証明されています。 治験で取り扱うデータの多くは、数的データです。 基本的に、この正規分布をとるデータが中心になることが多く、統計の基礎的な理解にはもってこいのグラフですので、しっかりと目に焼きつけておいてください。
『はい。数的データであれば、必ず理論的にこの正規分布になるんですか?』
ええ。数的データを大量に集めていけば、最終的にこのような釣り鐘型のグラフに限りなく近づいていきます。
もちろん、実際のデータはサンプル数が少なかったりして、なかなかきれいな釣り鐘型にはなりませんけど。
これまでの統計学の歴史の中で、正規分布以外にも、ポアソン分布や二項分布など、さまざまな分布の型が研究されており、データの種類と分布の特徴の関係が知られていますので、気になった方は調べてみるといいでしょう。
いずれにしても、集積したデータによって、ビジュアルで見せる分布の型はおおよそ決まってきます。
そこに、以前挙げた代表値=平均値、最大値、最小値、中央値、最頻値を書き入れていくことで、データの整理が終了するというわけです。
さくらさん、どこかわからないところはありますか?
『いえ、バッチリです! グラフの形も目に焼きつけましたよ! 新人とはいえ、モニターですもの。やる気が違いますから!』
おお、それは頼もしいですね。
ここまでの12回に渡って、統計のはじめの一歩から、推論統計の考え方、データの種類、母集団と標本、分布の型と代表値を解説してきました。
これまでに紹介した基礎用語は、統計学を理解するためには絶対に欠かせないものですので、しっかりと身につけてください。
機会があれば、標準偏差の概念と正規分布の見方をクリアにしていくことにしましょう。
『楽しみにしています。』
しつこいですが、これまでの回であやふやな部分がある場合は、ぜひもう一度読み返してみてくださいね。
『わかりました。私も、もっとモニターとして頑張ります!!』
–(チャレンジ問題)——
次の文章の〔 〕内にあてはまる言葉を答えてください。
問1 下の分布は、〔 〕といいます。
問2 〔 〕データの場合は、理論的にこの下の分布になることが証明されています。
——– 解答 問1 答え.正規分布
数的データの場合は、理論的にこの分布になることが証明されています。ここではこの形をしっかりと覚えておきましょう。
問2 答え.数的
数的データについて、不安を感じる方はこの連載の第6回を読み返してみましょう。
——–
出典:世界一わかりやすい。医学統計シンプルスタイル プラス
医学系出版社SCICUS(サイカス)の書籍
実際の臨床研究を題材に、論文吟味のポイントを踏み込んで解説
ドキドキワクワク論文☆吟味。医学統計ライブスタイル (\2,940)
大手新薬メーカーのMR研修資料も多数手がける、サイカスの新書
新人MRマニュアル (\1,500)