第10回 統計の基礎用語をマスターしよう!(5)データをあらわす代表値を知ろう
[ 2014年05月28日(水) ]
これまで、統計を理解するにあたって覚えていただきたい基礎用語として、データの種類に続いて、データを集める際に重要な母集団と標本などについて、解説してきました。
今回からは、集められたデータの整理の仕方に関する基礎用語について解説します。
前回まで紹介した母集団や標本、バイアスといった用語は「推論統計」において重要なものでしたが、これから解説するのは、集めてきたデータをわかりやすくまとめる「記述統計」で重要なものです。
では、さっそく話を進めましょう。
CRAの皆さんが仕事でお会いすることの多い臨床現場のドクターが読む臨床研究論文は、膨大なデータの集積の上に成り立っています。
しかし、読む側は、その膨大なデータを直接目にすることはありません。 目にするものは、たとえば、グラフであったり、特徴的な数字を表にしたものだったりするわけです。
集めたデータは、最初は数字や文字列の羅列にすぎないので、こうしてわかりやすく整理する必要があるのです。
そして、データを整理するのに役に立つものとして、さまざまな代表値が存在します。 どのようなものがあるか、紹介していきましょう。
その前に、さくらさんの会社のCRAさんの数はどのくらいですか?
『全体で100名くらいだったと思います。』
さくらさんを会社の代表として考えるとすると、皆さん、さくらさんみたいに優秀な方ばかりなんでしょうね。
『いえいえ、私なんか新人ですし、一番下ですから…。』
ご謙遜を。きっと平均以上だと思いますよ。 では、さくらさん、平均値ってわかりますか?
『バカにしないでください。平均値くらい中学生でもわかりますよ。』
ははは、そうですよね。失礼しました。
実は、平均値というのは非常に重要な数値なのですが、その重要性については追々触れていくとしまして…。 さくらさんのおっしゃる通り、中学生でもわかる平均値は、たくさんの数値をひとつの数字で表現する代表値の代表格です。
数的データに限っていえば、整理の仕方は特に難しいことはありません。
膨大な数的データを、ひとつひとつ見せるのは労力もかかって大変なので、いくつかの代表的な値を取り出して示すのです。
平均値の他にも、最大値、最小値、中央値、最頻値などがよく知られています。
中学時代に学んだように、平均値は、基本的にすべてのデータを足して、そのデータ数で割ったものをいいます。 これ以外にも、データを全部掛けて、そのデータ数で平方根を求めるという幾何平均もありますが、いずれにしても、平均値はデータを整理する際の代表的なものであることを胸に留めておいてください。
『最大値と最小値って、集めたデータの中で、最も大きな値が最大値で、最も小さな値が最小値ってことですよね?』
その通りです。その名もズバリの代表値ですね。別の見方をすれば、この最大値と最小値の間が、このデータの範囲ということになるわけです。
中央値は、データを数字の順に並べたときに、ちょうど真ん中にくる値をいいます。
最頻値とは、最も頻繁に出てくる値のことです。
このように、平均値、最大値、最小値、中央値、最頻値は、膨大なデータをひとつの数字で代表させることで、データの整理をするのです。
『なるほど、代表値は便利ですね でも、素朴な疑問なんですが、研究ではものすごくたくさんのデータを取り扱うわけですよね。 たとえば、私が会社先輩モニターを代表する値じゃまずいと思うんですよ。 そんなにたくさんのデータを、たったひとつの数字で表現できるものなのでしょうか?』
おお、すばらしい素朴な疑問ですね。 確かに、膨大なデータを、たったひとつの数字だけで代表させようとすると、何か取りこぼしが出てくるような気がしますね。
では、これについては次回、説明するとしましょう。
–(チャレンジ問題)——
次の文章の〔 〕内にあてはまる言葉を答えてください。
問1 臨床研究論文は、膨大な〔 〕の集積の上に成り立っています。
問2 数的データに限っていえば、整理の仕方は特に難しいことはありません。膨大な数的データを、ひとつひとつ見せるのは労力もかかって大変なので、いくつかの代表的な値を取り出して示すのです。 その代表値の代表格は、誰でも知っている〔 〕です。その他にも、最大値、最小値、中央値、最頻値などがよく知られています。
問3 集めたデータの中で、最も大きな値が最大値であり、最も小さな値が〔 〕です。
問4 〔 〕は、データを数字の順に並べたときに、ちょうど真ん中にくる値をいいます。最頻値とは、最も頻繁に出てくるデータのことです。
————————————————— 解答
問1 答え. データ 統計はデータがなければ何もできません。
問2 答え. 平均値あるいは平均 これを間違えてしまった人はもう一度、この回の冒頭からやり直す必要があります。
問3 答え. 最小値 この最大値と最小値の間が、このデータの範囲ということになります。
問4 答え. 中央値 メジアンあるいはメディアンともいいます
出典:世界一わかりやすい。医学統計シンプルスタイル プラス
医学系出版社SCICUS(サイカス)の書籍
実際の臨床研究を題材に、論文吟味のポイントを踏み込んで解説
ドキドキワクワク論文☆吟味。医学統計ライブスタイル (\2,940)
大手新薬メーカーのMR研修資料も多数手がける、サイカスの新書
新人MRマニュアル (\1,500)