第6回 統計の基礎用語をマスターしよう!(1)身の回りにあるデータの種類とは?
[ 2014年03月19日(水) ]
前回は、治験において推論統計が果たす役割について、説明しました。 また、最後に予告しましたが、これからの数回では、統計に関する最低限の基礎用語をしっかりと身につけていただきたいと思います。
もちろん、この連載には難しい数式は出てきません。 しかし…医学統計を理解するためには、最低限の基本用語をおさえておく必要があります。
研究者たちと同じ計算をする必要はありませんが、英単語を知らなければ英文が読めないのと同じで、統計学には統計学の記述の仕方があり、それを理解することは避けて通れません。 とはいえ、恐れる必要はありません。
『本当ですか?』
本当ですよ。 特に難しい内容ではないので安心してください。
それでは、研究者たちが用いる、さまざまなデータを記述するための用語や概念をマスターしていくことにしましょう。
ところで、さくらさん、統計学に絶対に欠かせない要素をひとつあげなさいといわれたら、何をあげますか?
『なんだか、禅問答みたいですね。やっぱり、数式とか定理とかですか? そうだ、わかりました!! さては、前回出てきた推論統計ですね?』
いろいろ考えてくれてありがとうございます。
実は、複雑な数式でも、偉大な数学者の手による数学の定理でもありません。 答えはもっと単純です。
統計学に絶対に欠かせない要素、それは、データです。
『なるほど。いわれてみればその通りですね。』
はい。データがなければ、統計学は何もすることができません。
何を当たり前のことをと思うかもしれませんが、これは注目すべき大前提です。
研究者が、統計学を利用するためには、データを集めることから始めなければいけません。 推論統計も、そもそも集めるデータがなくては意味をなさないでしょう。
そして、最初にしなければならない仕事は、このデータがどんな性質のものであるかを見極めることなのです。
『データの性質、ですか?』
はい、ひとくちにデータといっても、さまざまです。
身体測定における身長や体重もデータであり、アンケート調査などによって集められた性別、趣味や血液型などもデータです。 私たちの身の回りにあるものは、すべてデータになると考えてよいでしょう。
そして、これらは大きく2つのグループに分けることができます。
たとえば、身長や体重のようなデータと性別や趣味といったデータは、別々のグループに分けられます。 これらは、何が違うんでしょうか。さくらさんに聞いてみましょう。
『ふふふ、わかりましたよ。というか、思い出しました。数字であらわすことができるものと、数字であらわすことができないものです。』
正解! 鋭いですね。 そして、この2つのグループには、呼び名があります。これは思い出せますか?
『ええと、たしか…。ちょっと待ってください、ええと…』
思い出すまでに時間がかかりそうなので、説明しちゃいますね。まず…
『思い出した、数的データと質的データです!』
お見事! まず、身長や体重などのデータのように数字であらわされるデータは、数的データ(または量的データ)と呼ばれています。
それに対して、直接、数であらわすことができないデータは質的データと呼ばれています。 アンケート調査などで集められた趣味や血液型などのデータですが、たとえば、同じ趣味でもサッカーと盆栽は、その趣味の性質がまったく違いますよね。
質的データとは、このように性質の異なるものを分類し、集計したデータのことです。
『身の周りのいろんなデータが、この2つにわけられるんですね。ところで、分類はこの2つだけじゃなかったような気もします…たしか、ええと…はあ…。この呼び名は思い出せそうにありません』
あはは。さくらさんのいう通り、質的データはさらに2つの種類に分類することができるのですが、これについては、呼び名も含め、次回、もう少し掘り下げて説明することにしましょう。
とにかく、データは統計学において、とても重要だということを覚えてください。
ところで、今回から、確認問題を最後に出題します。 チャレンジしてみて、わからない部分があれば、もう一度読み直してみてくださいね。
–(チャレンジ問題)———–
数的データか質的データか、データの種類を見極める練習をしましょう。 〔 〕内に、数的か質的のあてはまる方を答えてください。 問1 集団検診で血圧を測定しました。血圧は、〔 〕データです。
問2 貧血検査で赤血球を測定しました。赤血球は、〔 〕データです。
問3 血液型を調べました。血液型は、〔 〕データです。
問4 1,500メートルを走った人々の脈拍を計測しました。脈拍は〔 〕データです。
問5 近隣にあるいくつかの病院の病床数を調べました。病床数は〔 〕データです。
問6 ある病院で、患者さんの満足度を5 段階で評価してもらいました。満足度は〔 〕データです。
問7 患者さんの年齢を調べました。年齢は〔 〕データです。
—————————————————
※解答※ 問1 答え.数的 血圧は数字であらわされます。
問2 答え.数的 赤血球の個数を測定するので、数字であらわされます。
問3 答え.質的 血液型は、A、B、O、ABであらわされ、数字であらわされませんので、質的データです。
問4 答え.数的 脈拍は数字であらわされます。
問5 答え.数的 病床数は数字であらわされます。
問6 答え.質的 たとえば、5 段階評価が、1.非常に満足 2.満足 3.普通 4.不満 5. 非常に不満、だとします。一見、数字で表現されているように見えますが、数字は便宜上つけられているだけで、別にこの数字がABCDE でも同じことです。
問7 答え.数的 年齢は実際は数的データですが、気をつけないと質的データにしてしまうので注意が必要です。通常、年齢を聞くときは、「前回の誕生日で何歳になったか」に注目します。これは、40 歳になったばかりの人と41 歳直前の人の区別がつかないということです。 このように、年齢をある範囲に限定して調べてしまうと、質的データとなってしまいます。
出典:世界一わかりやすい。医学統計シンプルスタイル プラス
医学系出版社SCICUS(サイカス)の書籍
実際の臨床研究を題材に、論文吟味のポイントを踏み込んで解説
ドキドキワクワク論文☆吟味。医学統計ライブスタイル (\2,940)
大手新薬メーカーのMR研修資料も多数手がける、サイカスの新書
新人MRマニュアル (\1,500)