第17回 研究を「デザインする」って? ~データを集める前から利用する統計学
[ 2014年10月30日(木) ]
基礎用語のなかでもひじょうに重要な標準偏差と正規分布について、前回まで説明しました。 さくらさんはじめ、読者の皆さんも統計の考え方に、だいぶ慣れていただけたのではないでしょうか。
ここからは、実践的な統計の考え方を紹介していきましょう。 これまでに学んだ統計の基礎用語や概念が、さまざまな臨床研究デザインにおいて、どのように生かされているのかを学んでいきます。
『え? 統計を学ぶためにデザインも勉強しなくちゃいけないんですか? 私、そういうセンスは自信がなくて……。できるかなぁ。』
いえいえ、さくらさんが想像されているようなアート系のデザインとはまったく関係ありません。
『てへ、冗談です。治験実施計画書にも記載されているデザインのことですよね。』
……心配して損しましたが、安心しました。 これから説明するデザインとは、さくらさんが言ったように、CRAの皆さんが普段の業務で扱っている治験実施計画書と深く関わるものです。
では、説明を始めますよ。 デザインという言葉が、どのような意味を持つのかも、追々わかってくると思います。
さて。 これまでの回で学んだ、平均値や標準偏差といった代表値や分布の型は、集めたデータをわかりやすく記述するために生み出されたものです。 国勢調査にしても、視聴率調査にしても、調査用紙やデータの山を差し出されても、何もわかりませんよね? 集められたデータは、代表値やグラフで表示されなければ何も見いだすことはできません。
こういったデータを記述する方法を記述統計といいます。 記述統計は集めたデータをわかりやすくまとめ、そこから正確な情報を引き出すためのものです。
『はい。推論統計というのもありましたね?』
おお、しっかり覚えていてくれていますね。 では、推論統計の考え方もきちんと覚えているでしょうか?
『限られたデータからいかに普遍的な結論を見いだすか、そのための考え方ですよね。』
その通りです! では、ここで記述統計と推論統計の本質的な違いをひとことで言ってしまいましょう。 記述統計は「データを集めた後で利用する統計学」、そして、推論統計は「実際にデータを集める前から利用する統計学」と言うことができます。
『確か統計はデータがなければ始まらない……って言っていましたよね? データを集める前から使う統計というと、どういうことなんでしょう?』
まさにそこが、これから解説していく内容のポイントになります。 確かに統計はデータがなければ始まりません。 これまでの統計学の解説書に多かった、統計の手法や数式による定理などは、データを集めてからの話ばかりです。
しかし、たとえば論文を執筆している研究者たちは、ただ、漫然とデータを集めているわけではないのです。 苦労して集めたデータそのものがおかしければ、どんなに立派な統計手法を使っても、その結果は信頼できるものにはならないでしょう。 研究者たちは、自分の研究に関わるデータを集める前の段階から、入念に準備を進めます。 どうしたら、正確なデータを収集できるかを推論しながら……。 この準備のことを、一般に研究をデザインするといっています。
ここでもう一度だけ、推論統計の考え方を思い出してください。 限られたデータからいかに普遍的な結論を見いだすか、そのための考え方が推論統計でした。そのためには、母集団をしっかり代表する標本を選択しなければならないことも、皆さんは知っています。 もし、推論統計について、記憶があやふやな方は、この連載の第4回や第5回を読み返してみてくださいね。
さて、これからは、研究者たちが、研究の命題をどのように設定し、どのように正確なデータを集める準備をするのか……要するに、治験などで、研究者たちがデータを集める前の研究のデザインの仕方を学んでいきます。 研究者たちの考え方を学ぶことで、CRAとして統計に対する距離が確実に縮まっていくことでしょう。