信頼区間ってどういう意味?
信頼できる幅?
もう統計嫌だ・・・
「信頼区間」ってわかったようでわかりませんよね?
この記事では「信頼区間」とはいったい何者なのか?
彼の正体にせまっていきます
「信頼区間」を求める数学的な解説ではないのであしからず
✔︎信頼区間に関して友達に説明できるようになる
✔︎論文を読む際に信頼区間を正しく解釈し利用できる
✔︎P値なんていらない、信頼区間で有意差がわかる
信頼区間とは?
あるグループ間の差がP<0.05で有意差があることがわかりました
次に何が知りたいですか?
「どのくらい違うのか」知りたいですよね?
勘違いすることが多いのですが
例えば
薬Aと薬Bの効果を比較します
仮説検定の結果
P=0.03となった場合と
P=0.001となった場合
みなさんはなんとなくP=0.001の方が
「大きな有意差がある」と
勘違いしてしまいます
P値に関してはこちらの記事をご覧ください
つまり差があることはわかりますが
差が大きいか小さいかはわかりません
グループ間の差をどうやって調べるか
例えば高血圧の患者さん100人を対象に
50人には新薬A、50人には従来薬Bを飲んでもらいました
新薬Aグループでは血圧が29mmHg(中央値)低下し
従来薬Bでは血圧が19mmHg(中央値)低下しました
仮説検定を行うとP=0.01となりました
この例ではグループ間の差は
29-19=10mmHgとなり
新薬薬Aの方が従来薬Bに比べて有意に
10mmHg(中央値)血圧を下げたことなります
それではこれを別の高血圧の患者さん100人に
試すとどうでしょうか?
感覚的にわかるかもしれませんが
同じ結果にはなりません
差は8mmHgかもしれませんし
20mmHgかもしれません
もし3つの論文があればどれを信じればよいのでしょうか?
差が8mmHgの違いならわざわざ新薬Aを使わないですし
20mmHgも違うなら新薬Aを使いたいと考える人もいるでしょう
そんな時に使えるのが「信頼区間」です
ここで「真の差」という言葉が初めて出てきました
これは統計における独特な考え方です
先にイメージのしやすい
「真の確率」
で説明していきます
コインの表が出る確率は何%ですか?
そう50%ですよね
実際コインを10回投げてみてください
表4裏6→40%
表3裏7→30%
になりませんか?
10回→100回にすると50%に近づきます
さらに試行回数を重ねると限りなく50%に近づきます
この確率を「真の確率」といいます
そして「真の差」というものは
上記のように無数に検証した場合に
求められる「理論上の差」を意味します
そしてよく論文で見かける
「95%信頼区間」というものは
この血圧の例でいくと
「95%信頼区間」が8-11mmHgの場合
という意味なんです
ものすごく役に立ちませんか?
20mmHg差がついたグループは偶然と言えるのです
✔︎95%の確率で「真の差」を含む値の範囲を示す
もしあなたが新薬Aを使うなら
・95%信頼区間3-20mmHg
・95%信頼区間8-10mmHg
どちらのデータがありがたいですか?
ギャンブル好きなら
20を含む上を選ぶかもしれませんが
臨床的に結果を予想しやすい
8-10の下を選ぶ人が多いと思います(多分・・・)
信頼区間の幅は検証数が多いほど狭くなります
つまり10人のデータよりも
10万人のデータの方が正確ということです
すこしづつ正体が見えてきましたね
信頼区間とP値の関係
実は「信頼区間」とP値は密な関係にあります
✔︎95%信頼区間が0を含む→P≧0.05
というわけで
「有意差」も「真の差」もわかる
「信頼区間」が最強です
簡単に説明すると
復習になりますが
「95%信頼区間」は
95%の確率で「真の差」がその範囲に入ることです
95%信頼区間に0を含んでしまうと
真の差=0となることがあるのです
つまり差がないということになります
「95%信頼区間」が2-3であれば
95%の確率で差が2-3あるということ
差がない確率は5%未満ということです=P<0.05
P<0.01を有意差ありと設定した場合
99%信頼区間にする必要があります
まとめ
✔︎「95%信頼区間」は95%の確率で「真の差」を含む値の範囲
✔︎「95%信頼区間」が0を含まない→P<0.05
✔︎「信頼区間」があれば有意差・程度の差が両方わかる
コメント