多重検定に関する問題

それは本当に多重検定なの?

phytoinformatics という、植物分野でのメーリングリストでちょっと話題になったこと。
どうもさる雑誌のひとりのレビューワーがかならず
「マイクロアレイによる比較は全てコンテンツ数ぶんの多重比較なので、P値に補正をかけなければいけない」
という考えをお持ちで、学会の大勢がそちらに流れているということらしい。

これのウラがまだとれていないのだけど、もしこれが本当なら
とんでもない間違いだと思うので糾そうと考えている。
以下その説明。

3つ以上のグループがあったとして、そのグループの間に違いがないかを、t-testで検定することを考えよう。
t-testは一双の組で考える検定なので、たとえば3グループあるのなら場合3C2=3とおりの組み合わせがあり得る。
それぞれに5%の有意水準で検定をしたとすると、間違いで帰無仮説が棄却される期待値は0.05にはならない。
平均して5%間違える試みを3回やるのだから、それぞれの試行が独立していたと仮定すると、
1回も間違えない可能性は(1-0.05)^3であるので
0.143くらいの確率で、どれかの組み合わせでfalse positiveがでることになる。

このように、検定をくりかえして、1回でも仮説が棄却されたら有意と考えるなら、
設定した有意水準よりも多くのfalse positiveが出現することになり、
false positiveのコントロールができなくなる。

また同様に、2つのグループの間を比較するときに、比較項目がいくつもあったとして
その項目ごとに検定をすると、たとえば有意水準5%で選択をしていった場合、
20項目くらいを検定すると、おそらく1回のfalse positiveが出ることが期待される。
その1項目をもって2つのグループは「違うものだ」とするのは誤りである。

これが(狭い意味での?)多重検定問題である。

もちろんマイクロアレイはたくさんの遺伝子コンテンツを持っている。
これらのなかから、有意に変化した遺伝子を探すことはよくある
(なんらかの方法で絞込みをかけないと、情報が多すぎて理解できない)。

このとき、それぞれの遺伝子は独立して検定をされることになる。
それぞれが帰無仮説を持ち、それぞれの測定値をもって検定をされる。
もしこのとき、たとえば2つのグループ間にトランスクリプトームの違いがあるかないかを
問題にしているのなら、これは多重検定問題である。
このときの帰無仮説は「グループ間には差がない」で、
とんでもなく比較項目が多い多重比較だということになる。

しかしこれはナンセンスである。だれもそんなことを俎上に上げないからだ。
私たちが知りたいのは、どの遺伝子が動いたかである。
違いがないことを期待してマイクロアレイをかけるひとはいないんじゃないか。

件のレビューワー氏の問題意識は、たぶんこの論文あたりに端を発している。
Dudoit S, Yang YH, Callow MJ, Speed TP
(2002)
Statistical Methods For Identifying Differentially Expressed Genes In Replicated cDNA Microarray Experiments.
Statistica Sinica 12: 111-139.

この論文は次の年にはカバーされていて、こちらはわりとよく引用されているようだ。
Reiner A, Yekutieli D, Benjamini Y
(2003)
Identifying differentially expressed genes using false discovery rate controlling procedures.
Bioinformatics 19: 368-375.


Storey J, Tibshirani R
(2003)
Statistical significance for genomewide studies.
Proc Natl Acad Sci U S A 100: 9440-9445.

どれも同じ問題意識から出発していて、
それはFamily-wise Type I Error をコントロールしようというものである。
このerrorはなにかというと、たくさん検定項目があるときに、
エラーで選ばれてくる項目がひとつ含まれている、ということだ。
Family-wise Type I Errorを0.05以下にするということは、つまり、
ひとつも間違いがないという確率を95%以上にするということだ。

(まあ結局それは、二つの細胞の間に違いがあるかどうかということと
数値としては同じものになる。)

では、これは、妥当な問題意識だろうか?
マイクロアレイでの選択に、ひとつの間違いも許せないか?

それは、ないだろう。というか、それは無理だ。
むしろ、間違いはあるものとして、あるなりに解析をするのが正しいでしょう。

もし、たとえばBonferroni adjustment をマイクロアレイに適用するなら、
p値をコンテンツ数で割らなければならない。
もちろんそんな切り方をすれば、有意になる遺伝子はほとんどなくなる。

論文の投稿者は困って、なにか別の方法を探す。で、たとえばBenjamini and Hochberg法を使う。
あらかじめ数を絞っておいた遺伝子のグループにBH法を使うと、Bonferroni adjustment
よりもずっと優しい棄却水準が用意されることになる。

でもこれ、二重の意味でまずい。テクニカルな話を先にすると、
BH法というのは、それぞれのP値が一様分布するという仮定に基づいているノンパラな方法である。
でもマイクロアレイで得られるP値は、ぜんぜん、一様分布しない。まったくしない。
アタリマエなことだけど、大きな違いが見込まれるときには分布は左に偏り、
その逆のときには右に偏る。後者の場合、BH法は甘くさせるように働く。
またあらかじめ数を絞っておけば、補正のための母数が小さくなる。
するとアーティファクトによってたくさんのものが選ばれることになる
(ソモソモ多重じゃないんだからいいじゃん、という議論は今はナシ)。

もっと決定的にまずいのは、なんとなくそういう効果を(原理を知らなくても)見つけて、
それを知っていながらデータをいじり続けるのは、改竄の第一歩だということだ。
改竄は科学の進歩を阻むだけではなく、心も蝕む。論文が通るのはうれしいけど、
それはjoy of scienceのひとつのカケラにすぎない---
なんのためにこの仕事をしているのかを見失ったら喜びもなくなってしまう。

この問題にウラがとれたら、適切なジャーナルにコメントを送ろうかと考えています。
断りなく内容を公開しないし、引用もしないので、もし上記のような問題に直面した方がいらしたら
私に御連絡ください。

できたらレビューワーの手紙の全文と、投稿した雑誌名がわかるようにしていただけると嬉しいです。