遺伝子群からの機能推定と試験

示唆された働きが偶然に観測されたものである確率を調べる

なぜ遺伝子を選択するかといえば、これが手っ取り早いサマリーだからである。
マイクロアレイのデータはとかく膨大になりがちで、その要約を手にしたいのは当然だろう。
要約は、重要ななにかと、無視してよいことを選別することから始まる。
それを遺伝子のレベルで行うのが、遺伝子の選択である。

選択された遺伝子群を眺めて考えるべきことは、それらのなかで共通する働きがないかどうかだ。
当然ながら、ある代謝経路のなかからたった一つの遺伝子が選択されているのよりも、
10も20も選択されているほうが、その経路が活性化されているという証拠として強い。
(具体例はこの論文 → Konishi 2008b

たとえば10も20もタンパク質キナーゼが選択されてきたとして、
「この条件下ではタンパク質がリン酸化されやすくなっているのだろう」
という作業仮説を得たとしよう(つまらない仮説で失礼)。

しかしこれは本当に有意だろうか?

すべての遺伝子が、等しく選択される確率を持っていたとして、
あるグループの遺伝子群からn個の遺伝子が選択されてくる確率は、二項分布に従う
要するに、ありふれたキーワードでくくられた遺伝子群は、もともと母数が多いので、
選択される数も多くなりがちなのだ。
この性質を利用すると、ある特定のグループの遺伝子が有意に多く選択されているかどうかを
テストすることができる。 (方法はこの論文 → Konishi 2008b
実際にどう計算するか