網羅性のある測定が最も威力を発揮するのはこうした使い方だろう。
なにしろ、これまでは感心のある遺伝子しか調べていなかったのだから、
予想していなかったような現象を発見できる可能性は高い。
まず、同質のサンプルのデータを集める。処理をしていない、または同じ処理をしたサンプルのことだ。
これらサンプルはナマモノとして独立したものを用意する。
同じバッチの組織を2つにわけてRNAをとりました、は不可。
ここで集められたサンプルの数で、この作業の確からしさが決まる。
だから多い方がいいが、最低2サンプルから計算できる。
zスコアを横並びでおさめたシートを作る(サンプル)。
遺伝子ごとのzスコアについて、標準偏差を求める。ロバストでない出し方をしたほうが合目的だろう。
得られた数値は、ウエット実験の管理能力下で、
その遺伝子がどれだけ振れやすいかを表す指標である。
指標は次のように使える。
1. 振れやすい遺伝子をシンプルにリストアップする
たとえば振れやすいトップ1000くらいの遺伝子は、
最初から解析の対象にしないでおく。そのリストつくりに使う。
2. 遺伝子の触れ巾を補正する重みとして使う。ちょっとややこしい
熱力学モデルによると、振れやすさは遺伝子ごとに違うことが予想される。
(たくさん集まった触れ巾は実際に概略で正規分布したが、
それを遺伝子ごとに集計すると、遺伝子のσもまた正規分布するだろう)。
遺伝子ごとの振れを比較するときにz標準化が使えるはずで、
その標準化のための巾(σ)の値として使う。
ちなみに(モデルによると)中心(μ)はゼロになり、補正不要。
その共通の機能に関して、それを誘起させた実験例を既存のデータベースに探す。
または手持ちのデータの中で探す。
そのデータを用いて、レシオベースでおなじシートをこしらえる。
自分のシートと、既存のシートとの間で、
発現が変化した遺伝子群について、同じような変化がおきているか否かを調べる。
偶然の測定の振れでは説明しにくい、という形で検定できるだろう。
ログレシオの差が概略で正規分布することを使える。
ただし、刺激の強さによって、触れ巾が実験間で異なっていることを考慮する必要はある。
新しい発見がなくなるまで続ける。
この作業を繰り返すことで、
既存の知識と一致する要素を見つけ出していくことができる。
機能不明な遺伝子群や、つながりが見えてこない遺伝子群が
タイムコースや、異なる刺激をみた実験間で特定のパターンを見せるようなら、
それは新しい発見である。
ひとまとめにできないときは、ひとつひとつ遺伝子の働きを絞って
調べるのが、結局は近道ではないだろうか。
ところで、アレイチップで提供されているアノテーションは、往々にして
いいかげんだったり間違っていたりするので要注意。つながりが見えないときは
まずここを疑うこと。
機能不明な遺伝子の働きを探すのは別項を参照のこと。
Go Back | Home | 解析方法のインデックスへ |