マイクロアレイデータの標準化

データを、チップ、測定者、キット、 読み取り装置、その他を越えて比較可能にすること。 データに普遍性を与えること。
そして、できたら、測定値におけるノイズレベルとその傾向を明らかにすること。

相対値を標準化するためには、測定間で共通する基準が必要である。

ふだん物の長さや重量を測るためには、こうしたことを意識する必要はない。
SI単位系に基づいた絶対定量が可能だからで、私の1kgはあなたの1kgと等しい。
(実際に見る機会がなくても)どこかに基準が存在していて、
この等価を保証している。

マイクロアレイの望ましい基準は何だろうか?
もしある遺伝子の発現量が常に一定の濃度なら、これは基準として使えるだろう。
もし常に一定の割合で外部標準物質を加えられるのなら、これを基準にできるだろう。
もしデータに統計学的な特徴があり、いつも再現されるなら、それを基準にできるだろう。

ここで重要なのは、
「何を基準にするのか」(を明確にすること)と
「それを基準に選んだことは妥当なのか」(どうしたら妥当性を判断できるか)
である。

パラメトリックという言葉はやや曖昧で、もっといろんな意味を持っていそうだが、
ここでは「最少のパラメータでデータの性質を記述する」
統計学上の試みないし姿勢のことを示す。

データが、なんらかの様式に則って分布することはよくあることで、
それが再現よく観察されるときに、その分布様式を基準に使うことができる。
たとえば、設問が異なる複数の学力試験の結果を比較することができるのは、
それぞれの試験結果(素点)がしばしば正規分布するからで、
素点から観測される平均値と分散をつかって標準化が可能である。

パラメトリックに標準化ができるときの利点には次のようなものがある。
・基準を算出する際に使用できるデータ数が多い(だから正確)
・妥当性の確認が容易かつシビア(だから厳密)
・分布様式はしばしば、それがなぜ得られるかについてのヒントを与えてくれる

マイクロアレイのデータは、非常にしばしば、
3パラメータ対数正規分布をする(Konishi 2004)。
もちろんこの性質は基準として申し分のないものだ。

いかなる方法で基準を統一するかも、重要な問題である。
いつも望んだ結果が得られるような計算方法がある(LOWESSやRMAやPlierなど)が、
反証可能性を奪い、データに余計なアーティファクトが生じ、いいことは1つもない。
その後どのような高度な分析をしても、砂上に楼閣を築くだけだ。
絶対に避けるべきである。

パラメトリック法を使う場合、
それぞれのチップと測定方法によって、出現しやすいノイズの種類と傾向が異なる。
そのノイズにたいして、どんな計算方法がロバストなのかは
ちょっとしたノウハウである。
実際には、チップコンテンツのなかで、どのスポットがコントロールや空きで、
どのスポットが遺伝子に対応するのかを見つけ出すのは、けっこう面倒な作業だ。
秘匿されたコントロールがおかれているケースも多いからだ。
だから筆者はもっぱらスカイライト・バイオテック社にこの計算を依頼している。

スカイライト社はデータを受け取ると、チップごとに用意されている
プログラムにかけてデータを標準化する。

稀にデータが「望ましい分布」を示さないことがあるが、ほとんどの場合、
それはハイブリダイゼーション時のウエット実験の問題に起因している。
同社はその原因を洗い出す手伝いもしてくれる。

スカイライト社からは二種類の形で標準化されたデータが送付される(出力例)
ひとつはzスコアで、概略で正規分布するようになっている。
このホームページでは、ExcelやRで計算することを前提に説明するので、
断りがないときは、標準化されたデータはこのzスコアのことを指す。

もうひとつは擬似データで、対数正規分布する性質を持ち、
データのフォーマットも生データに似せてある。
これはGeneSpringなどの、zスコアを扱うことができないパッケージ
プログラムのために用意されている。

マイクロアレイには複数のノイズやエラーの原因がある。
そのうちのいくつかは大きさや影響の範囲が測定可能であり、
影響されるデータをあらかじめ取り除いてしまうことができる。
これはパラメトリック法の利点の一つだ。

総和的ノイズ

弱いシグナル領域とかぶり、正規分布する性質を持っている。
これはデータ分布に一定の方式で影響する(Konishi et al. 2008, Konishi 2004)ので、
レベルを推定することができ、影響されるデータの範囲を推定することができる。

信号の飽和

同様にデータ分布に一定の方式で影響する(Konishi 2004)ので、
あらかじめ影響されるデータの範囲を推定することができる。

ハイブリダイゼーションのムラ

ウエットのプロトコールに問題があったり、ハイブリダイゼーションに何か硬いゴミが入ったりすることが原因となって起きる問題であるが、その影響をうけるデータを、チップ上の物理的な位置をもとに割り出すことができる (Konishi 2006)。

スカイライト社から送付されるデータでは、これらの情報を勘案して、 ひとつひとつの測定値にフラッグ情報がついてくる。

相乗的なノイズおよび生理学的なばらつき

これは残念ながらデータ分布に影響を与えない。
そこで、原理的に、データ分布から発見することができない。
これの影響をコントロールするために「繰り返し測定」と「統計学的な扱い」をする。