いかなる方法で基準を統一するかも、重要な問題である。
いつも望んだ結果が得られるような計算方法がある(LOWESSやRMAやPlierなど)が、
反証可能性を奪い、データに余計なアーティファクトが生じ、いいことは1つもない。
その後どのような高度な分析をしても、砂上に楼閣を築くだけだ。
絶対に避けるべきである。
パラメトリック法を使う場合、
それぞれのチップと測定方法によって、出現しやすいノイズの種類と傾向が異なる。
そのノイズにたいして、どんな計算方法がロバストなのかは
ちょっとしたノウハウである。
実際には、チップコンテンツのなかで、どのスポットがコントロールや空きで、
どのスポットが遺伝子に対応するのかを見つけ出すのは、けっこう面倒な作業だ。
秘匿されたコントロールがおかれているケースも多いからだ。
だから筆者はもっぱらスカイライト・バイオテック社にこの計算を依頼している。
スカイライト社はデータを受け取ると、チップごとに用意されている
プログラムにかけてデータを標準化する。
稀にデータが「望ましい分布」を示さないことがあるが、ほとんどの場合、
それはハイブリダイゼーション時のウエット実験の問題に起因している。
同社はその原因を洗い出す手伝いもしてくれる。
スカイライト社からは二種類の形で標準化されたデータが送付される(出力例)。
ひとつはzスコアで、概略で正規分布するようになっている。
このホームページでは、ExcelやRで計算することを前提に説明するので、
断りがないときは、標準化されたデータはこのzスコアのことを指す。
もうひとつは擬似データで、対数正規分布する性質を持ち、
データのフォーマットも生データに似せてある。
これはGeneSpringなどの、zスコアを扱うことができないパッケージ
プログラムのために用意されている。