データ解析の前提

トランスクリプトームのためのフレームワーク framework for transcriptomics

RNAを逆転写してプローブをつくって、
それをチップ上のスポットとハイブリダイズさせ、
そのシグナルを画像として検出・記録し、
その画像を数値化したものがマイクロアレイのデータだ。

マイクロアレイのデータは大雑把に言って、
プローブの種類に関する情報と、測定したシグナル強度から成っている。
このシグナル強度から何かを知ることが解析の目的である。

シグナル強度は、1つだけ取り出したとき、何の意味も持たない。
むしろ、他の強度との関係の中にこそ、意味がある。
シグナル強度には単位がついていない。相対値だからだ。
関係を知るためには、比較をする必要がある。
そうした単位のない数値の比較するためには
測定ごとに生ずるデータの傾向ないしクセを補正しなければならない。
これをデータの標準化という。

この標準化をするためには、前提となる約束事が必要になる。
この約束事は定義、仮定、定理などの集まりである。
比較した結果を評価するためにも前提はある---
それどころか、おそらく、人間が考えるためには前提が必要である。
こうした前提をここでは(知的な)フレームワークと呼ぶ。

ゲノムはDNAに塩基配列で記録されている情報である。
トランスクリプトームとは、ゲノムからの転写物のコンテンツのことだ。
ゲノムは情報だけど、転写物はただの情報ではなくて、
量をもった物理的な存在でもある。
この量を扱うのがトランスクリプトーム研究だ。

そこで、これを扱うフレームワークには制約が生じる。
・定量性があること(できればSI単位系とコンパチブルであるように)
・誰がどんな機材を使って測定した結果でも、同一の結果をもたらすこと
などである。

このサイトで紹介するは、物理学的に妥当だと思われるモデルをベースにして、
統計学的にデータを確認しながら作業を進めるためのフレームワークである。

頑固で、地味で、ぜんぜんファッショナブルではない。
しかし、吝嗇なモデルに立脚し、検証可能性を持つという点で、
現時点でたぶん唯一のフレームワークである。

この二つは密接に関連する。
標準化のためには
・なにを基準にして
・どんな手法で
計算をするのか、最低この二つの前提が必要になる。
この二つの前提は、フレームワークの最も基礎になるコアを形成する。
また、フレームワークとして必要な前提が揃うと、
標準化のための方針はほとんど必然的に決定される。

そこで、標準化の方法ごとに異なるフレームワークができる(ある)。
あるいは、
標準化が異なればフレームワークも異なる。

そして一般に、複数のフレームワークから導かれた
演算結果をとりまとめるのはたいへん困難である。
これは、フレームワーク間の議論が困難であるという
その困難さのエッセンスのような現象だろう。