データ分布とノイズレベル

分布の確認方法と、データの不具合の発見

よく使われる分布の確認方法にヒストグラムがある。
ぱっと見で特徴をつかみやすい利点があるけれど、やや厳密さに欠ける。
どんなヒストグラムが何を表すのかがわかりにくいからだ。
もっと厳密に確認するための図示の方法にQ-Q Plotがある。
これは、1対のデータセットの分布が同じなのか違うのかを確かめる方法である。
それぞれのデータセットの同じ分位数(パーセンタイル等)を比較する。
もし分布が一致するなら、当然、同じ分位数は一致する。

たとえば、ふたつの街が同じくらい豊かなら、それぞれから抽出したサンプルのうち
上位1, 2, 3, ... 99, 100パーセンタイルの人々の年収はおよそ一致するだろう。
そこでQ-Q Plotは y=x の直線になる。

Q-Q Plotを使って、ある実験データを数理モデルと比較することもできる。
たとえばデータを正規分布(という数理モデル)と比較すれば、
そのデータが実際に正規分布するのかどうかはまさに一目瞭然になる。
この用法はよく Normal Q-Q Plot ないし Normal Probability Plotとして紹介されている。

normal plobability plot histogram
上の図は、 少しだけ正規分布から外れた分布 (-> R script) 調べた例である。
ヒストグラムではわかりにくいが、 Q-Q Plotでは直線からのずれが確認できる。
正規分布とデータを比較する場合、分布の性質上、プロットされるデータに疎密が生じる;
どうしてもゼロ付近が混んで、そこから離れるほど疎になる。
もともとゼロから離れたデータはとても珍しくなるのだが、
そうしたデータがしかし(印象として)目立つところに図示されることになる。

しばしば、プロットの端はさまざまな理由で直線を外れるけど、
どのくらいの割合のデータが実際に外れているのかは確かめるべきだろう。

正規分布 + 定数


0.01だけ定数が残っている状態

ある底の、正規分布する数列によるべき乗が、
対数正規分布する数列である。
この数列になにか定数を足した(か引いた)数列がこれだ。

この定数がクセモノである。

大きな数を扱うときに、対数をとることがある。
これはほとんど無意識に反射的にやってしまうのだが、
この定数を放っておいたままだと、
対数値は正規分布ではなくなる。
0.1だけ定数が残っている状態 しかもその関係はリニアではない。

たとえばこれらは、それぞれ、
定数を足した状態にある対数正規分布の
対数値をQ-Q Plotとヒストグラムで見たものだ。

ヒストグラムからはひずみ(skew) が見て取れるだろう
(これはしばしば論文等で見かけるものだ)。

結論から言うと、これは3パラメータ対数正規分布する。(-> 論文)
トランスクリプトームが対数正規分布して、 (-> 論文) (-> サイト内の説明)かつ、
それをハイブリダイゼーションで確認する際に分布様式が変化しない(-> 論文)からだ。

マイクロアレイのデータは、いったん画像として記録されてから、数値化される。
画像は最も暗いところでも信号がゼロにならないように調整されるのが普通だ。
そこで、数値化された信号は、もっとも低い値でもゼロにはなっていない。
ハイブリダイズがまったくない状態でも、ある正の値を示すことになる。
これがバックグラウンドである。
バックグラウンドは、3パラメータ対数正規分布 ( 底正規分布 + 定数 ) の
定数に相当する働きをする(正でも負でも)。
そこで、定数を適切に見つけ出して削除しないと、データはリニアリティを失うことになる。

ホワイトノイズの影響

あらゆる測定と同じくマイクロアレイのデータにも
相和的なホワイトノイズが含まれている。

これは、対数正規分布にたいして右のような効果を持つ。
(-> R script PLoS ONEのサイトの.docファイル)
色で示された擬似データは、それぞれ異なるレベルの
ホワイトノイズを付加されている。

ホワイトノイズのレベルより小さい信号は、基本的に測定できない。
そこで、この影響を強く受けることが予想されるシグナル領域のデータは、
測定不能であったとして排除すべきである。
幸いなことに、このレベルはデータの分布から推定可能だ。

ホワイトノイズの影響

測定機のダイナミックレンジや、
画像としての記録フォーマットには限界がある。
これらの影響のために、強いシグナルはリニアリティを失い、
やがて飽和する。

いわゆる外部標準のシグナルや、
rRNAなどのシグナルの多くはこの飽和領域で観測される。

幸いなことに、どの程度のシグナル強度から影響されるのかは
データ分布から推定可能である。
またこの影響を受けるスポットの数は、
せいぜい数パーセントであることが多い。

残念なことに、分布に影響してくれない現象は、影響を分布から見つけ出すことができない。
これらには次のようなものがある。

相乗的なノイズ

たとえば画像のなかでシグナルの位置を見つけ出す際のエラーや、
ハイブリダイズの際のムラによって起きるノイズである。
測定を繰り返すことで見つけたり、影響を減少させることができる。
例外的に、比較的に大きなサイズのムラは、発見して取り除くことができる。(-> 論文)

生物学的なノイズ

実際にはこれの影響が最も大きい。
生体材料の生理学的な条件を一定に保つのはたいへん困難なのだ、
個体差も勘案する必要がある。
これのためにこそ、繰り返し測定は必要である。
その結果のデータをどう処理していけばいいかは別のページに。

top