分析者の選択肢

おそらく、選択肢が多いほど、客観性が少なくなっていく。
まるでないと困るかもだけど、この方法にはあまり選択肢がない。

とにかく特異値分解の計算がはじまってしまうと、次の瞬間には答えが出ている。
ということは、なにかやるとしたら、その計算のまえにやらなきゃいけない。

実験デザインの認識

あるいは、データの大きな構造の認識。
どれが対照群なのか。
どのサンプルとどのサンプルをおなじグループとしていいのか。
実験ならデザインから自明、ってわけでもない。。。
実験の実際は、もうちょっと「緩く」デザインされていることが多い。

測定値の変換

偏りのないサンプルが正規分布してくれているとありがたい。
でもそうでない場合は、なんらかの変換をしたほうがいいかも。

たとえば対数正規分布を与えるような測定だったりすると、
やたら外れ値が多くなるはず。

さらに、測定値間でマグニチュードが揃わないときは、スケールを合わせたほうがいい(かもしれない)。
ミリグラムとキログラムがそれぞれ入っていたら、ミリグラムのデータは飛んでしまう。
だけど、なにがなんでもスケール合わせればいいかというと、そうとは限らない。
たとえばマイクロアレイ。
もちろん動きやすい遺伝子とそうでないのがあるので、これをスケーリングすることには一定の意味がある。
でも実際にやってみると、しっくりこないことも。
一定のレベルのノイズがあるので、スケールをあわせるとそれが表に出てくることもある。

閾値

それぞれの項目のどれを選んでどれを捨てるかは、
ふつうはANOVAで判断すればいいのだと思う。
そのときに閾値をどうするか、多重性をどう考えるかが問題になるかも。
どんな方法で検定するのかも。
もちろんこれは、変換をしたあとに計算すべき(正規生のこともあり)。

欠損値

あると計算できない。 だから埋めるのだけど、
無難な選択として、センターの値を使うのが一手。
「測れなかった値」を、「効果が確認できなかった」に置き換えるわけだ。
同じグループの平均に置き換えてもいいけど、その場合、検定するときは要注意。

極性

VとかUとかってベクトルなので、向きが正反対になってもいいわけで。
その場合、それぞれの該当する列の符号が、揃って逆向きになる。
どっちでもいいんだけど、プレゼンするときには、望ましい方向があることも。
望ましい効果を右側・上側にしたい、とか。
そのときは、揃えてひっくりかえします。UとVの3列めを逆に、みたいな。
ここだけは特異値分解のあとに計算することになる、
どちら向きになるのかは、計算おわるまでわからない。

目次にもどる