回転の中心

なにを基準に考えるか

これまでの主成分分析が(言外に)仮定していることがいくつかある。
たぶん数学のひとは、行列の分解の数理には詳しいけど、
データはまあどうでもいいのではないかとか思う(んなこたあないか)。
でもわりと重要な仮定が、「なんとなく」存在していたりするもの。

そのひとつが、データの重さが等しい ということ。
あるいは、サンプルには著しい偏りがない ということ。
そんなわけあるか、なんだけど、じゃあ適切な重さってどうするんだと
言われるとけっこうめんどくさい。
そのやり方がもちろんあるんだけど、あまり真面目には考えてなさそう。

もしすべてのデータの重さが等しい、偏りはないのなら、それでいいかもしれない。
だけど実際には、日々手にするデータには偏りがある。
あるひとつの物質による汚染サンプルばっかりだったり、
あるひとつの病状だったり。

これらはふたつの点で問題なのだ。
ひとつは方向への干渉。
もうひとつが原点への干渉; あるいは、何を基準に考えるか。

原点の重要性

特異値分解が原点を中心にした回転だったので、どこを基準にしてまわすのかはけっこう重要。
たとえば、こんな十字架のかたちをした3次元のデータがあったとする。

一見してわかるとおり、これは青い線で表した軸から、ちょっとずれたところにある。
これを特異値分解で回転させてやるとこうなる。

この緑色が主成分なんだけど、ぜんぜん軸にそっていない。

もし事前にそれぞれの軸でセンタリングしてやると、データはこうなる。

まあ横木が最初からずれてる(十字架だから)けど、まあまあ原点のまわりにデータが出ている。
これを回転させるとこうなる。

軸に沿っているかんじがわかるだろうか。もうひとつ角度を変えてみると、こんなかんじ。

もとの(センタリングをした)データが軸に斜めになっているけど、
主成分はぴったりと軸に沿っている。
これが主成分分析の目的なので、センタリングは重要なのだ。

なんでセンタリングしないとずれるのか?

それは、方向を考えるときに、かならず「原点からの距離」を最小にしようとしているから。
固有値分解をするときにλを出す際に、新しい平面はかならず原点を含むように設定された。
原点の位置が違えば当然λの値はかわる。

センターを平均にすることの意味

データの重心を回転の中心にしますよ ということ。
じつは数学的な制約はない。
軸をあてはめるときに、最小二乗法的な世界観に従うことになる。

センターを平均にすることの問題

分布中心を求めるにあたって、平均はロバストでない(外れ値に弱い)。
さらに、もしデータが偏っていたら、そもそも望ましい中心はそこにないかもしれない。

望ましいデータの中心ってなんだ

シグナルはどう出るのか、ノイズがどう乗るのかを考える。
シグナル最大でノイズ最小なのが望ましい。
ノイズは平均とれば減るけど、シグナルはどうなの? 
シグナルってなんだっけ?

シグナルって

ふつうの観察ではシグナルは、対照区と実験区の差である。
実験区と全体の平均との差じゃないんだよね。

センターを平均にすることの意味2

もしサンプルに偏りがなくて(項目にではないよ)
外れ値もないのなら、センターを平均にしても問題は少ない。

数学的にも、データのばらつきを分散や標準偏差で評価する、
最小二乗法的な世界と合わせることができて、好都合(説明に面倒がない)。

しかし普通のデータは

サンプルは偏ってるわ外れ値はあるわ、がふつう。
なら本来的なシグナルの意味に立ち返るべき。
つまりそれは、対照区の分布中心で、
だからなにかロバストな演算でもとめたコントロール群の平均にすべき。

そこをセンターにするだけなので、センタリングということばを
引き続き使いたいけど、紛らわしいかなあ?

目次にもどる