2012年8月6日月曜日

線形相関係数おぼえがき

Linear correlation coefficient 線形相関関数
Rank Correlation 順位相関
Linear regression 線形回帰
あるいは,Pearson's product-moment correlation coefficient ピアソンの積率相関関数

連続データ(continuous data, カテゴリカルデータと対比される)における妥当性/信頼性の指標として,相関係数あるいは線形回帰を使う方法はお馴染みである.値はrで表され,散布図を書いて,最小二乗法で線を引く類のものである.
「相関と因果は別物」というのはよく言われることだが,今回はそのロジカルな違いについては言及せず,上記の方法による妥当性/信頼性の検定に係る陥穽に関しておぼえがく.

biasに対する"insensitivity"

この限界は,Pearson's rに関して,最も重要なものであると言えよう.
直観的にもわかるが,線形回帰は系統的な偏り=バイアスにたいし,完全に無防備である.
真の結果(赤線)に対し,観測結果が左方に偏位しているのがわかる.biased result.
http://www-users.york.ac.uk/~mb55/talks/rcrtalk.htm
上記のようなケースであっても,Pearson's r=1となってしまう.その他のタイプのバイアスに対しても,同様にPearson's rの値は不変となってしまう.
このような限界に対しては,上記のように散布図を書くとバイアスがすぐに発見される.バイアスの分を引き算するなり,バイアスの原因として考えられるものを分析すればよい.

Pearson's rは値の"幅"に大きい影響をうける

文章化が難しいが,より"長く"まとわりつくように散布するケースの方が,より"コンパクトな"ケースに比べてよりよいr値が出る傾向がある.従って,ある母集団のサブセットを解析しようとすれば,多くの場合nが減少し分散が減ることが予測されるため,Pearson's rが不当に低くなる可能性がある.
このような場合,Spearman correlation coefficient スピアマンの相関係数 を用いることにより,幅の影響を減少することができる.

Pearson's rを"帰無仮説と有意検定"することは無意味

あたりまえであるが,Pearson's rは相関を見ている.帰無仮説とはすなわち,相関が全くない(H0: r=0.0)であり,あたりまえに有意差がでる.このことは,「相関が無いことはない,ことが有意に認められる」ことを示すに過ぎず,ほとんど意味がない.
あるいは,r=0.3等の弱い相関であっても,nを増やせば有意差が出てしまう.が,これについてもそもそも論として,意味がない.
この場合,「ほとんど完全に相関する,と仮説(H0: r=0.95)」して,これとの有意差を検定することには意義がある.あるいは,相関係数の信頼限界を計算することもこの問題の改善として役立つだろう.

以上がPearson's rの主たる問題点であり,これらに留意し使用されるべきである.Pearson's rは頻用される検定であり,限界を知ってうまく利用する必要がある.

0 件のコメント:

コメントを投稿