統計学の基礎知識

     この項目の目的は、一般的な統計学について述べることではない。遺伝統計学に必要な知識について概説する。

     特に、尤度 (likelihood)、尤度比 (likelihood ratio)、最尤推定法 (maximum likelihood estimation)、事後確率、ベイズの定理 (Bayes theorem)などは慣れない場合にはわかりにくいであろう。それらについて解説する。
 
 確率と尤度

     サイコロを振った結果は1, 2, 3, 4, 5, 6のそれぞれの目が出る場合にわけられる。これらを事象という。3の目がでる事象の起きる確率は1/6である。このようにある事象の「確率」という場合、通常はその事象はまだ起きていない。3という目が出てしまうと、それは確率1であり、「1/6」という数値は確率と言う概念とは違ったものになる。

     もし、サイコロが少しひずんでいるとして、そのひずみをpで表すとする。そのひずみにより3の目の出る確率が1/6から少しずれるとすると、確率はpの関数となる。pのように、各事象の確率に影響を与える因子をパラメーターという。一般に確率はパラメーターの関数である。

     科学においては、我々はまずモデルを立て(仮説)それが実際の観察データに合っているかどうかを考える。その指標として尤度という概念を導入する。尤度を考える場合、事象は既に起きており、観察データが得られている。しかし、それを説明する仮説の正しさが不明である。そこで、あるモデルが正しいとして、その仮説の下での、観察データが起きる確率を考える。これが尤度である。尤度はしばしば、パラメーターの推定をするために用いられる。パラメーターとは、例えばサイコロのひずみの程度である。サイコロのひずみがpであったという仮説の下で「3の目が出る」確率を考える。これが、「3の目が出た」という観測データの下でのサイコロのひずみがpであるという仮説の尤度である。

     確率も尤度も数式や数値は同じである。「ひずみがpであるときの3の出る確率」も「3が出たという観察データの下でのひずみがpであるという仮説の尤度」も数式は同じである。しかし、確率と尤度は意味するところが異なり、それに係わる法則も違う。確率が「事象の確率」であるのに尤度は「観察データの下での仮説の尤度(likelihood for a hypothesis given a set of observations)」である点に注意する。
 
 尤度比とロッド値

     一般にモデルの尤もらしさを比較する場合、尤度そのものにはあまり意味が無いことが多く、異なったモデルの尤度の比を取ることが有用である。つまり、仮説1(H1)と仮説(H0)のどちらが尤もらしいか、尤度の比を取る。H0には今から否定したい仮説が取られ、H1には肯定したい仮説が取られる。仮説Hの尤度をL(H)と表すと、L(H1)/L(H0)の尤度比を取って、H1の尤もらしさがH0の尤もらしさよりどの程度高いかを調べる。

     連鎖解析ではH0は連鎖なし、H1は連鎖ありという仮説である。組み換え割合θで表すと、H0はθ=0.5、H1はθ<0.5であり尤度比はL(θ)/L(0.5)で表される。尤度比の常用対数を取ったものが下記のロッド値(lod score)である。

Z(θ)=log10[L(θ)/L(0.5)]

     H1もH0も同様に尤もらしい場合は尤度比は1となり、ロッド値は0となる。
 
 最尤推定法

     パラメトリック連鎖解析で単点分析の場合は、多くの場合パラメーターは組み換え割合、θである。観察データとは、家系と家族員に与えられた遺伝子型と疾患のある無しのデータである。θにいくつかの値を入れてみて、観察データの下でのそれぞれのθの尤度を計算する。あるθの時に最も尤度が最高になるとすると、観察データからはそのθが最も尤もらしいということになる。このようにパラメーターを動かして、尤度が最高になるようなパラメーターを捜す方法を最尤推定法(最尤法、maximum likelihood estimation)という。そのような最大の尤度を最大尤度(maximum likelihood)といい、それを与えるパラメーターの値を最尤推定値(maximum likelihood estimate; MLE)といい、パラメーターを表す変数の上に山形記号(hat)をつけて示す。このように最も尤もらしいパラメーターを推定することができる。

     L(θ)/L(0.5)という尤度比では、分母はθに関しては定数である。即ち、尤度比を最大にするパラメータと尤度を最大にするパラメーター、さらにはロッド値を最大にするパラメーターは同じである。最尤推定値の求め方は二つあり、一つは解析的に求める方法である。尤度はパラメーターの関数なので、これをパラメーターで微分し、0と置いて方程式を解く。もう一つは数値的に求める方法である。Estimation-maximization algorithm (EMアルゴリズム)がしばしば用いられる。
 
 最尤推定値のバイアス

     このように推定された最尤推定値はバイアスがかかっていないのであろうか。バイアスがかかっていないとは、次のような意味である。
例えば組み換え割合θにより、piの確率でdiというデータが出て、diからθiという最尤推定値が推定されるとする。この時、

θ(真の値) = Σpi θi(推定値)

の関係があれば最尤推定値にバイアスがかかっていない。

     組み換え割合についてはしばしば最尤推定値にバイアスがかかっていることが知られている。

     それは、n個の減数分裂の内、n/2を越える組み換えが見られた場合、θの推定値が1/2となることによる。これによりθは実際より低く見積もられる事になり、バイアスがかかることになる。しかし、多くの減数分裂の観測を行うことにより、このバイアスは低下する。n/2を越える組み換え割合が推定される確率が減るからである。一般に、連鎖解析によるθの最尤推定値にはバイアスがあるが、その程度は小さく、観察データを増やすことによりバイアスは低下する。
 
 検定と危険率

     連鎖解析でパラメーターであるθを推定する場合、連鎖が無いという仮説を否定する目的である場合が多い。即ち、θ=1/2という仮説を否定するのである。このように、ある仮説(連鎖している)を証明したい場合、それと反対の仮説(連鎖していない)を検定により否定するという立場を取る。後者の仮説を帰無仮説と呼ぶ。ほとんどの場合、帰無仮説は100%否定することはできない。ここで、観察データから計算できる統計量を考える。もし、帰無仮説が正しければ、どのような観察データがどのような確率で生み出されるかはわかるので、その統計量の確率分布もわかる。例えば、95%の確率で、平均値というテスト統計量が67.3以下になるというようにわかる。即ち、何回も帰無仮説のもとで生み出された観察データの統計量のほとんど(これを、割合1-αとしよう)がある値以下となる、というような閾値を設ける。そして、その閾値を越えるデータが観測されたとき、帰無仮説を否定する。そして、その危険率をαとする。

     本当は帰無仮説が正しいのにそれが否定される事(偽陽性)をタイプIのエラーと呼び、その確率をタイプIのエラー比率と呼ぶ。帰無仮説が否定された場合、有意差あり(significant)といい、否定できない場合、有意差なし(non-significant)という。即ち、タイプIのエラー比率とは、帰無仮説が正しい場合に、significantと結論づける比率である。

     医学では疾患の診断法などについて、「感度(sensitivity)」「特異度(specificity)」の概念がしばしば用いられる。疾患であることをH1、疾患で無いことをH0とすると、感度は疾患であるとき(H1)疾患と判定される確率なので検定力(1-β)、特異度は疾患でないとき(H0)疾患で無いと判定される確率なので1-αと考えられる。

     一般に、テスト統計量の閾値はαの値により人為的に調節できる。αを小さくすると有意差が出にくくなり、大きくすると出やすくなる。例えばα=0.05などと固定し、テストを行う。このようにテストすると、本来、有意差があるのにテストで有意差なし、と出る場合もある(偽陰性)。これをタイプIIのエラーとよび、その比率をタイプIIのエラー比率と呼びβで表す。1-βを検定力(パワー)と呼ぶ。即ち、パワーとはH1が正しい時、有意差がでる確率である。
有意差なしという結果がでると帰無仮説が正しい事が証明されたと考えるのは誤りである。単にパワーが低いためである可能性もある。

     連鎖解析の場合、しばしば帰無仮説はθ=0.5であり、H1はθ<0.5である。
 
 事後確率とベイズの定理

     一般に確率は事象が起きる前に予測するためのものであるが、尤度はすでに起きた事象の観察データに基づいて、モデル(仮説)の尤もらしさを考えるためのものであった。事後確率(後方確率ともいう)は、ある観察データのもとでのモデルの確率を計算するものである。

     ベイズの定理は非常に有用な定理であるが、感覚的にわかりにくいところがある。ここで、RAテストという検査の例を取って、ベイズの定理を説明する。

     慢性関節リウマチという病気は一般に1%位の頻度で存在する。慢性関節リウマチ患者にRAテストを行うと80%が陽性である。慢性関節リウマチでない人にRAテストを行うと3%が陽性となる。検査というのは当然、その結果によって疾患の可能性が変わるから行うのであるが、RAテストが陽性という結果がでた事により、慢性関節リウマチの可能性はどの程度高くなるのであろうか。ここで、慢性関節リウマチ(RA)であるという事象をF、RAテストが陽性という事象をEで表す。RAでないという事象をFcで表すとする。

     上の80%、3%という数値は、次のような概念に相当する。

     P(E|F)=80%
     P(E|Fc)=3%

     ここで、P(E|F)はFという条件の下でEという事象の確率を示す。

      また、慢性関節リウマチの頻度が1%であり、今テストを行われる人につて全く情報が無いとすると、

     P(F)=1%

    ここで、P(F|E)という式について考えてみる。これはRAテストが陽性の時に、それを行われた人がRAである確率である。これは次のような順序で考えるとわかりやすい。

     (1) 世の中にはRAである人とRAでない人がいるが、その割合はP(F)、P(Fc)=1-P(F)である。
     (2) RAであって、RAテスト陽性の人の全体での割合は、P(F) P(E|F)。
     (3) RAではなく、RAテスト陽性の人の全体での割合は、P(Fc) P(E|Fc)。
     (4) RAテスト陽性の人の全体での割合は (2)+(3)
     (5) その中で、RAの人の全体での割合は (2)。
     (6) 従って、RAテスト陽性の人の中でRAの人の割合は (2)/[(2)+(3)]即ち、

     P(F|E) = P(F) P(E|F)/[P(F) P(E|F) + P(Fc) P(E|Fc)]

     最初に何の情報もなく、RAテスト陽性という結果だけがわかっているとすると、この人がRAである確率は、

     P(F|E)=0.01 x 0.8 /(0.01 x 0.8+0.99 x 0.03)=0.212

     約21%である。

     P(F)、即ち、RAテストを行う前のRAの確率のようなものを事前確率と呼ぶ。それに比べ、P(F|E)、即ちRAテストをやったら陽性がでたときに、RAの確率を考えるような場合を事後確率と呼ぶ。RAテストという観察データによりRAである確率が変化し、上昇した。即ち、事前確率1%から事後確率21%になった。

     以上の例では、RAである、RAでない、の二つの事象を考えたが、もっと多くの事象にわかれる場合、一般的にベイズの定理は次のように表される。

P(Ek|F) = P(F|Ek) P(Ek) / ΣjP(F|Ej) P(Ej)

ここでEjはj=1,2,...の異なった事象である。

     上の例では、RAの診断という概念を用いたので、事後確率という概念が比較的わかりやすく理解できたと思う。それは診断基準などの概念があり、誤診率などの概念も存在して、一般にRAである確率という概念が理解しやすいためである。しかし、RAか無いかは既に決まっていると考えると、RAの確率という概念は理解しにくいとも言える。一般に、事後確率の概念は非常に理解しにくいことが多い。

     研究者によっては事後確率の概念を用いることを嫌う人もいる。尤度比という概念を用いれば、事後確率の概念は必要無いと考える研究者もいる。事後確率の概念が嫌われる一つの理由は、事前確率が多くの場合、不明だからである。前述のように、尤度に事前確率をいれると、すぐに事後確率が計算できる。事前確率があいまいなままでも仮説の尤もらしさを比べることができるのが尤度比なのである。

     例えば、前述の場合には事前に全く、その人の情報が無いと仮定した。従って、RAテストが陽性になってもRAの可能性は21%なのである。しかし、一般にはRAを疑うからRAテストを行うのである。その場合は、21%より更に高い確率となるであろう。なぜなら、事前確率、P(F)が1%ではないからである。この場合には、事前確率は用いずに、RAである場合と、RAで無い場合の二つに分けて、それぞれの場合の尤を計算し、その比を取るだけで表した方が良いと考える人も多いであろう。

     ベイズの定理は不完全データから完全データを予測するためのアルゴリズムにしばしば用いられる。

     例えば、EMアルゴリズムでは不完全データの尤度を計算し、それに基づいてベイズの法則でパラメータの期待値を計算する。

     Genehunterでは観察データに基づいて、継承ベクトルの尤度を計算し、その継承ベクトルの尤度に基づいてθの期待値をベイズの定理により計算する。そして、そのθを用いて観察データに基づいて再び継承ベクトルの尤度を計算する。そのようにして、尤度が収束するまで繰り返す。
 


[形質マッピングホームページTOP]