[ Phenotype (表現型) と Trait (形質) ]

 個体レベルで観察されるものを示す言葉に表現型 (Phenotype) と形質 (Trait) がある。

 形質とはカテゴリーのことを示しており,表現型はその形質において観察される個々のタイプを示す。「エンドウ豆の形」という形質の中に,「丸い」,「皺がある」という表現型が存在する。「病気であるか無いか」が形質であり、「病気である」、「病気でない」という表現型がある。しかし、しばしば表現型と形質とは同じ意味で用いられる。

 表現型、形質は最も我々の実生活と関係するものである。しかし、それは遺伝の本質と一対一に対応するものではない。メンデルは表現型と遺伝の本質との対応を考え、遺伝子座、遺伝子型、対立遺伝子の概念を考えた。メンデルの法則は表現型と遺伝子型の関係、遺伝子型と対立遺伝子の関係、異なった複数の遺伝子座間の関係を表す法則で、現在でも本質的にすべて正しい。

 現在ではメンデルの法則は染色体や分子生物学の概念で完全に置き換えられるように見えるが、数理的な部分は未だにメンデルの法則の方がより正しい表現が可能である。

[ Locus (遺伝子座、または座位)]

 一つの交配集団に共通して、多数の遺伝子座が存在すると考える。一つの個体については、一つの遺伝子座に一つの遺伝子型が存在する。染色体による表現では遺伝子座は交差が起きる最小単位の領域にはさまれた部分である。分子生物学的には遺伝子座は一塩基である。

[ Genotype (遺伝子型) ]

 遺伝子型は一つの遺伝子座について、一つの個体に存在する二つの対立遺伝子(常染色体遺伝子座の場合)の組合せである。一方の対立遺伝子は母親から、別の対立遺伝子は父親から(有性生殖の場合)配偶子に運ばれて来る。また、次の世代では、遺伝子型を構成する一方の対立遺伝子を配偶子により子に伝達する。

 なお、メンデルの第一法則(優劣の法則)は遺伝子型と表現型の対応に関する法則である。即ち、第一法則は、個体の表現型が遺伝子型の関数であることを主張し、その関数に優性と劣性が(場合によっては共優性)が存在することを示す。 現在では表現型は遺伝子型の関数で表される確率分布に従う事象であると解釈される。(即ち、個体の持つ各遺伝子型に浸透率が対応し、浸透率の確率で、個体はある表現型をとる)。

 メンデルの第一法則によると個体において最も本質的なものは表現型ではなく、遺伝子型であり、遺伝子型は個体のレベルでは完全に安定である。

 染色体のレベルでは、遺伝子型は二つの相同染色体上の相同部分に存在する二つの相同部位の組合せである。分子生物学のレベルでは遺伝子型は多型のあるSNP、またはSTRP、VNTRなどの組合せである。

[ Allele (対立遺伝子) ]

 遺伝子型は個体のレベルでは安定であるが、世代を超えると安定ではない。個体を超えて安定して伝えられるのは遺伝子型ではなく対立遺伝子である。

 メンデルの遺伝法則の第二法則(分離の法則)は遺伝子型を構成する要素のうち、世代を超えて安定な単位に関する法則である。世代交代の際に遺伝子型を構成する対立遺伝子が一個だけ、同確率で次世代に伝えられることを示している。そのため、世代を超えては対立遺伝子が最小の安定した単位である。

 世代交代で対立遺伝子が一個だけ、同確率で伝えられるということは、一つの対立遺伝子が伝えられる確率が1/2という事である。遺伝統計学の成功は、対立遺伝子伝達の事前確率が1/2である事がメンデルの分離の法則により完全に保証されているという事に依存する。

 染色体のレベルでは対立遺伝子は片方の染色体上の部位であり、分子生物学では片方の染色体上のSNP、またはSTRP、VNTRなどの多型である。

[ Linkage (連鎖) ]

 連鎖とはメンデルの第三法則の例外である。メンデルの第三法則(独立の法則)は複数の遺伝子座の間の関係に関する法則である。異なる座位にある対立遺伝子の子への分配は互いに独立であることを示している。

 染色体レベルでは、これは二つの座位が異なった染色体上にあるときにのみ正しい。同じ染色体上の二つの対立遺伝子は物理的に結合しているので、つながったまま同じ配偶子に入り、子に伝わる。即ち、第三法則が成立しない。しかし、同じ染色体上に存在する対立遺伝子が完全に結合して世代交代を続けるとは限らない。減数分裂の時に、染色体が交差して結合していた対立遺伝子の組合せが変化することがあるからである(組み換え)。組み換えの可能性は二つの座位間の距離が離れていればいるほど大きい。

 遺伝子座の異なる遺伝子において必ずしもメンデルの独立の法則が当てはまらないことを示したのはモルガンである。即ち連鎖 (Linkage) の発見である。

 しかし、異なった染色体上の遺伝子座では依然として独立法則は正しく、しかも連鎖の概念が成立するためには独立の法則の概念が存在することが前提であることに注意が必要である。独立の法則はメンデルの誤りであるという解釈は間違っている。

[ Crossover (交差) ]

 減数分裂の過程でおこる相同染色体同士の部分的な乗り換え現象の事を指す。交差は顕微鏡で染色体の現象として見ることができる。

 これは動作を示すことばであり,1回の減数分裂において1対の染色体上で交差が複数回起る可能性は確率的にありうる。交差が起きても組み換えが起きるとは限らないことに注意。交差と組み換えがどの程度起きるかについては、遺伝的距離と組み換え割合という別の概念がある。

組み換えと交差は異った概念であることに注意。

一般に遺伝統計学で問題となるのは組み換えであり、交差ではない。

[ Recombination (組み換え) ]

 連鎖している二つの遺伝子座の対立遺伝子について、親からもらった配偶子のそれぞれの対立遺伝子が、そのままの組合せで減数分裂の時、同じ配偶子に入り、子供に伝えられるか、別の親の対立遺伝子が同じ配偶子に入るかに関する概念。片親からもらった二遺伝子座の対立遺伝子の組合せがそのまま子に伝えられる場合、組み換えが起こらなかった、それ以外の場合(別々の親から来た対立遺伝子の組合せが子に伝わる)を組み換えが起こったと考える。

 染色体レベルの表現では,1本の同一染色体上にある2つの遺伝子座の対立遺伝子,A,Bを考えたとき,奇数回の交差によって,それぞれの対立遺伝子が違う染色体上に存在部位が移ったとき,この2つの遺伝子座間には組み換えが起こったとされる。

 一方,全く交差が起こらなかったとき,もしくは偶数回の組み換えが起こった場合,最終的には2つの遺伝子間の ”状態” は変化しない(やはり同一染色体上にある事になる)。この場合2つの遺伝子間での組み換えは起こらなかったとされる。

[ Penetrance (浸透率) ]

 メンデルの第一法則は表現型が遺伝子型に規定されていることを主張するが、遺伝子型が同じ個体がすべて同じ表現型を持つのではない。例えば、ある遺伝子座があり、その対立遺伝子としてAとaがあるとする。Aが正常対立遺伝子、aが病気を起こす対立遺伝子とする。この疾患が優性遺伝で、この遺伝子座のみによって決まるとすると、Aaとaaの個体が患者となる。しかし、Aaの遺伝子型の個体がすべて患者となるのではなく、確率により患者となるかどうかが決まると考えるのが遺伝学の考え方である。ある遺伝子型の個体がある表現型を取る確率を浸透率(Penetrance)という。

 浸透率はそれぞれの遺伝子型に対応した 0-1の値を取る。

 連鎖解析では浸透率の概念が非常に重要である。特に、パラメトリック連鎖解析では各遺伝子型に対応する浸透率をlinkage parametric file (いわゆるdatファイル)に記載しなければならない。なぜなら、パラメトリックの本質は遺伝形式が仮定されることであり、遺伝形式の本質は各遺伝子型と浸透率との対応だからである。

[ Allele frequency (対立遺伝子頻度,遺伝子頻度) ]

 一つの遺伝子座位について、一つの個体は一つの遺伝子型を持つ。一つの遺伝子型は二つの(常染色体上の遺伝子座の場合)対立遺伝子の組み合わせとして表される。集団単位でそれぞれの頻度を考えるとどうなるだろうか。

 遺伝子型を単位として集団内で数を数えると、全遺伝子型の数は集団の個体数と同じになる。しかし、遺伝子型の頻度は不安定である。結婚形態などの変化があると遺伝子型の頻度は一世代で大きく変わる可能性がある。しかし、対立遺伝子頻度 (単純に遺伝子頻度と呼ばれることもある) は容易に変化しない。対立遺伝子の数は個体数ではなく、個体数の二倍であることに注意する。

 遺伝子型頻度に比べて遺伝子頻度は世代を超えて非常に安定であるため、通常、分子進化などの研究では遺伝子頻度の推移を問題にすることが多い。

 Hardy-Weinberg平衡にある集団では遺伝子型頻度は対立遺伝子頻度により決まる。しかし、近親交配などの存在でHardy-Weinberg平衡からのずれがあると遺伝子型頻度は対立遺伝子頻度により決まらない。

 連鎖解析では、遺伝子頻度を入力ファイルに記載する必要がある。一般に、すべての個体の遺伝子型が決定されている場合は遺伝子頻度は影響しないが、遺伝子型が決定されていない個体がある場合は遺伝子頻度が関係する。

[ Heterozygosity (ヘテロ接合度) ]

 ヘテロ接合度,Hは,

  

で定義される。ここで、nは異なる対立遺伝子の数である。 Hardy-Weinberg平衡状態(HWE)である時には、このヘテロ接合度がすなわちヘテロ接合体頻度となる(HWEでない時には今定義されたヘテロ接合度からヘテロ接合体頻度は算出できない)。

 HWEをずらす因子としては近親交配が考えられる。この係数として近交係数Fを定義する。これは2人の個体から任意に選んだアレルが同祖である確率である。Fが高い(近交係数が高い)ほどHWEからのズレは大きくなる。このFを考慮した時のヘテロ接合体頻度は、

  

である。人間の場合はこれまで観察されたFの最大値はF = 0.05である。

 一つの遺伝子座における集団の多様性を表す指標がヘテロ接合度である。ヘテロ接合度は集団から任意の二つの対立遺伝子を取り出したとき、その二つが異なる確率として定義される。連鎖解析、あるいは連鎖不平衡解析ではヘテロ接合度が高いことが望ましい。

 一般にヘテロ接合度は突然変異率に関係している。無限対立遺伝子モデル (起こる突然変異がすべて異なった対立遺伝子を生み出すと仮定する) のもとで、中立座位(すべての対立遺伝子の適応度が同じと仮定する)については、平衡状態において突然変異率 m の座位のヘテロ接合度は

   = 1 - 1/(4Nμ + 1)

となる。ここで、Hは集団のヘテロ接合度、Nは集団の有効な大きさ、μは世代あたりの突然変異率である。即ち、突然変異率が高い程、集団の有効な大きさが大きい程、ヘテロ接合度(多様性)が高い。

 一般に、突然変異率の高い座位ほどヘテロ接合度が高いことになる。SNPとmicrosatelliteマーカーでは後者の方がはるかにヘテロ接合度が高いが、これは後者がより突然変異率が高いためと考えられる。

[ Genetic map distance (遺伝的距離) ]

 2つの座位間で起きる交差の回数の期待値と定義される。

 単位は,M(モルガン)。1モルガンは1回の減数分裂において1回の交差が期待できる距離として定義される。1センチモルガンは1/100モルガン。算術的に加減算をすることができる。距離が離れれば交差回数は比例的に増えるので、理論的にはいくらでも大きな遺伝的距離を仮定できる。従って、遺伝的距離はゼロから無限大。

 物理的距離とは順序以外には一義的には明確な関係式を示すことはできない。物理的距離は塩基配列の数であり、一般に遺伝統計学では取り扱わない。

[ Physical map distance (物理的距離) ]

 遺伝子の塩基配列を読んだときの2座位間の物理的な距離を表す。単位は通常はbase(塩基対)を用いる。

 この物理的距離と,遺伝的距離には順序以外には明確な関係式はない。これは中の塩基配列等によって,交差確率が場所により不均一である事に起因する。遺伝統計学においては物理的距離が登場することは滅多にない。

[ Recombination fraction (組み換え割合) ]

 1回の減数分裂において2座位間で組み換えが起こる確率。確率なので1以下であるのはもちろんだが、通常0≦ θ ≦ 0.5である。なぜなら、座位間が離れれば交差で組み換えが起きる確率は高くなるものの、もう一度交差が起きて組み換えがもどる可能性も高くなるからである。

 θ=0.5のとき,自由組み換え(違う染色体に乗っている2つの遺伝子の組み換え)と同じと考えられる。

 まれに,θ> 0.5となる場合がある。これは,1回の組み換えが起こったときに,2回目の組み換えが抑制される現象(干渉,Interference)が起こる事により生じる。

 組み換え割合は遺伝的距離と違って、単純に加減計算することはできない。A、B、Cがこの順に並んでおり、A-B、B-C間の組み換え割合がθ1、θ2の時、A-C間の組み換え割合は、どちらかのみに組み換えが起きる確率の和なので、θ1 (1-θ2)+θ2 (1-θ1) である。

 また、A-C間で組み換えが起こらなかった場合、A-B、B-C間で組み換えが起こった確率はともに、θ1θ2 + (1-θ1) (1-θ2) である。A-C間で組み換えが起こった場合、A-B、B-C間で組み換えが起こった確率の比率は、θ1 (1-θ2):θ2 (1-θ1) である。

[ Map function (マップ関数) ]

 組み換え割合(Recombination fraction)θ,と遺伝的距離(Genetic map distance)xの間の関係式(関数)。

 0 ≦x< ∞(実際は染色体の長さ以下)と,0 ≦ θ ≦ 0.5との間の関係式で表される(x → ∞,で,θ → 0.5)。 一定の遺伝的距離の中で起こる交差の数がPoisson分布関数P(λ) に従うもの, f(x) = e-λλ* x / x! (x = 1, 2, ..) としたときの,遺伝的距離と組み換え割合の関係を示す関数をHaldaneのmap functionといい、以下の式で表される。(干渉が全くないと仮定されている) x,θ が十分小さいときは,ほぼ,x=θとなる。

Haldaneのマップ関数

 干渉を考慮した次のKosambiのマップ関数もしばしば用いられる。

Kosambiのマップ関数

 この他にもいくつかのマップ関数が用いられるが、最もしばしばもちいられるのはHaldaneとKosambiのマップ関数である。

一般に、連鎖解析のソフトでは遺伝的距離をcMなどの単位で入力することが多い。これは遺伝的距離は加減できるが、組み換え割合は直接加減できないからである。しかし、組み換え割合で入力することを許容する場合もある。遺伝的距離で入力されると、プログラムは組み換え割合に変換するが、この時、HaldaneとKosambiのマップ関数のいずれかを選ぶことができる。

 連鎖解析の計算では、遺伝的距離の値をマップ関数により組み換え割合に変換して計算を行なう。Mで表した遺伝的距離と組み換え割合は極めて小さい値の場合はほぼ等しい。

[ Haplotype (ハプロタイプ) と Phase (相) ]

 連鎖が定義されると,遺伝子座1,遺伝子座2の各対立遺伝子の組み合わせが定義できる(Haplotype,ハプロタイプ)。連鎖する複数の座位の対立遺伝子のうち、一つの配偶子に存在するものの組合せがハプロタイプである。

 古くからハプロタイプが問題となったのはHLAとRh血液型である。例えば,HLAではA,B,C,DR,DQ,補体C2などの遺伝子座が連鎖しているため,一つの染色体で考えて,それぞれの遺伝子座のアレルが一塊となって世代を超えて伝えられる。

 ハプロタイプは減数分裂での組み換えが無い限り保存される。組み換えが起きると新たなハプロタイプが形成され,それが配偶子により次世代に伝えられ、次の組み換えが起きるまで変化しない。

 ハプロタイプの存在は連鎖解析の基礎である。次の世代に伝えられる配偶子のハプロタイプは、その前に親から伝えられた配偶子のハプロタイプと、各座位間で組み換えが起きたか否かの事象の関数である。組み換えが起こる事象は組み換え割合により確率的におきるので、ハプロタイプの遺伝は組み換え割合を確率分布関数に持つ確率事象と考えられる。家系の形質と遺伝子型に関する観測データに最も適合する座位の順番と距離を計算するのが連鎖解析である。

 一人の個体の遺伝子型すべてがわかったとしてもハプロタイプがわかるとは限らない(これを相(Phase)が特定できないという)。それは,もう一方の染色体上のアレルと混合した状態でしか識別できないからである。しかし,世代交代で一塊となって移動することを考慮すれば,親族の遺伝子型がわかれば,その個体のハプロタイプも確定する場合も多い事が理解できるであろう。しかし,それでもなお,確率的にしか予測できない場合もある。

個体は二つのハプロタイプを持つが、この二つのハプロタイプの組み合わせをディプロタイプ(diplotype)ということもある。

親族が全くない個体の集団でも、Hardy-Weinberg平衡を仮定すれば、EMアルゴリズムなどを使って個体のハプロタイプと集団のハプロタイプ頻度を推定することが可能である。

[ Inheritance vector (継承ベクトル) ]

 遺伝に際し世代を超えて伝達される本質はもちろん対立遺伝子であり、対立遺伝子の組合せであるハプロタイプなのであるが、各座位間の組み換え割合を用いた確率分布に従う確率事象とした表現として表す場合、継承ベクトルを考えると便利である。継承ベクトルの概念はGenehunterプログラムの基礎となる考えである。

 一つの家系にn個の配偶子の伝達があるとし(同数の減数分裂による組み可能性の可能性がある)、m個の、連鎖した座位を考える。この家系において起きた減数分裂における組み換えの事象を表すm個の継承ベクトルを考える。一つの継承ベクトルは一つの座位に対応し、それはn個の因子を持つ列ベクトルである。それぞれの因子は、順番をつけた各減数分裂に対応する。継承ベクトルの因子は0か1であり、0はその減数分裂の起きた個体が、その父親から継承した対立遺伝子を配偶子により子に伝達したことを示す。1は母親から継承した対立遺伝子を配偶子により子に伝達したことを示す。即ち、継承ベクトルで表した場合、本質は対立遺伝子ではなく、親由来の対立遺伝子のどちらを子に伝達したかと言う事象にあると考える。

 事前に可能な継承ベクトルは、それぞれのベクトルで2nある。即ち、継承ベクトルはその因子をそのまま並べることによりn桁の二進数となり、n桁の二進数で表されるすべての整数が2nなのである。継承ベクトルの数はm個あるので、すべての継承ベクトルを考慮すると事前の可能な事象は2n+mである。しかし、実際に起きた事象はこのうちただ一つである。

 継承ベクトルの同じ行の因子を座位1..mの順番で見た場合、もし特定の行について座位l, l+1の間で0→1、または1→0と変化している場合は、その座位間で組み換えが起きたことを示す。0→0、または1→1と変化しなかった場合は組み換えが起きなかった事を示す。このように継承ベクトルを用いれば、すべての減数分裂において組み換えが起きたか否かを記載することが可能である。

 一般に、家系のすべての構成員の順位付き遺伝子型は、創始者の順位付き遺伝子型と継承ベクトルによりすべて決定できる。順位付き遺伝子型とは、どちらの対立遺伝子が父親由来かという情報つきの二つの対立遺伝子の組み合わせ(即ち順列)である。遺伝子型1/2と2/1は異なった順位付き遺伝子型ということになる。

 複数の連鎖した座位についての情報はハプロタイプにより表される。個体は二つのハプロタイプを有し、二つのハプロタイプの組み合わせをディプロタイプ形ということがある。連鎖した複数の座位について、家系のすべての構成員の順位付きディプロタイプ形は、創始者の順位付きディプロタイプ形とハプロタイプの関係する座位の継承ベクトルにより決定できる。

 遺伝統計学による推定や検定が極めて有力な理由は、継承ベクトルの事前分布が一様であるという事実が極めて確実なことにある。

[ Coefficient of linkage disequilibrium (連鎖不平衡係数) ]

 連鎖不平衡の強さを表すために次の連鎖不平衡係数(coefficient of linkage disequilibrium: D)が用いられる(LRはサンプルに依存するが、Dは依存しないことに注意)。 前述のように二つの連鎖した2アレル遺伝子座(SNPのような)について、a1-b1、a1-b2、a2-b1、a2-b2のハプロタイプの頻度をx1、x2、x3、x4とすると、 D=x1 x4 - x2 x3 連鎖平衡ではD=0となる。

 Dは1世代交代により平均、交差確率の割合で減少していく。即ち、遺伝子座間の距離が長いと連鎖不平衡はすぐに消失するが、短いと極めて長い間存在し続ける。ヒトの染色体上にどの程度の連鎖不平衡があるかは知られていない。最近の研究では連鎖不平衡の程度はSTRP (short tandem repeat polymorphism)においてもかなり強く、染色体部位で差があるようである。集団によっても違うと予想される。即ち、アイスランドやフィンランドのような若い集団では大きく、日本人のような集団では小さいと予想される。この連鎖不平衡の程度は近年のゲノム集団遺伝学の最大の関心事の一つである。

[ Common disease common variant hypothesis ]

 極めて稀な遺伝病の場合、特に優性の遺伝形式を取る場合、それぞれの原因突然変異は家系によって異ることが多い。それは、変異遺伝子が次世代に伝わらず、消失しやすい事を考えれば理解できるであろう。しかし、頻度の高い疾患で遺伝と関係している場合はどうであろうか。疾患の原因となるための不利さはあるとしても、遺伝的浮動、代償性有利性などが働く可能性があり、疾患遺伝子を持つハプロタイプが増加することもあると考えられる。

 「頻度の高い疾患で、それが遺伝と関係している場合は、その原因突然変異は家系が異っていても共通のものが多いであろう」、という予測がcommon disease common variant hypothesisである。

 もし、原因突然変異が家系毎に異っても狭義の連鎖解析によれば原因遺伝子座を同定することは可能である。しかし、その場合は相関解析や連鎖不平衡解析により、マーカー座位を用いて原因遺伝子座を同定することは不可能である。

 Common diseaseの変異遺伝子がcommon variantによるメカニズムとして共通祖先遺伝子仮説が考えられる。即ち、common disease-common variantはcommon originというメカニズムにより発生すると考えられる。病気を起こす原因突然変異が共通の祖先遺伝子に由来するのであれば、その突然変異が起きた染色体の近傍のハプロタイプが現在も残っていて原因遺伝子座と連鎖不平衡を形成していると考えられる。

 例えば、小学生が校庭の端から反対の端に向かって、一列に手をつないで走っている光景を考える。このつながりがハプロタイプである。この一列の小学生のまん中の一人が病因遺伝子とする。この列が走ると(走るとは先代交代を意味する)あっちで転び、こっちで転びして、校庭の反対の端に行くころには列はバラバラになっている。それでもなお、少数ずつの生徒は手をつないだままである。そうすると、病因の生徒のそのとなりの生徒や、そのまたとなりの生徒は病因の生徒とつながっているであろう。もし、これらの生徒が最初からバラバラであったら、この病因の生徒を見つける以外に病因が発見できないであろう。これが疾患遺伝子に関して連鎖不平衡により病因遺伝子座を特定できる原理である。

 いずれにせよ、common variantのメカニズムが共通祖先突然変異によると仮定すれば(common disease-common variant-common origin)、連鎖不平衡を利用して病因遺伝子座を特定できると予想される。

    即ち、患者集団とコントロール集団でハプロタイプ頻度を調べれば(ハプロタイプ解析)、原因遺伝子座の周辺で大きな差異が存在すると予測される。その場合、患者集団に限って高いハプロタイプが原因突然変異が起きたときの祖先ハプロタイプと考えられる。

[ Hardy-Weinberg's equilibrium (ハーディー,ワインバーグ平衡) ]

 いま、ある遺伝子座に2つの対立遺伝子(1, 2)が存在するとして、これらの遺伝子の対立遺伝子頻度(allele frequency)を、p、q とする。2つしか対立遺伝子がない場合は、p + q = 1である。この時、遺伝子型頻度(genotype frequency)が以下のようである時、

集団はHardy-Weinberg平衡にあるという。

これは、アレル1とアレル2を袋に入った玉と考え、袋から二つの玉を取り出したときの確率に等しい。

 Hardy-Weinberg平衡状態を仮定すると、遺伝子頻度を調べることで、genotype頻度を算出することができる。一方、何らかの理由でHardy-Weinberg平衡状態をとらないと考えられる集団においては、遺伝子頻度だけではgenotype frequencyの算出はできない。

ABO血液型における事例]

 この型を決めるのは1つの遺伝子座位における3つの対立遺伝子(a, b, o)であることが判っている。また、各遺伝子型での表現型は、

  a/a -> A, a/o -> A, b/b -> B, b/o -> B, a/b -> AB, o/o -> O

のようになる。 ここで、これら、a, b, oの遺伝子頻度を、Pa, Pb, Poとすると、 Hardy-Weinberg平衡を仮定すると、
A型、B型、O型、AB型の個体の頻度、P(A)、P(B)、P(O)、P(AB)は、

  

となる。 ここで、ある集団の血液型の割合、A : 43.2%, B : 14.2%, O : 36.6%, AB : 6.0% であったとすると、上記の関係から、

上の4つの式のうち、(7)、(8)、(9)を用いて式を解くと、

これらの値を式 (10)に代入すると、

即ち、この値は0.06に極めて近く、ABOを決定する遺伝子が一つの遺伝子座であり、またこの遺伝子座について集団がHardy-Weinberg平衡にあることを強く支持する。

 Hardy-Weinberg平衡とは完全な自由婚が行なわれた場合に達成される遺伝子型の配分である。近親婚や亜集団間での排他的結婚などが存在するとHardy-Weinberg平衡からのずれができる。しかし、Hardy-Weinberg平衡からのずれがあっても、その後の自由婚により一代でHardy-Weinberg平衡が達成される。

 Hardy-Weinberg平衡は遺伝子型データの正当性を評価するためにもしばしば有用である。もし、ある集団から採取された遺伝子型のデータがHardy-Weinberg平衡からあまりにずれている場合は測定の誤りや、仮説の誤りの可能性を検討する必要がある。



[ Genotype relative risk (遺伝子型相対危険) ]

 遺伝学では遺伝子型により表現型が規定されると考えるが、通常、ある遺伝子型がある表現型を呈する確率を浸透率として表す。しかし、表現型が疾患である時、各遺伝子型の浸透率 (発症率) の比を考えた方が良いことも多い。例えば、ある遺伝子座の対立遺伝子A, aがあるとして、AA, Aa, aaの遺伝子型の個体が異なった発症率を持つとするとそれらの発症率の比を遺伝子型相対危険という。遺伝子型相対危険が高い程、その遺伝子座の疾患に対する影響が強いことを示す。

 特に、複雑な遺伝形式を示す疾患の場合は浸透率は必ずしも、その遺伝子座の影響力を反映しない。

[ Sib-relative risk (同胞相対危険) ]

 疾患を持つ個体の同胞が、それと全く無関係の個体よりどれくらい発症率が高いかの比を同胞相対危険(λs) という。一般に、λsは子供の相対危険 (λo) より大きく、常染色体性完全優性の時のみ、等しくなる。罹患同胞対解析、などではこの値が重要である。

[ Holman's triangle (ホールマンの三角形) ]

 罹患同胞対検索では罹患者の同胞の罹患者の共有同祖遺伝子数 (IBD: identity by descent) が0, 1, 2である確率、z0, z1, z2を考える。z0 + z1 + z2 =1 なので、この内、自由に動ける変数は2個である。従って、z0, z1が定まればz2は定まるので、z0, z1をx, y 軸とする平面で表される。このz0, z1が動ける範囲は下の黒い範囲で、これをHolman's triangleという。これは

   z0 = 0.25/λs
   z1 = 0.5 λo/λs
   z2 = 0.25 λm/λs

ただし、λo: 子供の相対危険、λm: 一卵性双子の相対危険、λs: 同胞の相対危険
と、

   λo > 1、λs > λoの要請により導き得る。

 Mapmaker/sibsではHolman's triangle内をz0, z1, z2の値を動かす事により最尤点を計算する。

 

[ 単点 (二点) 解析と多点解析 ]

     ほとんどの遺伝統計的解析では単点解析と多点解析の両方を行うことができる。単点解析は、通常、一つのマーカー座位と一つの罹患状態座
      位でのデータを用いて、二つの座位の連鎖を検討する。本当は二点解析というのが正しいが、マーカー座位は一つなので単点解析ともいう。

     これに比較して、多点解析では、罹患状態座位と複数のマーカー座位でのデータを用いて解析を行う。

     通常、連鎖解析ではマーカー座位に関する地図は確定しており、罹患状態座位が不明のことがほとんどである。また、マーカー座位は複数あるのが普通である。しかし、通常、研究者は、罹患状態座位とマーカー座位の一つについて連鎖解析を行い、引続き、同じ罹患状態座位と別の一つのマーカー座位の連鎖の検討を行う。単点解析では罹患状態座位と一つのマーカー座位との遺伝的距離 (本当は組み換え割合)をさまざまに変化させて、連鎖ありと、連鎖なしの仮定でのデータの尤度の比を計算する。単点解析を行った後、引続き、多点解析を行う。即ち、複数のマーカー座位のデータと罹患状態座位のデータを同時に検討する。マーカー座位間の組み換え割合は固定して、罹患状態座位を動かして、その罹患状態座位と複数のマーカー座位のデータにより、どの場所に罹患状態座位がある可能性が最も大きいかを計算する。

     多点分析の場合は、罹患状態座位の場所はマーカー座位の上だけではなく、至る場所に置くことができる。例えば、片方の端から遺伝的距離を等間隔にした点上で多点分析を行う場合には、マーカー座位の上での尤度は計算しない場合もある。もちろん、マーカー座位の上の尤度を確実に計算するように、各座位間を等間隔に分ける点上で尤度を計算することも可能である。

     連鎖解析を行うソフトウェア、Linkage package、Genehunter、ではいずれも単点分析と多点分析の両方を行うことができる。Linkage packageでは、単点分析にはmlinkなどのプログラムを用いるが、多点分析にはlinkmapなどのプログラムを用いる。Genehunterでは多点分析が基本であり、single point onのオプションを行うことにより単点分析を行う。

     多点分析についてはGenehunterではincrement stepとincrement distanceの二つのオプションを選ぶことができる。前者はマーカー間を等間隔で分割し、後者ではマーカーに関係なく、最初のマーカーから遺伝的距離を等間隔にした点上で尤度を計算する。

     ここで、多少アルゴリズムについて述べると、多点分析のアルゴリズムがLinkage packageとGenehunterとで異なる。いずれも、観察データの尤度が最大になるような罹患状態座位を捜し、その場所に於ける尤度を計算する。これは、多次元空間における極大点の発見の問題であり、従来、疑似ニュートン法による解決法が主であった。近年、EMアルゴリズム (expectation maximization algorithm) による方法がしばしば用いられるようになった。Linkmapでは前者が、Genehunterでは後者が用いられている。最も注意が必要なのは、Linkmapでは一家系の人数が増えることより、マーカー座位の数が増える方が計算時間に大きく影響することである。逆に、Genehunterではマーカー座位の数よりも、一家系の人数が計算時間に大きな影響を与える。従って、Linkmapではマーカー座位数が増えるとほとんど計算は不可能で、Genehunterでは一家系の人数が増えると計算が不可能になる。

     一般に、一家系のfounder (f)、non-founder (n) の数が2n -f >15となるときはGenehunterによる計算は不可能である。その場合は同時に計算するマーカー遺伝子座の数を減らして、Linkmapによる計算を行うと良い (ただし、LinkmapではGenehunterと違ってノンパラメトリック解析はできない。

[ QTL解析 ]

     遺伝統計学で定義できる座位 (locus)にはいくつかのタイプがあるが、最もしばしば用いられるのは、アレル番号 (allele number)座位と罹患状態 (affection status) 座位である。RFLP、microsatellite、SNPなどマーカー遺伝子座は通常、アレル番号で 1、2、3、...と表される。

     罹患状態座位は、通常、DNA配列レベルで明らかではない座位について仮想的に定義される。即ち、いまだ確定してはいないが、ある疾患に関係する座位があると仮定するのである。そして、疾患が無い場合を1、ある場合を2、不明の場合を0として表す。

     これ以外にもQTL (quantitative trait locus) というタイプの座位を定義することが可能である。例えば、高血圧を規定する座位を捜すとする。この時、高血圧に関係する罹患状態座位を定義して、高血圧があれば2、無ければ1と表して、解析を進めることも可能である。しかし、これは多少情報を無駄にした操作である。なぜなら、高血圧とは言っても180と160では意味が違う可能性もある。この場合、罹患状態座位の疾患ありの定義として、140で切るのか、160で切るのかと言う問題がある。複数の閾値を設けてliability classを定義することも可能であるが、連続量を表現型として量的形質座位を定義することも可能である。このようにして定義した量的形質座位をquantitative locus (QTL) といい、QTLを形質として連鎖解析などの遺伝統計学的解析を行うことをQTL解析という。

     もっともしばしば用いられるQTL解析は実験生物を用いたものである。マウスなどの実験生物では人為的に純系個体を作成することが可能であり、人の遺伝子の解析と比較するとはるかに容易に遺伝的解析を行うことができる。純系生物はすべての座位においてホモ接合体である (実際には完全に純系化が行われておらず、純系と思っていても実際にはヘテロ接合座位がある可能性も否定できない)。従って、すべての個体は遺伝的に同一である。

     同じ種の、二つの純系生物がいるとする。異なった二つの純系生物では複数の座位で対立遺伝子が異なっていると考えられる。ここで、ただ一つの座位がある形質に関係し、しかも遺伝子型と表現型が比較的明確であるとすると、そのような座位の同定は二つの純系を掛け合わせ、引続き形質を指標にしてback crossなどを繰り返すことにより可能である。しかし、複数の座位が関係している場合、しかも遺伝子型と表現型の対応が複雑な場合はそのような方法は容易ではない。

    QTL解析により複数の座位が関係する、複雑な形質について関係する座位を同定することが可能である。前述のように、純系動物では同一の系統ではすべての座位においてホモ接合体であり、すべての個体が遺伝的に同一である。それでは、異なった二つの純系生物を掛け合わせたF1の世代ではどうであろうか。F1は二つの系統で対立遺伝子が異なるすべての座位についてヘテロ接合体となる。しかも、F1の個体は遺伝的にすべて同一である。個体が遺伝的に分離するのはF2においてである。メンデルの分離の法則により、F1どおしの掛け合わせによる子の世代 (即ちF2 intercross) では、単一のヘテロ接合座位については、ホモ接合体、ヘテロ接合体、ホモ接合体が1: 2: 1で分離する。複数の座位についてみると、一つの個体はある座位についてはAの系統のホモ、接合体であるが、別の座位についてはBの系統のホモ接合体、また別の座位についてはA/Bのヘテロ接合体という具合である。それぞれの座位の遺伝子型の組み合わせにより形質も分離するであろう。しかも、染色体で近傍にある座位は強く連鎖しており、F2では同一の系統の遺伝子を有する傾向がある。F2 intercrossだけではなく、F1と親の掛け合わせである、F2 backcrossも解析に用いることができる。

     以上の遺伝子型のデータと量的形質の表現型 (連続量になる) により形質に関係する座位を同定するのがQTL解析である。Mapmaker/exp、Mapmaker/QTLなどのソフトウェアを用いると良い。使用方法は省略するが、付属のマニュアルを読むことにより使用することができる。

[ 罹患同胞対解析 ]

    疾患を持った兄弟、姉妹のペアを多く集め、連鎖解析を行う方法を罹患同胞対解析 (affected sib-pair analysis) という。これは、ノンパラメトリック解析の一種であり、その項目で解説する。

[ Polymorphism (多型) ]

 多型(Polymorphism)の最初は血液型のような表現型であった、 その後、HLA抗原、酵素の多型と蛋白質レベル(主にアミノ酸置換を伴う)ものでの多型が見つかっていった。そして制限酵素(restriction enzyme)の登場で、DNAレベルでの多型が観察されるようになった。

 RFLP(restriction fragment length polymorphism)での多型観察が行われるようになった(RFLPは基本的にはSNPsをベースとした多型)。 その後、STRP(short tandem repeat polymorphism)が見つかり、この変異は多型度が高いことから連鎖解析のマーカーとしてよく使われるようになった。

 多型度は突然変異率と密接な関係がある。中立な遺伝子座については、

    = 1 - 1/(4Nμ + 1)

ここで、Hは集団のヘテロ接合度、Nは集団の有効な大きさ、μは世代あたりの突然変異率である。即ち、突然変異率が高い程、集団の有効な大きさが大きい程、ヘテロ接合度(多様性)が高い。

STRPはSNPsより、はるかに多型に富むことから、STRPの突然変異率はSNPsより高いと予想される。

[ 多型の尺度 ]

 連鎖解析においては、解析に有用な情報が得られるのは唯一減数分裂の過程のみである。この時、連鎖を調べる二つの座位(通常は疾患遺伝子座位と、マーカー座位)のそれぞれの遺伝子型が両方ともヘテロ接合(doubly heterozygous)である必要がある。この遺伝子座位における多型の尺度をしては、

 (1) Heterozygosity(ヘテロ接合度)
 (2) PIC(polymorphism information content)(多型情報含有値)

がある。

[ PIC value (多型情報含有値) ]

 ある子供の遺伝子座ついて、その子が一方の親から2つの対立遺伝子のどちらかを受け継いだのかを結論できる確率と定義される。PICは、

   
PIC値は常にヘテロ接合度より小さい。これは、両親が同じヘテロ接合体の時、子がヘテロ接合体であると、子のアレルの由来が決定できないことに関係する。(例えば、罹患父親1/2、母親1/2、子1/2の場合)。よって1つの遺伝子座にある対立遺伝子数が多くなるほど、PIC値とヘテロ接合度は近い値をとるようになる。