interval

intervalの目的

intervalは2つのSNPs多型座位の連鎖不平衡の度合い(D値,D’値)およびそのエラー範囲を推定するプログラムである。連鎖不平衡係数は母数であるが、その母数の信頼区間はセル内の度数(観察されたデータ)によって変わると考えられる。よってD(およびD’)値の強さを比較するにはその推定値がいくらかであるかに加えてその値の信頼度がどの程度であるかを知ることが大切である。

(1)                                    (2)
Locus 2    1 --Locus 1-- 2             Locus 2       1 --Locus 1-- 2
  a     |  0            12               a     |   0            1200
  b     |  1            18               b     |    100           1800

D' = -1                                D' = -1

図1 : 2つの度数分割表例

例えば上記に示す2つの分割表があるとき、その連鎖不平衡係数、D’値を算出するといずれの値も -1 となる。しかしながら直感的に考えてこの2つが同じ連鎖不平衡度合いであるとは考えられづらいであろう。上記(1)の分割表ではサンプル数から左側のマス(1-a, 1-b)の"0" "1"はたまたま頻度が低く出ただけの可能性もあり今回のサンプルがたまたま D' = -1 だっただけかもしれない。一方(2)においては左側上段(1-a)の"0"はかなり頻度が低いことが予想されるため、母数としての連鎖不平衡係数、D’は実際にも -1 にかなり近い値であろうことが推察される。これら2つのD’の値に対する直感的は感触の違いは統計量D’値の持つエラーの大きさが異なるからであると考えられる。

Intervalでは周辺度数を固定した2x2分割表を利用してMCMC法でランダムに度数分割表を生成(リサンプリング)し、分割表から算出される連鎖不平衡係数(D値、およびD’値)の頻度分布(実測されたデータから求められる経験分布)から両端の区域、たとえば5%を除いた範囲を各連鎖不平衡係数の5%誤差範囲として算出する。

このエラー区間は「信頼区間」に似ているが、通常考えられている「信頼区間」とは違った意味のものである。本来信頼区間は母集団の分布から求まるものなのに対し、ここで求めるエラーの区間は経験分布からの値だからである。それでもD値またはD’値の"誤差範囲"はサンプルから算出された連鎖不平衡係数(D値、D’値)の信用度の指標として十分有効であると考えられる。

プログラムのダウンロード

プログラムは下記のところに圧縮ファイル形式でおいてある。圧縮ファイルの中にはプログラム本体、およびサンプルのテーブルが入っている。圧縮はlzh形式になっているので各自適当な解凍ソフトを利用して解凍されるとよい。

プログラムのダウンロード前にお読みください(権利表記)

下記内容にご同意いただいた場合のみ本ソフトウエアのダウンロード、ご利用を許可するものとします。

  1. 本プログラムは基本的にフリーウエアとしますが、全ての権利は東京女子医大附属膠原病リウマチ痛風センター遺伝統計G(以降、権利保有者と表記します)に帰属します。また権利保有者の許可なくして転載することは、固くお断り致します(そのような際にはぜひ事前に連絡をくださいませ)。
  2. 権利保有者は本プログラムに関する質問への回答および不具合の修正等への対応の義務を負うものではありません(答えないという事ではありませんので‥念のため)。
  3. 本プログラムおよびドキュメント等の内容については、将来予告なしに変更することがあります。
  4. 権利保有者は本プログラムに関するいかなる保証も致しません。また、本プログラムの欠陥の結果発生する直接、間接的な損害について本項にかかわらず、何等の責任を負いません。同様に権利保有者はコンピュータプログラムまたはデータ回復もしくは再生に要する費用、本プログラムを組み込まれたうえで使用される他コンピュータプログラム等につき、一切の責任を負いません。

プログラムのダウンロード

プログラムはこちら : interval_100.lzh

解凍されて出てくるホルダー内にプログラム本体(interval.exe)とサンプル入力ファイル(sample)が入っている。

intervalの利用方法

intervalはms-dos上でのコマンドラインから、もしくはwindos上にて本体を起動させることによりdos窓環境内で利用することが可能である。

入力ファイルについて

プログラムでは検討するデータ、求めたい信頼区間領域、アレル頻度が記載された入力ファイルを要求する。入力ファイルの書式は下記のようになっている。

0.05

0.1 0.4

0 12 
1 18 

図2 : 入力ファイル (添付されているsample) の記述

データ入力ファイルの1列目には求めたい信頼区間の有意水準の値を入れる。図1のサンプルでは95%信頼区間を算出したいので0.05と入力されている。続いて二つのSNPsのSNPsの一般集団での対立遺伝子頻度情報を書く。それぞれのSNPsの第一対立遺伝子頻度を入れる。第一対立遺伝子頻度とはそれぞれのSNPsで最初に記述される方(行、列ともに)の対立遺伝子の頻度である。2つの対立遺伝子頻度は半角スペースまたはタブで仕切って記述していく。

もし一般集団での対立遺伝子頻度が分かっておらず今回のデータから対立遺伝子頻度から計算するのであれば、この部分に計算した頻度を記入するか、もしくはプログラム内で頻度計算させるオプションを選択する。プログラム内で頻度計算をする際にはこの部分に記載しされた数値は用いられない。

1列目の信頼区間情報と次の遺伝子頻度情報の間にはカラ行を入れてもよい。図1のサンプルファイル例では2列目に何も記入していないカラ行を挿入している。この2行め(カラ行)は見やすくするためだけに挿入されているものでありプログラムでは無視される。

さらに続いて検討したい対立遺伝子度数データを記述する。前項の対立遺伝子頻度情報に記載した最初のSNPsを行、2ばんめに記載したSNPsを列としてそれぞれの対立遺伝子頻度をマトリクスで記入する。対立遺伝子頻度情報との間には何も記入していないカラ行を挿入してもよい。行内の対立遺伝子頻度は半角スペースまたはタブで仕切って記述していく。

入力ファイルはメモ帳などのテキストファイルエディター等で作成し、名前を付けてあらかじめ作成しておく。 プログラムを実行したとき、ファイル名入力に続いてこのプログラムの利用方法が表示される。その内容を下記に示しておく。


Let 2 loci be I and II, and 2 alelles of I be 1 and 2. Let 2 alleles of II be a
and b.
Let frequencies of alleles 1 and a be p1 and p2.
Let coefficient of linkage disequilibrium be D.
Let haplotype frequencies be as follows.

Locus 2       1 ----Locus 1---- 2
  a     | p1 p2 + D       (1-p1) p2 - D
  b     | p1 (1-p2) - D   (1-p1) (1-p2) + D

2n haplotype samples are collected.
Please make a file containing the following numbers.
Input file begin-------------
0.05   <=Risk. If this value is 0.05 then interval of 5% error is calculated.


0.1 0.4  <=p1 and p2

30  11  <=number of 1-a haplotype  number of 2-a haplotype
20  24  <=number of 1-b haplotype  number of 2-b haplotype
Input file end---------------

図2: mctable.exe 画面中に表示させる入力ファイル(input file)の説明

 

プログラムの実行

このプログラムは2通りの実行ができる。一つめの方法はWindow 上からプログラムinterval.exeをダブルクリックする方法。この操作によりDOS窓が開き、その中でinterval.exe が起動する。入力ファイルを指定していないので実行中にファイル名の入力を求められる。2つめの方法はms-dosコマンドライン上から起動させる方法。この方法では引数として入力ファイル名を指定できる。入力ファイル名が指定された時にはファイル入力は求められず、指定したファイル内容が読み込まれて解析がスタートする。


****************************************************************************
interval.exe ver.1.00       Statistical Genetics Group IOR@TWMU (2002. 4.19)
---------------------------------------------------------------------------
This program calculates the error interval of D (coefficient of linkage dis
equlibrium) or that of D' under the condition that the allele frequencies
are given. The allele frequencies can be given from the file or are estimated
from the sample (unbiased estimator).
           (C) 2002 Tokyo Women's Medical Univ., Japan. All right reserved.
****************************************************************************
Please enter the input file name : sample


図3: interval.exe の起動画面と入力ファイル選択

windows上でプログラムをダブルクリックして起動した時、そしてms-dosコマンドラインからファイル名の引数なしにプログラムを起動した場合は、起動画面に続いてファイルを入力するように求められる。上記例ではサンプルファイル sample を入力ファイルとして指定している。

ファイルは起動したプログラムのいたディレクトリと同じところにある場合はファイル名だけでも読み込める。またもし違うディレクトリにある場合にはプログラムファイルの位置を基点とした相対指定.\sample_directory\sampleもしくは絶対指定A:\sample_directory\sample等でもファイル位置の指定が可能である。


Numbers were read from the file. Numbers of haplotypes and peripheral numbers.
-------------
0  12  |12
1  18  |19
-------------
1   30

Haplotype frequencies and peripheral frequencies.
-------------
0.0000  0.3871  |   0.3871
0.0323  0.5806  |   0.6129
-------------
0.0323   0.9677

Frequencies of 1 and a (p1 and p2) are (from file [from sample])
p1=0.100000 [0.0323]   p2=0.400000 [0.3871]
Note that the confidence interval is calculated under the condition 
that p1 and p2 are given.
If p1 and p2 values are employed from file, D' values are meaningless.

Employ p1 and p2 from (1. sample   2. file)? 1

図4: interval.exeの入力データの表示と対立遺伝子頻度の選択イメージ

ファイルが正常に読み込まれると入力ファイルの書式についての説明(図2)が表示された後、読み込まれた度数データの表示と頻度計算結果が表示される。続いて各SNPsの対立遺伝子頻度として、1) 読み込まれたデータから頻度計算を行った値を用いる、2) SNPsの対立遺伝子頻度として入力ファイル中に書き込んだ値(例題では、0.1 0.4)を用いる、を選択する。

結果の表示


Employ p1 and p2 from (1. sample   2. file)? 1
Frequencies from sample.
Lower boundary of D (if D<0)=-0.0125  Upper boundary of D (if D>0)=0.0198
D=-0.012487  D'=-1.000000
D=-0.0125  interval of 5.00% error of D is [-0.0125, 0.0176].
D'=-1.0000  interval of 5.00% error of D' is [-1.0000, 0.8878].
Hit any numeric key to exit program.

図5: interval.exe の結果出力イメージ

SNPs頻度の選択をすると、プログラムは各SNPs頻度を母数と見なしたときのパラメータD、およびD’のエラーを推定し結果をする。例題の場合、入力データからSNPs頻度を求める方法での検討の結果、D値(=-0.0125)の5%エラー区間が [-0.0125, 0.0176]、D’値(D'=-1.0000)の5%エラー区間が [-1.0000, 0.8878]となった。



最終更新日:2002/4/15 (Tue.)