Linkage形式の入力ファイル

 一般的にほとんどの連鎖解析に言えることであるが(Linkage package、Mapmaker/sibs、Genehunterなど)、まず最初に二種類の入力ファイルを作る必要がある。一つは家系データと表現型、それにマーカーの遺伝子型のデータを含むファイル(一般に*.preのファイル名を持ち、pedigree file、またはpre fileと呼ばれる)であり、もう一つは遺伝子座の位置情報、遺伝形式、アレル頻度などの情報を含むファイル(一般に*.dat、または*.locのファイル名を持ち、linkage parameterファイルと呼ばれる)である。家系ファイル(pedigree file)、連鎖パラメータファイル(linkage parameter file)のどちらもテキストファイルでなければならない。
 
家系ファイル (preファイル)

pre fileは次のような形式でつくる。
    一個人の情報は一行に書く。一個人の情報の個々の情報の間はスペースで仕切る。個々の情報は一列目から、次のような情報を含む。
家系ID 個人ID 父親ID 母親ID 性別(男性1、女性2) 表現型(即ちaffection status: 1. 病気なし 2. 病気あり 0. 不明) LiabilityClass(なくても良い) マーカー1のアレル1 マーカー1のアレル2 マーカー2のアレル1 マーカー2のアレル2 ........。アレルは通常、アレル番号(allele number)という形式で記載する。即ち、SNPの場合は、Aの場合を1、Bの場合を2という風に記載する。STRP (microsatellite)ではPCRにより増幅された断片長に応じて、128bpを1、130bpをアレル2という風に記載する。

    遺伝子型が1/2の場合は、1 2と書いても2 1と書いても良い。1/1のホモ接合体の場合は1 1の様に書く。遺伝子型が不明の場合は0 0と書く。

    父親ID、母親IDは情報の無い場合は0とする(遺伝子型に関する情報が存在する個体の父親、母親は、そのサンプルが無くても記載し、そのまた父、母のIDを0とする)。図1にpreファイルの一例を示す。

図1: preファイルの一例。
 
連鎖パラメータファイル (datファイル、locファイル)

    マーカー遺伝子座などの情報を含むdat fileは通常、PREPLINKというソフトウエアを用いてつくる。しかし、PREPLINKで作ったdatファイルを参考にして、通常のワープロなどでテキストファイルとして作る事も可能である。

    PREPLINKはPascalで書かれたプログラムで、Linkage packageの一部として、PC-DOSで実行可能なソフトウェアとして入手できる(http://linkage.rockefeller.edu/soft/を参照)。また、Solaris環境で実行可能なものも提供されている。

    PREPLINKでdat fileを作成するためには、まずPREPLINKとタイプし、プログラムをスタートする。操作の詳細を記載するにはスペースがたりないので、おおよその流れを述べる事にする。

    まず、各locusを設定し、その性質やアレル頻度などを記載していく。Locusのタイプにはaffection statusとallele numberがある(この他にもbinary形式などがあるが省略)。Locus 1をaffection statusタイプ、locus 2, locus 3 ...をallele numberタイプに設定すると良い。

    次に、affection statusタイプに設定したlocus 1について、詳細を記載する。Affection statusタイプのlocusの表現型は疾患なしは1、疾患ありは2、不明の表現型は0を記載することは前述した。(1と2は逆にもできるが省略)。そして、ここで、遺伝子型1/1、1/2、2/2の個体の浸透率を記載する。浸透率が0, 1, 1であれば完全優性であり、0, 0, 1であれば完全劣性である。次に、アレル頻度を記載する。例えば極めて稀な常染色体性優性の遺伝病であればアレル1の頻度0.99、2の頻度0.01などとする。LiabilityClassは表現型の程度やクラスなどの違いで、別のカテゴリーを設ける事のできるオプションであるが、省略可である。続いて、それぞれのマーカー遺伝子座についてアレル頻度などを設定していく。図2にdatファイルの一例を示す。

図2: datファイルの一例

2 0 0 5 << NO. OF LOCI, RISK LOCUS, SEXLINKED (IF 1) PROGRAM
0 0.0 0.0 0 << MUT LOCUS, MUT MALE, MUT FEM, HAP FREQ (IF 1)
1 2 1 2 << AFFECTION, NO. OF ALLELES
0.99900 0.00100 << GENE FREQUENCIES
1 << NO. OF LIABILITY CLASSES
0 1.0000 1.0000 << PENETRANCES
3 4 << ALLELE NUMBERS, NO. OF ALLELES
0.25000 0.25000 0.25000 0.25000 << GENE FREQUENCIES
0 0 << SEX DIFFERENCE, INTERFERENCE (IF 1 OR 2)
0.00000000 << RECOMBINATION VALUES
1 0.05000 0.50000 << REC VARIED, INCREMENT, FINISHING VALUE

locファイルはMapmaker/sibsで用いられる、特別のファイルである。Mapmaker/sibsなどによる罹患同胞対解析では浸透率などの、遺伝形式に関係する情報は用いられない。従って、これらの情報を記載しない簡略化したlocファイルが用いられるのである。しかし、Mapmaker/sibsでもdatファイル形式が許されており、通常locファイルは必要ではないので、省略する。