SLINKソフトウェアを用いたシミュレーション

 SLINKの概要

 SLINKは,与えられた家系のタイプに応じて家族の遺伝子型をシミュレーションによって出力するソフトウェアであり,Ottの考案したアルゴリズムに基づいて作成されている。入力ファイルの形式や得られた結果の分析方法はLINKAGEパッケージとほぼ同様であり,LINKAGEパッケージに含まれているソフトウェアをそのまま用いることができる。

 現在は,プログラムの高速化を行なったFASTSLINK(機能はSLINKと同じ)が主に用いられている。FASTSLINKはCで書かれたプログラムであり,ソースファイルをダウンロード(入手方法はこちら)してコンパイルすることによってUnix環境で使用することができる(linuxにもインストール可能である)。

 また,SLINKはMS-DOS環境(Win9xを含む)における実行ファイルの形式でも入手することができる(Pascalで書かれたソースファイルもある)。

 SLINKの目的

 連鎖解析において,与えられた家系の情報から連鎖を検出する検出力(Power)は,家系の構造,疾患の人の数,マーカーの情報量など,様々な因子に依存する。そのため,研究者が,現在自分が集めた(あるいはこれから集めようとしている)家系データが連鎖を検出するために十分であるかどうかを知ることは大変重要なことである。

 SLINKは,与えられた家系を生じさせうる遺伝子型の組み合わせをシミュレーションによって多数作成し,研究者が集めた家系データにおける連鎖の検出力を計算するためのソフトウェアである。具体的には,家系内のfounderには乱数によってランダムに遺伝子型を与え,non-founderには条件付き確率に基づいて計算した遺伝子型をランダムに割り当てることによって家族の遺伝子型を決定する。シミュレーションによって作成された家系のそれぞれについてLod scoreを計算し,Lod scoreの期待値や連鎖の検出力を算出することができる。

 前提となる知識

 標準のLINKAGEパッケージの使用法を理解していること。

 SLINKの入手方法

 ftp://linkage.rockefeller.edu/software/slink からダウンロードできる。

 入力ファイルとファイル形式

 SLINKによるシミュレーションを行なうためには,以下の3つの入力ファイルが必要である。

(1)simped.datファイル

simped.datファイルの概要

 標準のLINKAGEパッケージで用いるpedファイル形式のファイル。内容はLINKAGEパッケージで用いるpedファイルとほとんど同じであるが,唯一異なる点は,マーカーの情報が手に入るかどうか,与えられた形質の情報をそのまま用いるかどうかを示すavailability codeを最後に追加することである。

 availability codeは,以下の4つのうちのどれか1つを用いる。

Code Codeの意味
マーカーの情報 形質の情報
0 入手不可能 与えられた形質を使用する(simped.datファイルに記述された形質を用いる)
1 入手可能 与えられた形質を使用しない(シミュレーションによる値を用いる)
2 入手可能 与えられた形質を使用する
3 入手不可能 与えられた形質を使用しない

 ここで,「マーカーの情報が入手可能である」とは,その人のDNAサンプルを入手することが可能であり,あるマーカーのタイピングが可能であることをいう。すでに死亡していたり,研究への協力を拒否している等の理由によりDNAサンプルを入手することが不可能である人の場合は,「マーカーの情報が入手不可能である」とする。

 また,すでに死亡している等の理由により形質の情報が得られない人の場合は,simped.datファイル内で形質を示す遺伝子座のタイプをunknown(すなわち0)とし,与えられた形質を使用することとして,マーカーの情報が入手可能であるかどうかに応じたavailability code(すなわち0または2)を記述する。

 マーカーのデータだけをシミュレーションに使用する場合は,以下の2つのavailability codeを用いる。

Code Codeの意味
マーカーの情報
0 入手不可能
1 入手可能

simped.datファイルの作り方

 まず,与えられた家系図をもとに,availability codeを追加した形式でpreファイル(ここではsimpre.datとする。)を作成する。次に,MAKEPEDプログラムを用いてpreファイルをpedファイルに変換する。コマンドラインから,makeped simpre.dat simped.datと入力すればよい。

(2)simdata.datファイル

simdata.datファイルの概要

 標準のLINKAGEパッケージで用いるdataファイル形式のファイル。MLINKで用いるフォーマットで作成する。

simdata.datファイルの作り方

 PREPLINKプログラムを用いる。PREPLINKプログラムを使用するには,コマンドラインから,preplink と入力すればよい。preplinkプログラムは,変更したいパラメータをメニューから選択する形式でパラメータの指定ができるので,マーカーの数や種類,組換え割合等を目的に応じて変更し,結果をsimdata.datの名前で保存する。

(3)slinkin.datファイル

slinkin.datファイルの概要

 シミュレーションに必要なパラメータを記述したファイル。内容は以下のとおり。

 ・乱数発生のための初期値・・・初期値は3つ与える。値は1から30323までの整数で,比較的大きな数(25000以上)を与えるのがよい。一回のシミュレーションが終了するたびに,SLINKプログラムはこの3つの値を書き換える。

 ・シミュレーションによって発生させる家系の数

 ・形質を示す遺伝子座の番号・・・simdata.datファイルにおける形質の遺伝子座の位置を記述する。たとえば,simdata.datファイルで形質の遺伝子座を最初においた場合は1と記述する。形質の遺伝子座が存在しない場合は0と記述する。

 ・unlinked familyの割合・・・homogeneityを仮定し,すべての家族において形質に関係する遺伝子座が同じであると考える場合は0を記述する。

slinkin.datファイルの作り方

 テキストエディタ等を用いて,上で説明した値を順に記述したファイルを作成し,slinkin.datの名前で保存する。 たとえば,以下のように記述する。

       27983 18176 20673 200 1 0.000000

 シミュレーション

 上で説明した3つのファイルを同じディレクトリにおき,SLINKプログラムを実行する。コマンドラインから,slink と入力すると,SLINKプログラムが起動し,シミュレーションによって家系データが作成される。3つのファイルが存在しなかったり,内容に誤りがあると,エラーメッセージが出力されてプログラムが停止する。作成された家系データは,pedfile.datファイルに保存される。また,シミュレーションに用いたパラメータは,simout.datファイルに保存される。

 シミュレーションの評価

 SLINKによるシミュレーションの結果作成されるpedfile.datファイルは,LINKAGEパッケージで用いるpedファイルと同じ形式である。したがって,このファイルは標準のLINKAGEパッケージのMLINK,ILINK,LINKMAPのプログラムによって分析できる。しかし,pedfile.datファイルは多くの家系のデータを含んでいるので,より実用的に修正されたMSIM,ISIM,LSIM(それぞれ,LINKAGEパッケージのMLINK,ILINK,LINKMAPに対応する。)のプログラムを用いるとよい。

 以下,シミュレーションの評価の手順を説明する。評価用のプログラムを実行するためには,以下の5つの入力ファイルが必要である。

(1)datafile.datファイル

datafile.datファイルの概要

 標準のLINKAGEパッケージで用いるdataファイル形式のファイル。

datafile.datファイルの作り方

 PREPLINKプログラムを用いる。マーカーの数や種類,組換え割合等をシミュレーションの評価目的に応じて変更し,結果をdatafile.datの名前で保存する。評価用プログラムとしてMSIMを用いる場合はMLINKで用いるフォーマット,同様にISIMの場合はILINKフォーマット,LSIMの場合はLINKMAPフォーマットで作成する。

(2)ipedfile.datファイル,(3)speedfile.datファイル

概要

 LINKAGEパッケージのUNKNOWNプログラムにより作成されるファイル。

作り方

 SLINKを実行して作成されたpedfile.datファイルと,上記のdatafile.datファイルを同じディレクトリにおき,UNKNOWNプログラムを実行する。コマンドラインから,unknown と入力すると,UNKNOWNプログラムが起動し,ipedfile.datファイルとspeedfile.datファイルが作成される。

(4)limit.datファイル

limit.datファイルの概要

 シミュレーションの評価に用いるロッドスコアのしきい値を記述したファイル。しきい値は3つ指定できる。シミュレーションの評価では,limit.datファイルに記述された各しきい値を超えるロッドスコアを示す家系数が計算され,結果として出力される。

limit.datファイルの作り方

 テキストエディタ等を用いて,しきい値を記述したファイルを作成し,limit.datの名前で保存する。たとえば,以下のように記述する。

       1 2 3

(5)simout.datファイル

 SLINKを実行すると作成されるファイル。

 上記の5つのファイルを同じディレクトリにおき,MSIM,ISIM,LSIMのプログラムを実行する。たとえば,MSIMプログラムを実行する場合は,コマンドラインから,msim と入力すればよい。評価結果は,msim.datファイル(ISIMの場合はisim.datファイル,LSIMの場合はlsim.datファイル)に保存される。


[形質マッピングホームページTOP]