家系矛盾チェック(checkfam)の概要

 Checkfamの概要

 Checkfamは,prefile形式で与えられた実測データの家系データとの整合性を確認するソフトウェアである。LINKAGEパッケージやGeneHunter等で用いる実測データは家系データとの間にいっさいの矛盾が許されず、もし一つでも矛盾点が存在するとプログラム自体がエラー出力とともに停止してしまう。またその際、矛盾点の提示はいっさいなされない。そのため連鎖解析を実行する際には事前に入力データ内に家系矛盾が含まれていない事のチェックを完璧にしておく必要がある。本プログラムは、事前にプログラム入力ファイルであるprefile形式のデータをチェックし、家系データ内に存在する矛盾点を可能なかぎり提示し、今一度実測データとの照合を促す事を目的として作成された。

 現在checkfamでは,主に家系データを核家族単位に分割し、それぞれの核家族単位において家系データと、実測されたマーカーの間に整合性がとれているかどうかのチェックを各マーカー座位毎に行う。このプログラムでのチェックを行うことで入力家系データの、特に核家族単位の家系矛盾は余す処なくチェックできるが、核家族間をまたいで内在する種類の家系矛盾はチェックできないので注意を要する。特にnonfounderでかつ核家族においての親となっているメンバーに非測定データ( 0 )が存在すると、この種類の矛盾が内包される可能性が残される。

 Checkfamの原理

 Checkfamにおいては、まずprefile内に記述された家系データを核家族単位のデータに分割する。そして核家族単位で親と子供で実際に測定されたデータが遺伝法則に矛盾してないかどうかを検査していく。この時の矛盾チェックでは主に次の2つの点に着目している。

1. 子供たち(兄弟全体)が持つアレルの種類は両親が2つずつもつ計最大4種類だけである。
2. 子供は必ず片親から一つずつのアレルを受け取る。

 Checkfamでは,上記2点について、各核家族において矛盾がないかどうかをすべてのマーカー座位の実測データに対して逐次確認していく。Web版のcheckfamでは、矛盾が検出されると、その核家族の矛盾を含むマーカー座データ部分が色つきで表示される(次項参照)。また、父親・母親が正しく性が記載されているかどうかのチェックも併せて行っており、これらに記述エラーが見つかると、核家族データの左側5カラム(家系データを記載部分)が色つきで表示される。

 解析例

 実際にWeb版checkfamを動かしたときに得られる結果の一例を示してみる。(※ 例題は適当に作ったデータである)

prefile一例

1 1 0 0 1 1 1 2 1 2 1 1 2 2 1 3 1 3
1 2 0 0 2 1 1 1 1 2 2 2 1 1 3 2 1 1
1 3 1 2 2 1 1 1 1 1 1 2 2 1 3 2 3 1
1 4 1 2 2 1 1 3 1 2 1 2 1 2 4 2 1 1
1 5 0 0 1 1 1 1 2 1 3 1 2 1 1 2 1 3
1 6 4 5 2 1 1 1 2 1 2 3 2 2 2 3 1 3
1 7 4 5 1 1 1 1 1 1 1 1 1 1 2 4 1 3
2 1 0 0 1 1 1 2 1 2 5 1 2 2 1 4 1 3
2 2 0 0 2 1 1 3 1 2 2 2 1 1 3 2 1 1
2 3 1 2 2 1 1 1 1 2 1 3 2 1 4 2 3 1
2 4 1 2 2 1 1 3 1 2 4 2 1 2 4 4 1 1
2 5 0 0 1 1 1 1 2 1 3 1 2 1 1 2 1 3
2 6 5 4 2 1 1 1 2 1 2 3 2 2 2 2 1 3
2 7 5 4 2 1 3 3 1 3 2 2 1 3 3 3 3 3
     
 checkfam 

 Web版checkfam出力結果
 
1  1 0 0 1 1 1 2 1 2 1 1 2 2 1 3 1 3
1  2 0 0 2 1 1 1 1 2 2 2 1 1 3 2 1 1
1  3 1 2 2 1 1 1 1 1 1 2 2 1 3 2 3 1
1  4 1 2 2 1 1 3 1 2 1 2 1 2 4 2 1 1
 
1  4 1 2 2 1 1 3 1 2 1 2 1 2 4 2 1 1
1  5 0 0 1 1 1 1 2 1 3 1 2 1 1 2 1 3
1  6 4 5 2 1 1 1 2 1 2 3 2 2 2 3 1 3
1  7 4 5 1 1 1 1 1 1 1 1 1 1 2 4 1 3
 
2  1 0 0 1 1 1 2 1 2 5 1 2 2 1 4 1 3
2  2 0 0 2 1 1 3 1 2 2 2 1 1 3 2 1 1
2  3 1 2 2 1 1 1 1 2 1 3 2 1 4 2 3 1
2  4 1 2 2 1 1 3 1 2 4 2 1 2 4 4 1 1
 
2  5 0 0 1 1 1 1 2 1 3 1 2 1 1 2 1 3
2  4 1 2 2 1 1 3 1 2 4 2 1 2 4 4 1 1
2  6 5 4 2 1 1 1 2 1 2 3 2 2 2 2 1 3
2  7 5 4 2 1 3 3 1 3 2 2 1 3 3 3 3 3
 

 入力ファイルであるprefileについての詳細は別項を参照されたし。(→Linkage形式の入力ファイル
以下では結果としてcheckfamから出力される内容解説をする。入力ファイルは2家系が1つのprefileに記述されたものであり、各家系とも3世代のデータが記載されている。よって、各家系から2つずつの核家族が抽出され、計4核家族データとして解析された。色の付いている部分が何らかの矛盾が検出されたところである。

 結果左側(2〜6列目)うす青地に青色の部分は家系情報自体に何らかの矛盾が見つかった場合に表示される。2段めに報告された今回の例では、ID6、ID7での父親・母親の記述(父親=4、母親=5)に対して実際のID4、ID5が女性、男性であることから来ている。
4 1 2 2 1
5 0 0 1 1
6 4 5 2 1
7 4 5 1 1
 各マーカ記述項目でピンク地に赤色で示される部分はマーカー情報が4つ以上の矛盾が見つかった場合に表示される。3段めで報告されたのこの例では、核家族内で計5つの対立遺伝子マーカーが登場していることに起因する。 5 1
2 2
1 3
4 2
 各マーカ記述項目でピンク地に赤色で示される部分はマーカー情報が4つ以下で実測データに何らかの矛盾が見つかった場合に表示される。大抵は親のマーカーが子供に一つずつ伝えられる事に矛盾した場合が多い。 1 2
1 1
1 1
1 3

 縦一列に矛盾ありと結果がでた場合(上記例ではマーカー5)、このマーカー遺伝子のタイピング実験の結果自体に問題がある可能性がある。得られたデータが本当にタイピングを反映したものになっているかどうかについて、実験生データからもう一度再検査してみるのもよいと思われる。

 一方、特定の核家族の横一列全部にマーキングが出た場合(上記例では4段目)は、この核家族内に遺伝的に異質なメンバーが入っている可能性が高い。例えば血縁関係のない(義理の)親子関係等が家系内にある場合などに遺伝的に無関係がメンバーが入る可能性が出てくる。上記例では、Family2-ID7の人が問題であり、彼女についての家系バックグランドを再調査するのがよいと考えられる。

 Checkfam で検出できない家系矛盾

 Checkfamにおいては、核家族単位でのデータ矛盾のみを検出する。nonfounderでかつ核家族で親になっているメンバーにマーカー未決定( 0 )がある場合、核家族内では矛盾が存在しないという結果であっても、家系全体において矛盾が生じている可能性が残っている。今回リリースしたcheckfamでは、核家族間(家系全体)での矛盾の検出は行っていない。であるがしかし、実際の入力データにある家系矛盾の原因の9割以上が、1) 入力ミス、2) 実験精度上のタイピングミス、そして 3) 家系データの記述間違い、であるという事から考えると、今回リリースしたcheckfamでほとんどの入力データの矛盾検出は可能であろう。ちなみに家系全体での矛盾が生じていた場合、その矛盾の原因を見いだすのは非常に困難な作業となる。


[ Web版Checkfam ] [形質マッピングホームページTOP]