mctable

mctableの目的

mctableはmxn表の独立性を検定し、併せてその信頼区間(90%, 95%)を算出するプログラムである。たとえば2つの座位において多対立遺伝子多型マーカーが測定されたときに、その2座位間での独立性を検討する際に利用できる。

mxn表(2x2表も含めて)の独立性の検定では、通常各要素の数が十分にある場合には、カイ二乗統計量がカイ二乗分布に従うことを利用してp値およびその信頼区間を算出する。もし頻度数が少ないセルが存在する場合には分布はカイ二乗分布には従わず、Fisher の正確確率検定(直接法)を利用して計算することなどが必要になる。しかし分割表のカテゴリ数が増えると直接法による解法には非常に時間がかかる。

遺伝統計学において、マイクロサテライトマーカーを用いた多型解析では、2座位の独立性を検討する際にmxnの分割表が大きくなり、また頻度の非常に少ないセルが多数存在することになる。このような2つの座位が独立であるかどうかを検定する際に、周辺分布を固定した形で分割表のランダムサンプリングを行うことによりカイ二乗統計量(カイ二乗分布に従わないので厳密にはこの呼び方は正しくないが‥)の分布をシミュレートする方法が開発されている。mctableでは与えたサンプルについて統計量の上側確率を算出するのに加えてその信頼区間(90%,95%)をあわせて算出する。

プログラムのダウンロード

プログラムは下記のところに圧縮ファイル形式でおいてある。圧縮ファイルの中にはプログラム本体、およびサンプルのテーブルが入っている。圧縮はlzh形式になっているので各自適当な解凍ソフトを利用して解凍されるとよい。

プログラムのダウンロード前にお読みください(権利表記)

下記内容にご同意いただいた場合のみ本ソフトウエアのダウンロード、ご利用を許可するものとします。

  1. 本プログラムは基本的にフリーウエアとしますが、全ての権利は東京女子医大附属膠原病リウマチ痛風センター遺伝統計G(以降、権利保有者と表記します)に帰属します。また権利保有者の許可なくして転載することは、固くお断り致します(そのような際にはぜひ事前に連絡をくださいませ)。
  2. 権利保有者は本プログラムに関する質問への回答および不具合の修正等への対応の義務を負うものではありません(答えないという事ではありませんので‥念のため)。
  3. 本プログラムおよびドキュメント等の内容については、将来予告なしに変更することがあります。
  4. 権利保有者は本プログラムに関するいかなる保証も致しません。また、本プログラムの欠陥の結果発生する直接、間接的な損害について本項にかかわらず、何等の責任を負いません。同様に権利保有者はコンピュータプログラムまたはデータ回復もしくは再生に要する費用、本プログラムを組み込まれたうえで使用される他コンピュータプログラム等につき、一切の責任を負いません。

プログラムのダウンロード

プログラムはこちら : mctable_100.lzh

解凍されて出てくるホルダー内にプログラム本体(mctable.exe)が入っている。

mctableの利用方法

現在mctableはms-dos上でのコマンドラインから、もしくはwindows上にて本体を起動させることによりdos窓環境内で利用することが可能である。

入力ファイルについて

プログラムは検討するテーブルを記述した入力ファイルを要求する。入力ファイルには調べたい頻度表を記述する。

この入力ファイルは1列目には調べたいmxn表の2つのカテゴリの数(mとn、サンプル例題中では4x8なので、4と8)を半角で間に半角スペース(もしくはタブ)を入れて書かれている。スペースは1つ以上あってもよい。1列目の最初の数(例題では4)が行となり、2つめの数(例題では8)が列のカテゴリとなる。次にmxnの場合はm行n列(サンプルの例では4行8列)の頻度を書き込む。1列目と頻度行列の間にはカラ行を入れてもよい。図1のサンプル例では2列目には何も記入していないがこの2行めは見やすくするために挿入されているだけでプログラムでは無視される。

4 8

1 3 0 3 2 4 0 0
0 4 0 1 1 3 3 4
0 1 2 0 4 0 0 0
0 1 1 3 1 9 0 0

図1 : 添付されている例題入力ファイル(sample)の記述

入力ファイルはメモ帳などのテキストファイルエディター等で作成し、名前を付けてあらかじめ作成しておく。

プログラムの実行

このプログラムは2通りの実行ができる。一つめの方法はWindows上からプログラムmctable.exeをダブルクリックする方法。この操作によりDOS窓が開き、その中でmctable.exe が起動する。入力ファイルを指定していないので実行中にファイル名の入力を求められる。2つめの方法はms-dosコマンドライン上から起動させる方法。この方法では引数として入力ファイル名を指定できる。入力ファイル名が指定された時にはファイル入力は求められず、指定したファイル内容が読み込まれて解析がスタートする。


****************************************************************************
mctable.exe ver.1.00         Statistical Genetic Group IOR@TWMU (2002. 2.12)
This program tests the independence of a table of m x n matrix by the Markov cha
in Monte Carlo method.  The program makes 10 independent attempts to calculate p
 values.  Then it will answer the mean p value and its 90percent and 95percent c
onfidence interval.
****************************************************************************
maximum category=16  maximum number in cell=200  no of repeats=100000
You should select 1. Gibbs sampler  or 2. Metropolis-Hastings sampler : 1


図2: mctable.exe の起動画面とサンプラーの選択イメージ

プログラムが起動すると,最初にMCMCのサンプリング方法を選択するように要求してくる。mctableではサンプラーとして1. Gibbs sampler2. Metropolis-Hastings samplerが選択できる。


You should select 1. Gibbs sampler  or 2. Metropolis-Hastings sampler : 1
###### Gibbs ###### sampler was selected.
Please enter the input file name : sample


図3: mctable.exeのファイル名入力イメージ

windows上でプログラムをダブルクリックして起動した時、そしてms-dosコマンドラインからファイル名の引数なしにプログラムを起動した場合は、続いてファイルを入力するように求められる。上記例ではサンプルファイル sample を入力ファイルとして指定している。

ファイルは起動したプログラムのいたディレクトリと同じところにある場合はファイル名だけでも読み込める。またもし違うディレクトリにある場合にはプログラムファイルの位置を基点とした相対指定.\sample_directory\sampleもしくは絶対指定A:\sample_directory\sample等でもファイル位置の指定が可能である。


Please enter the input file name : sample.txt
no of columns=4  no of rows=8
     1     3     0     3     2     4     0     0|     13
     0     4     0     1     1     3     3     4|     16
     0     1     2     0     4     0     0     0|      7
     0     1     1     3     1     9     0     0|     15
----------------------------------------------------------
     1     9     3     7     8    16     3     4|     51
Now computing
mean_p from 10 repeats= 0.000382 (p value is the risk at which the program exclu
de the independence of the matrix).
If p can be interpreted as a probability variable from a normal distribution, th
en
90 percent confidence interval of p is 0.000241-0.000522
95 percent confidence interval of p is 0.000209-0.000555
Hit any numeric key to exit program.

図3: mctable.exeの結果出力イメージ

ファイルが正常に読み込まれるとmctableでは周辺分布を固定した形でMCMC法によるランダムサンプリングを100000回繰り返し、周辺度数が決まった元での統計量の分布を発生させる。その後に与えられたサンプル表が統計量的に分布のどの位置にあるかを信頼区間つきで算出する。

例題の場合、Gibbs samplerを用いたこの回の検討では、10 回の繰り返しで得られたp値の平均が 0.000382、その信頼区間は、 90%信頼区間が 0.000241-0.000522、95%信頼区間が 0.000209-0.000555となった。



最終更新日:2002/3/29 (Fri.)