使用Plink检测基因组的ROH

ROH定义

亲本的最近祖先相同时,如果将相同的染色体片段(IBD)传递给子代后,个体的基因组会形成连续区域的纯合,这些连续的纯合位点被称为长纯合片段(run of homozygosity, ROH)

ROH在群体遗传学中的应用

ROH 是来源于相同祖先的两个单倍型的组合,长的单倍型来源较近的共同组先,而短的单倍型来源较远的祖先。 ROH 可以反映种群历史(demographic history),解析遗传结构。当出现近交、瓶颈效应、基因流、群体扩张或者缩减时,个体ROH的数目和长度都会发生变化。

ROH检测方法

目前使用最多的ROH检测软件为Plink

plink采用滑窗的方法,对基因组每条染色体的SNP进行扫描,以寻找连续的纯合SNP。 plink首先计算包含某个SNP的完全纯合滑窗的比例,如果该比例超过设定好的阈值,那么这个SNP就被认为是在一段ROH中。在每个滑窗中可以指定一定数量的缺失或是杂合的SNP,以包含基因定型错误,失败或是稀有变异等情况。最后,如果在某个片段中连续纯合SNP的数量超过一个数量或距离阈值(SNP数量或是染色体的距离),那么就可以判定这个片段是ROH。

ROH不仅在人上,在家养动物上也有很广泛的应用。

基本用法和参数

plink --bfile mydata --homozyg
    --homozyg [{group | group-verbose}] ['consensus-match'] ['extend'] ['subtract-1-from-lengths']
    --homozyg-snp <min SNP count>
    --homozyg-kb <min length>
    --homozyg-density <max inverse density (kb/SNP)>
    --homozyg-gap <max internal gap kb length>
    --homozyg-het <max hets>
    --homozyg-window-snp <scanning window size>
    --homozyg-window-het <max hets in scanning window hit>
    --homozyg-window-missing <max missing calls in scanning window hit>
    --homozyg-window-threshold <min scanning window hit rate>

结果文件解读

  • 使用–homozyg基本参数计算完成后会得到 .hom文件和.hom.indiv文件,hom文件每一行包含如下信息:

         FID      Family ID
         IID      Individual ID
         CHR      Chromosome
         SNP1     SNP at start of region
         SNP2     SNP at end of region
         POS1     Physical position (bp) of SNP1
         POS2     Physical position (bp) of SNP2
         KB       Length of region (kb)
         NSNP     Number of SNPs in run
         DENSITY  Average SNP density (1 SNP per kb)
         PHOM     Proportion of sites homozygous
         PHET     Proportion of sites heterozygous
    
  • hom.indiv文件每一行包含如下信息:

         FID      Family ID
         IID      Individual ID
         PHE      Phenotype
         NSEG     Number of ROH
         KB       Total Length of ROH
         KBAVG    Average Length of ROH