基于多变量的全基因组关联分析

如果数量性状的表型值随着时间发生变化,这样的性状被称作纵向性状(longitudinal traits)(Yang et al., 2006)。如奶牛的泌乳性状,蛋鸡的产蛋量性状。纵向性状的遗传分析通常有三种策略(Yang et al., 2006):

1)将不同时间点的表型值当作同一表型的不同重复;
2)将不同时间点测得的表型作为不同的性状,采用多变量联合分析策略;
3)拟合表型随时间变化的生长曲线,在多变量分析理论下分析拟合参数。
对于常见数量性状遗传变异的解析一般使用单变量的全基因组关联分析(GWAS),而对于纵向性状,需要用多变量的全基因组关联分析。基于多变量的 GWAS 同样基于混合线性模型的统计方法, 依变量为多个表型构成的矩阵,其模型如下:

𝐘 = 𝐖𝐀 + 𝐱𝛃^𝑻 + 𝐔 + 𝐄

其中Y为n×d表型矩阵,n为样本数,d为表型数目,W 为n×c协变量矩阵(固定效应矩阵),A为协变量矩阵相对应的c×d系数矩阵,x为SNP基因型的n维向量,β为d个性状的SNP的效应大小矩阵, 𝐔表示n×d随机效应矩阵,𝐄表示n×d随机残差。在模型中,G ∼ MNn×d(0;K;Vg), E ∼ MNn×d(0;In×n;Ve),K为n×n亲缘关系矩阵。假设检验以β=0为零假设进行Wald检验, 其中0为d维0向量。

GEMMA软件提供了多变量GWAS的计算方法。详细信息可参考GEMMA document, 一般流程如下:

1
2
3
4
5
6
7
#.fam 文件的表头,P1 P2 P3 P4 P5 P6分别代表6个不同性状
# FID IID PID MID SEX P1 P2 P3 P4 P5 P6
#多性状GWAS,例如同时分析P1 P2 P3三个性状,输入文件为plink的bed/bim/fam文件
##计算kinship
gemma -bfile file -gk 1 -o file
## GWAS过程
gemma -bfile file -k output/file.cXX.txt -lmm 1 -n 1 2 3 -o gwas_output