通过引入一个称之为工具变量的中间变量,来分析暴露因素和结局之间的因果关系
2.孟德尔随机化 vs RCT
孟德尔随机化的目的不是估计遗传效应的大小,而是估计暴露对结果的因果效应,所以与遗传变异相关的结局的平均变化幅度可能与干预措施导致的变化幅度不同
即使遗传变异与结果之间的关联程度很小,暴露的人群归因风险也不一定很低,因为暴露可能会比遗传变异解释更大的变化程度(例如,他汀类药物对低密度脂蛋白胆固醇水平的影响比低密度脂蛋白胆固醇水平与HMGCR基因变异的关联要大几倍,因此对后续结果的影响更大。)
孟德尔随机化要求大样本研究,变异发生率不能太小(最小等位基因频率MAF>5%)
3.工具变量
工具变量本身是一个计量经济学的概念,在孟德尔随机中,遗传变异被用作工具变量评估暴露对结局的因果效应,遗传变异满足工具变量的基本条件总结为(孟德尔随机化核心假设):
关联性假设——遗传变异与暴露有关
独立性假设——该遗传变异与暴露-结果关联的任何混杂因素均不相关
排他性假设——该遗传变异不会影响结果,除非可能通过与暴露的关联来实现
某研究组想了解非洲村落里的儿童补充维生素A和其死亡情况的关联,如果仅仅利用维生素A的服用情况和死亡情况去判断两者的关联,那极有可能会产生很大的偏倚,这是因为维生素A的服用情况和很多潜在因素相关,比如家庭的经济困难程度、家庭成员以及实验儿童的依从性,而这些潜在的因素也可能对儿童的身体健康有很大的影响。因此,在研究起始设计中,研究者便利用工具变量来解决这个问题。
在这里,工具变量Z是指服用维生素A这个任务,类似于随机抽签。这样的话工具变量Z便只和X服用维生素A这个行为相关,与除X以外的混杂因素不相关。
4.应用范围
行为因素与健康:基因变异引起各个倾向某行为,决定暴露状态。如ALDH2变异引起乙醛代谢障碍,改变饮酒行为,不同ALDH基因型代表饮酒量多少;
机体代谢产物与疾病关系,估计长期效应。代谢产物是基因表达的中间表型,酶的底物或者体外难测量的代谢指标:如LDL受体基因变异引起家族高胆固醇血症,比较不同基因型之间CHD发病情况的差异,可模拟血胆固醇水平和CHD发病关系;
子宫内环境暴露于子代健康关系。
5.发文分析
孟德尔随机化研究均发表在影响因子5分以上的期刊中
6.基础分析流程——TwoSampleMR
找工具变量,我们要的是基因作为工具变量,这些基因都是从别人的研究中挑出来的,所有的基因研究有个专门的库叫做genome wide association studies (GWAS)。我们需要做的就是从这个库中挑出来我们自己需要的和我们暴露相关的基因变量SNPs。
估计工具变量对结局的作用,工具变量对结局的作用也是从所有的研究中估计出来的整体效应,这样可以拒绝单个研究的偏倚。
合并多个SNP的效应量,这个效应量是我们得到暴露和结局因果效应的前提。
处理数据,用合并后的数据进行孟德尔随机化分析和相应的敏感性分析。
7.TwoSampleMR代码实现
安装相关R包
install.packages('devtools')
library('devtools')
install_github("MRCIEU/TwoSampleMR") #安装TwoSampleMR包
library('TwoSampleMR')
devtools::install_github("mrcieu/ieugwasr",force = TRUE)
获取MR base的表型ID,将结果保存为pheno_info.csv这个文件
ao <-available_outcomes(access_token=NULL) #获取GWAS数据,但近期Google限制,容易被墙
write.csv(ao,'pheno_info.csv',row.names=F)#将数据写入本地存储
查看pheno_info.csv文件,获取与暴露相关的工具变量的信息以及结局信息。这里选择暴露为obesity class 2 (ID = 91), 结局为 type 2 diabetes (ID = 1090)
exp_dat <- extract_instruments(outcomes=91,access_token=NULL)
obesity_exp_dat <- clump_data(exp_dat)
t2d_out_dat <- extract_outcome_data(snps=obesity_exp_dat$SNP, outcomes=1090, access_token=NULL)#提取结果信息
dat <- harmonise_data(exposure_dat =obesity_exp_dat, outcome_dat= t2d_out_dat)#数据合并,计算基因对结局的合并效应量
孟德尔随机化
results <- mr(dat)
OR值
OR <- generate_odds_ratios(results)
异质性检验
heterogeneity<- mr_heterogeneity(dat)
多效性检验
pleiotropy<- mr_pleiotropy_test(dat)
逐个剔除检验
leaveoneout<- mr_leaveoneout(dat)
散点图
mr_scatter_plot(results,dat)
森林图
results_single<- mr_singlesnp(dat)
mr_forest_plot(results_single)
漏斗图
mr_funnel_plot(results_single)
实例解析
2022年10月10日
西安交通大学生物医学信息与基因组学中心杨铁林教授团队在Nature Neuroscience (IF=28.771)期刊发表了题为:Mendelian randomization analyses support causal relationships between brain imaging-derived phenotypes and risk of psychiatric disorders 的文章。
研究背景
精神类疾病是一组脑功能紊乱的复杂疾病,会导致情感、认知和行为受到干扰和破坏。全球约有数亿人患有不同的精神障碍,被列为严重的公共卫生问题。近年来,脑影像学数据在脑疾病和功能的研究中受到广泛关注。以核磁共振成像为代表的脑影像技术,可用于活体无创定量评估人脑结构、连接和功能的特性。
虽然已有大量的观察性研究证据表明,精神疾病患者与健康正常人的脑影像表型存在显著差异,但脑影像学数据与精神障碍发病机制的因果关系尚不明确,探讨脑影像表型对精神疾病的因果作用具有重要的生物学和临床研究意义。
研究方法和结果
该研究基于大规模基因组数据,对常见的10种精神类疾病(包括注意力缺陷多动症、神经性厌食症、焦虑症、孤独症、双相情感障碍、抑郁症、强迫症、创伤后应激障碍、精神分裂症、抽动症)和587个关键的脑磁共振成像(MRI)结构表型进行了因果关系评估。
正向孟德尔随机化结果发现,脑白质纤维束的上额枕束的FA值和上放射冠的ICVF值、胼胝体内矢状层的MD值、第三脑室的体积等9个脑影像表型是精神分裂症、神经性厌食症和双相情感障碍的风险因素。进一步通过反向孟德尔随机化分析显示,发现精神分裂症的发生会导致额下回眶部的表面积和体积的增加。
该研究将基因组信息作为纽带,使脑影像表型和精神疾病联系起来,避免了观察性研究中由于药物或环境、生活方式等改变引起的样本检测数据偏差的缺点,确保了研究结果的稳健性。
链接: http://www.bio-info-trainee.com/4385.html
我做题的时候主要翻阅学习了《R语言实战》里统计相关内容。
需要掌握R内置数据集及R包数据集
鸢尾花(iris)数据集,包含150个鸢尾花的信息,共五列,分别为萼片长度(Sepal.Length)、萼片宽度(Sepal.Width)、花瓣长度(Petal.Length)、花瓣宽度(Petal.Width)和种类(Species)。前四列为定量数据,后一列种类为定性数据,是非连续的字符变量。
定量数据的集中趋势指标主要是:众数、分位数和平均数
定量数据的离散趋势指标主要是:极差,方差和标准差,标准分数,相对离散系数(变异系数),偏态系数与峰态系数
分组统计,最一开始是想将数据集分成三个数据框,重复之前函数,有几个方法:
或者不分开,之前对原数据集计算:
apply函数可以解决数据循环处理的问题,可以对矩阵、数据框、数组(二维、多维),按行或列进行循环计算,对子元素进行迭代,并把子元素以参数形式给自定义的FUN函数中,并返回计算结果。
函数定义:
apply(X,MARGIN,FUN,...)
参数列表:
用来对list、data.frame进行循环,并返回和X长度同样的list结构作为结果集。
同lapply函数,多了2个参数simplify和USE.NAMES,返回值为向量,不是list对象。
类似sapply函数,提供了FUN.VALUE参数,用来控制返回值的行名。
类似sapply函数,第一个参数为FUN,可接受多个数据。
tapply函数用于分组的循环计算,相当于group by的操作。
函数定义:
tapply(X,INDEX,FUN,simplify,...)
参数列表:
只处理list类型数据,对list的每个元素进行递归遍历,如果list包括子元素则继续遍历。
R可以计算多种相关系数,包括Pearson相关系数、Spearman相关系数、Kendall相关系数、偏相关系数、多分格相关系数、多系列相关系数。cor()函数可以计算前三种相关系数,cov()函数可以计算协方差。
数据的标准化是指中心化之后的数据在除以数据集的标准差,即数据集中的各项数据减去数据集的均值再除以数据集的标准差。scale()函数可以完成标准化。
mtcars数据集是32辆汽车在11个指标上的数据。
airway包是8个样本的RNA-seq数据的counts矩阵,这8个样本分成2组,每组是4个样本,分别是 trt 和 untrt 组。
t检验是一种可用于比较的假设检验。
理解t检验:一个年纪共有好多学生,需要研究他们的平均身高。这时,这批学生是我们 要研究的对象 ,即 总体 。从这个年纪中每个班级随机挑选10名同学,这部分同学则为 样本 ,通过样本来对总体的某个统计特征(比如上面研究的平均值、众数、方差等)做判断的方法为 假设检验 。
一个针对两组的独立样本t检验可以用于检验两个总体的均值相等的假设,检验调用格式为:
t.test( y ~ x, data )
其中y是一个数值型变量,x是一个二分变量。
t.test(y1,y2)
其中y1、y2为数值型向量。
现在还不能用自己的语言解释清楚,整合几篇写的比较详细的教程:
http://www.biye5u.com/article/R/2019/6399.html
https://www.jianshu.com/p/67be9b3806cd
统计这部分还是似懂非懂的状态,继续学习~
更多学习资源:
生信技能树公益视频合辑
生信技能树账号
生信工程师入门最佳指南
生信技能树全球公益巡讲
招学徒
...
你的宣传能让数以万计的初学者找到他们的家,技能树平台一定不会辜负每一个热爱学习和分享的同道中人