评估一个基因位点是否为患者的致病基因,游侠认为需要从三个方面来考虑,第一是临床评估,即该基因在数据库(如OMIM)中记录的表型是否与患者的表型想符合,第二是生物信息学评估,包括正常人群频率、突变类型、软件预测、序列保守性等等,第三是遗传模式评估,即如果是隐性遗传是否为父母(父母正常)分别携带一个位点,如果是显性遗传是否为新发突变(父母正常)。
对于人群频率来说,根据ACMG致病性指南:allele frequency greater than expected for disorder是一个强良性证据,很多时候因为不知道疾病的患病率很难去设定cutoff,将来也许可以通过完善的数据库对不同的基因设置不同的cutoff,目前还难以实现,对于全外显子或全基因组测序设置一个统一的cutoff比较实用,之前游侠曾写过一篇文章《单基因遗传病的致病位点人群频率筛选阈值多少为好》,在这篇文章里建议cutoff设为万分之一,但是在后来的实际工作中发现这个cutoff过于严谨,容易把真阳性位点排除,纸上得来终觉浅,趁五一有时间还是老老实实来统计一下ClinVar数据库中已报道的致病位点在人群中的频率分布吧!
首先我们从ClinVar官网下载最新的VCF,下载地址为ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh37/
然后我们用AWK提取含有CLNSIG=pathogenic的位点,需要提醒的是有可能同时提取包含pathogenic与VUS共存的位点,共计55310个位点,然后我们用gnomad_exome_eas和gnomad_genome_all进行注释并截取cutoff,两者为交集(and),如0.0001为同时满足gnomad_exome_eas和gnomad_genome_all小于等于0.0001的位点,统计结果如下
然后单独看了大于0.01的位点,这些位点中有些为风险位点,有些只有一个提交者且没有提供证据,游戏认为部分为假阳性位点。
另外游侠还想看一下显性基因的人群频率是否会更低一下,使用AWK选取含有autosomal dominant(该数据库由游侠自己根据OMIM制作)的位点共计25143个,需要提醒的是有可能提取包含同时常显与常隐的基因,然后我们用gnomad_exome_eas和gnomad_genome_all进行注释并截取cutoff,两者为交集(and)。结果如下