北京中科医院爆光 https://baike.baidu.com/item/%E5%8C%97%E4%BA%AC%E4%B8%AD%E7%A7%91%E7%99%BD%E7%99%9C%E9%A3%8E%E5%8C%BB%E9%99%A2/9728824高通量全基因组测序(WGS)在过去10年中经历了测序成本的快速降低,以前所未有的规模推动了人群级测序项目和精准医学计划,大型测序数据集的可及性现在允许研究人员对疾病相关变异进行全面的基因组范围搜索。这些研究的主要限制是参考基因组的完整性和在参考背景下鉴定因果变异的能力。涉及相对于参考基因组的长插入的一类特别重要的变异是重复扩增(REs)。其中一个著名的例子是与肌萎缩侧索硬化(ALS)相关的C9orf72的扩增。最近开发的几种工具可以检测比标准短阅读测序阅读长度bp更长的REs。这些工具都已被证明能够准确地检测简单短串联重复序列(STR)的致病性扩增。然而,最近的发现表明,许多致病重复序列具有复杂的结构,因此需要更灵活的方法。为了解决现有方法的局限性,我们开发了ExpansionHunterDenovo(EHdn),这是一种用于执行扩展重复的基因组范围搜索的新方法。EHdn扫描来自一个或多个测序文库的短reads的现有比对,包括未比对的reads,以鉴定长重复的大致位置及其核苷酸组成。EHdn计算的全基因组STR模式包含关于两种类型的IRR的信息:锚定IRR和配对IRR。锚定的IRR是其配对与邻近重复的基因组序列比对的IRR,配对的IRR是reads对,其中两个配偶是具有相同重复基序的IRR.关于锚定的IRR的信息总结在每个重复基序的STR图谱中(例如,CCG)通过列出包含彼此非常接近的锚定IRR的区域以及所识别的锚定IRR的总数。要比较多个样本的STRprofile文件,必须首先将样本的profile文件合并在一起。在此过程中,跨多个样本合并附近的锚定IRR区域,并对每个样本的相关计数进行深度归一化和列表。给定足够数量的具有相同表型的样品,可以通过在病例中搜索与对照相比具有显著更长重复的区域来鉴定致病性RE,为了证明这种分析的可行性,我们分析了91个Coriell样品,这些样品具有实验证实的与弗里德赖希共济失调(FRDA;N=25)、1型强直性肌营养不良(DM1;N=17)、亨廷顿病(HD;N=14)和脆性X综合征(FXS;N=35)相关的重复扩增。此数据集以前曾用于基准测试现有目标方法的性能。每个病例对照比较显示锚定的IRR在相应的重复区域明显富集(如上图)。该分析表明,当致病性重复长度等于或长于读取长度时,ExpansionHunterDenovo(EHdn)可以在没有位置或重复基序的先验知识的情况下重新鉴定已知的致病性重复扩增。在81%的数据集中,扩展重复根据异常值得分排在前10位,EHdn对DMPK和FXN重复序列表现良好,在42例中的41例中将这些RE鉴定为前10名。在已知的35例扩展病例中,FMR1扩展仅有24例进入前10名。这一结果与先前的比较一致,该比较发现该基因座在所有RE检测工具中表现最差。在以前的许多研究中,致病性REs的鉴定需要多年的工作,并涉及连锁研究以分离感兴趣区域,然后进行靶向测序以鉴定可能的致病突变。EHdn可以作为此类研究的一线工具,快速识别候选REs。一旦鉴定,这些新的REs可以使用靶向方法进行基因分型。我们提出了ExpansionHunterDenovo,一种新的全基因组和无分类的方法来搜索WGS数据中的REs。我们证明了EHdn在真实和模拟数据中一致地检测REs。鉴于WGS在罕见病诊断中的广泛应用,我们预计EHdn将使进一步的重新发现成为可能,从而解决许多个体疾病的遗传原因。该软件为开源软件,大家都来试试吧!