公海赌船网址-公海赌船555000

2019-12-05浏览量:3096

Annual Reviews:宏基因组测序在临床病原体检测上的应用(上)

导读

几乎所有的感染源都含有核酸(DNA或RNA),这使得测序成为引人注意的病原体检测方法。自2004年问世以来,高通量测序的成本已经降低了几个数量级,并已成为临床病人样本微生物分类鉴定和检测的技术平台。本文综述了非靶向宏基因组新一代测序技术在感染性疾病临床诊断中的应用,特别是在传统诊断方法有局限性的领域。新一代测序有望提高我们诊断、查询和跟踪传染病的能力。

 

该综述包括:(a)新一代测序技术和通用的平台;(b)临床微生物实验室中的新一代测序分析工作流程;(c)宏基因组新一代测序数据的生物信息学分析;(d)宏基因组新一代测序技术在传染病诊断的应用和验证;(e)该领域的重要病例报告和研究。

 

本篇主要探讨新一代测序技术应用平台、测序流程和生信分析内容 

 

文献ID

英文题目:Clinical Metagenomic Next-Generation Sequencing for Pathogen Detection

中文题目:临床宏基因组测序用于病原体检测

期刊名:Annual Review of Pathology: Mechanisms of Disease

年份:2019    IF:13.833

通讯作者:Charles Y. Chiu

单位:加利福尼亚大学

 

★ 引言 

新一代测序技术概述 

新一代测序(NGS),也被称为高通量或大规模并行测序,是一种允许数千到数亿的DNA片段同时、独立测序的技术。NGS在临床微生物检测中的应用是多方面的,包括宏基因组NGS (mNGS),它用无偏的方法来检测病原体。本综述着重于使用mNGS方法直接从患者的临床样本中识别病原体。非靶向mNGS使用鸟枪法测临床样本或纯微生物培养物,随机抽样地检测全部的DNA或RNA,与靶向地单或多重PCR、引物延伸、探针的靶向方法不同。利用NGS对培养的微生物分离株进行全基因组测序,进行微生物分型、流行病学、易感性预测和毒力因子测定在本综述中不作讨论,但对这些应用进行了描述。NGS在感染性疾病中的其他应用包括谱系追踪、病毒或培养分离物的耐药性检测和微生物组研究。

 

测序平台

Illumina(San Diego, CA)提供了一系列的测序平台(iSeq、MiSeq、MiniSeq、NextSeq、HiSeq、NovaSeq),这些平台大部分被广泛使用。这些平台都使用桥式扩增的策略,即单个DNA分子首先附着在flow cell上,然后扩增成克隆簇,类似于单个细菌在培养基板上生长成菌落的过程。接下来是合成测序,每个循环构建一个互补的核苷酸,然后通过读出荧光信号标签以确定其身份(A、G、T或C)。

 

Illumina公司测序仪具有市场上最高的吞吐量,但需要注意的是这种技术需要barcode index转换,在这种情况下,用于标识多混合样品的高频index在flow cell扫描过程中可能会被错误分配。对于mNGS来说,这可能导致含有高丰度病原体样品的reads,交叉污染到在同一运行过程中其他样品,从而产生假阳性检测。而排除扩增测序化学的图案化流动槽的新技术的应用,使这个问题在HiSeq 3000、-4000、-X和NovaSeq测序仪中更加严重。 

 

Thermo Fisher Scientific(Waltham, MA)提供了 Ion Torrent平台,可以在乳浊液中的微珠上克隆单个DNA分子。然后,将微珠加载在半导体芯片上,芯片上有pH传感器矩阵。当DNA克隆通过合成进行测序时,根据pH值的变化确定该位置的核苷酸。 

 

BGI(Cambridge, MA)提供了BGISEQ平台,该平台通过DNA折纸策略在flow cell上克隆单个DNA分子,生成克隆DNA纳米球,然后在合成过程中对这些纳米球进行测序,并且有一个类似于Illumina平台使用的荧光读取器,虽然该平台已用于临床样本的传染病测序,但在美国尚未投入商业使用。

 

Oxford Nanopore Technologies(Oxford, United Kingdom)提供了名为MinION、GridION和PromethION的便携式测序仪。这项技术引导单链DNA通过蛋白质纳米孔,通过电流改变来读取DNA序列。这种技术与先前的策略有很大的不同,并且对性能特征也有影响。值得注意的是,在传染病诊断中,纳米孔DNA测序的速度要比其他使用边合成边测序的方法快几个数量级。纳米孔测序也不需要事先进行PCR扩增,由于高样本输入基线要求(>500 ng),有时仍需要扩增步骤。然而,与其他NGS平台相比,Nanopore方法目前有更多的测序错误、更低的吞吐量和更高的每次读取成本,这可能会限制它的应用。

 

宏基因组测序在病原体检测的优势

在急病住院患者中,疑似感染的病因常常未得到诊断,导致治疗延误或不充分、住院时间延长、再入院以及死亡率和发病率增加。通常,这些患者由于癌症、遗传综合征或移植而免疫功能低下,特别是如果他们在三级医疗中心,就极易受到感染。在这种情况下,病原体包括许多常见和不常见的病原体,从病毒到细菌、真菌和寄生虫。而由于早期使用广谱或预防性抗菌药物,微生物变得生长缓慢,从常规培养中检出受到限制。“假设驱动”的分子检测,如PCR,可以涉及许多针对特定目标生物体的检测,但可能漏掉罕见的病原体,或使用与所涉及的微生物菌株不匹配的引物,降低了检测的灵敏度。一种“无假设”的诊断方法有可能检测几乎所有的有机体,这将引起微生物诊断的巨大范式转换。临床微生物学中使用的各种诊断检测方法各有优缺点(表1)。然而,常规检测方法的一个常见问题是检测到的病原体的范围有限,临床医生经常会得到阴性结果,还有一个令人困扰的问题是,这种急性疾病是否是由一种未进行检测的病源引起的。

 

与其他诊断技术相比,mNGS有许多优点,也有一些缺点(表1)。mNGS的主要优点是无偏检测,它可以广泛地识别已知和未知的病原体,甚至发现新的微生物。mNGS还可以与靶向方法相结合,如使用16S核糖体RNA 和内部转录间隔序列的保守区引物分别进行细菌和真菌的检测,可以对这些微生物进行物种水平的鉴别。mNGS的另一个优点是,它可以为进化追踪、菌株识别和耐药性预测提供必要的辅助基因组信息。通过对测序序列的计数,NGS可以提供关于样品中微生物浓度的定量或半定量数据,这对于多微生物样品或在疾病过程中涉及到一个以上病原体的情况下是有用的。

 

表1 感染病诊断方法比较

 

新一代宏基因组测序在病原体检测的局限和潜在解决方案

mNGS由于采用鸟枪法测序,主要缺点是,大多数患者样本的微生物核酸受人类宿主背景影响。绝大多数的reads(通常>99%)来自人类宿主,因此限制了病原体检测方法的整体分析灵敏度。这一劣势是无偏的mNGS固有的,通过靶向测序或去宿主可以部分缓解。如果只对细菌序列感兴趣,那么16S rRNA基因的靶向测序将能够区分大多数物种,而不必对人类宿主背景进行测序。因此,靶向测序结合mNGS可能对一些样本特别有用,例如来自支气管肺泡灌洗、粪便或多种微生物引起的脓肿的样本。

 

去宿主与靶向测序不同,去宿主的目的不是利用已知的病原体靶标,如16S rRNA基因,而是降低mNGS数据中人类宿主背景序列的相对比例。这种方法在不明确要寻找的病源体时,保留了无偏倚宏基因组测序的优势。对于RNA测序文库来说,大多数宿主背景通常与人类rRNA或线粒体RNA序列相对应,去这些人类宿主序列将间接提高微生物reads的比例,从而提高病原体检测的灵敏度。已经开发的去宿主RNA方法包括使用捕获探针进行消减杂交、基于核糖核酸酶(RNase)H的方法或CRISPR-Cas9切割目标序列。这些方法通常对于包含大量的非编码rRNA序列的RNA文库是有效的,但它们对DNA文库的用处要小得多,因为从成本和效率的考虑,以整个人类宿主DNA基因组为目标是不切实际的。

 

分析前,有其他方法来去人类背景DNA,这些方法基于信号(病原体)和背景(人类宿主)之间的物理特性差异。一种方法是使用皂苷或其他化学试剂选择性地溶解人类白细胞,然后用脱氧核糖核酸酶(DNase)处理释放的人类基因组,从而富集被病毒衣壳或微生物细胞壁保护的微生物DNA,这种方法有可能由于试剂的微生物污染,不加选择地增加微生物背景的相对含量。另一种方法是以低分子量的非细胞DNA或RNA为目标,去除与人类基因组物质相关的高分子量遗传物质,这是通过物理法分离临床样本的细胞和非细胞结构来实现的,如离心。尽管在去除完整的或细胞内的微生物(如人类T细胞淋巴病毒,单核增生李斯特菌),存在微生物reads减少的风险,但一些研究表明,使用此方法病源体相比于人类reads得到了富集。

 

mNGS的另一个潜在缺点是样品、试剂或实验室环境中的微生物污染,这可能会使结果的分析和解读变得复杂。甚至无菌部位的活组织检查也可能在常规采集临床样本时被无意污染,这可能包括细针穿刺时的皮肤菌群污染或支气管肺泡灌洗过程中的口腔菌群污染。因此,严格遵守试剂和工作流程质量控制程序以保持尽可能无菌和无核酸的实验环境是必要的。需要使用阴性对照、试剂评估和定期检测,以确保实验室和样本交叉污染不会产生假阳性结果。此外,实验室必须熟悉在一系列临床样本类型中常见的微生物菌群。

 

宏基因组下一代测序分析 

在微生物(湿)实验室,mNGS分析涉及一系列临床样品处理、文库制备和测序步骤。之后是在计算(干)实验室中进行生物信息学分析和mNGS数据的解释(图1)。在这里,详细讨论各个步骤,以及每个步骤中质量保证过程使用的控制标准。

 

图1 用于临床诊断的新一代宏基因组测序的通用工作流程示意图 

 

样本收集和运输

mNGS对样品来源和核酸量方面的要求通常是灵活的。可用于mNGS分析的样品包括组织、体液、拭子和环境样品。对于脑脊液或玻璃体液,mNGS的DNA和RNA浓度通常<100pg,对于脓性液体或脓肿,则通常会高于脑脊液的6个数量级以上。样品的稳定性是RNA测序的一个特别重要的考虑因素,由于RNA是不稳定的,容易被宿主和环境的RNase酶降解,而且稳定性也是DNA的一个因素。为了尽量减少核酸降解的可能性,可以考虑在采样时使用化学DNA或RNA稳定剂。福尔马林固定石蜡包埋(FFPE)样品在长时间不固定的情况下也与核酸降解有关,而且随着时间的延长和RNA的福尔马林相关化学修饰,降解会更加严重。当冷冻时,DNA和RNA保持相对完整,但样品在处理过程中多次冻融,内源性核酸酶的释放,可能导致核酸降解。

 

核酸提取

用于mNGS的核酸提取方法高度依赖于样本类型,以及要测的是DNA还是RNA,或两者都进行测序。提取方法的变化取决于样本的来源和类型,以及预处理的方法,如是新鲜组织、液体,还是FFPE样本,是细胞,还是无细胞的游离核酸。因此,一个商业供应商往往会有许多不同试剂盒,用于手动提取或机器人自动提取。

 

文库制备

文库制备是指从样品中提取RNA或DNA并将其准备好用于测序的湿实验过程。在计算机术语中,文库制备可以看作是生物数据压缩和转换的必要过程。样本中的生物DNA数据量比即使使用最新的高通量测序仪能实际测到的数据量高几个数量级(将近5×1014个碱基对存在于1μg DNA)。相比之下,在双flow cell的Illumina HiSeq 2500上快速运行模式的测序得到大约1011个碱基对,或原始数据的0.02%。所有的文库制备都是对原始DNA和RNA的亚采样,并且在文库生成过程中,即使是很小的修改,例如PCR循环数,都会导致偏差。

 

鸟枪法mNGS可能是最无偏的文库制备法。原始DNA是随机采样的,提供了一个根据丰度覆盖样本中所有基因组的文库,但测序深度最小化。文库制备是通过将测序接头重组到DNA(如Illumina的Nextera制备)或将接头连接到剪切或片段化的DNA(如Illumina的TruSeq制备)来完成的。对于RNA,一种常见的方法是使用随机引物进行逆转录,然后合成互补的第二链,之后进行类似于DNA的制备方法。与非靶向鸟枪法测序相比,靶向测序覆盖当前基因组中所有可能目标区域,能够对每个区域有深的覆盖度和全面性。

 

在大多数临床样本中,几乎所有的DNA和RNA都来源于宿主(人类),而mNGS感兴趣的是微生物(或非人类),这给从宏基因组数据检测病原体提出了巨大的挑战。人类宿主去除可以在生物信息学分析步骤中执行,但在mNGS之前去除人类DNA或RNA会更经济,在文库制备过程中,可以避免对不相关的人类背景进行测序。大量去宿主方法被证明,其中包括使用皂苷选择性地降解人类细胞,而病原体DNA被它自身外壳保护,如细菌或真菌的细胞壁或病毒的衣壳蛋白。对于RNA,可以通过捕获探针杂交或Cas9核酸酶靶向地去除人类RNA序列,如大量的rRNA或线粒体RNA。

 

利用保守引物进行PCR扩增,针对一个或多个病原特异的基因组位点,然后进行文库制备,也可以减少人类DNA和RNA的测序比例。在某些情况下,保守的引物连接上用于测序的接头,通过PCR扩增进行单步文库制备。该技术的一个常见应用是使用保守引物对16S rRNA基因的高变区(V1-V9)进行PCR扩增,然后用Sanger或NGS法对扩增子测序,对高变区的测序可以对样本中存在的细菌进行属甚至种水平的鉴定。这种方法通常用于微生物组和宏基因组分析,也被用于诊断多微生物临床样本中的复杂细菌感染。然而,它不太适用病毒,病毒表现出高度的序列多样性,也不太适用于真菌和寄生虫,因为它们有类似于人类核糖体的真核核糖体,从而导致非特异性扩增。

 

生信分析

用于mNGS数据宏基因组分析的计算流程与其他用于寻找人类生殖系和体细胞突变的NGS流程不同,具有独特的挑战和要求。目前存在多种用于从mNGS数据中检测和表征微生物序列的开源和私有软件包,包括SURPI(基于序列的超快病原体鉴定)、Kraken、Taxonomer和一些私有流程。这些信息学流程通常:(a)预处理测序reads,以删除接头和低质量、低复杂性区域;(b)比对人类基因组,删除人类reads(计算法去宿主);(c)将已处理的非人类测序reads比对到病原体数据库,并对每个read进行物种分类;(d)对数据结果进行整理和统计分析,通常在图形用户界面中使用可选的可视化方法(图1)。

 

病原体数据库可以从上到下建立,从一个综合数据库开始,如GenBank(截至2017年约240Gb;ftp://ftp.ncbi.nlm.nih.gov/genbank/release. notes),并作出重要的调整,如排除与人类宿主基因组相对应的序列和低复杂度区域。也可以通过从大量的病原体中收集个体基因组,自下而上地建立数据库。另一种方法是为给定分类水平(如物种或属)的特定区域建立参考数据库。需要注意的是,并不是所有的病原体基因组都是可用的,特别是当这种生物很罕见的时候。在这种情况下,如果病原体序列数据足够丰富,或者能够获得分离株,就可以尝试重头组装。除了病毒,很少有其他生物体有足够的read覆盖来重头组装一个在参考数据库中还没有的完整基因组。然而,重新组装成更长的连续序列(称为contigs)可以提高数据库比对的灵敏度和特异性。

 

解释和报告

没有解释mNGS结果的标准方法。应当考虑到一些相互竞争的限制:(a)罕见病原体或新出现的病原体菌株的参考数据库不完整;(b)参考数据库偏向某些生物;(c)某些重要的病原体可能在基因上是相似的(例如分枝杆菌的菌种);(d)正常的菌群和试剂的污染是一种常见的现象,它会限制特异性。为了提供最准确的结果,报告的算法可能需要考虑试验过程和样本的质量,在当前和以往的检测中都很罕见的病原体,微生物的相对和绝对丰度,是否有更丰富的基因相似的微生物,以及微生物的基因组覆盖率。报告结果的工作流程需要预先建立质量控制和结果解释的标准,这些标准可能包括对所有病例或满足定义标准的病例子集或具有不寻常结果的病的专家评审。

 

由于篇幅有限,我们今天先分享以上内容,下篇将针对宏基因组检测技术在传染病诊断的应用及验证进行详细介绍,并分享该领域的病例报告和相关研究

下一篇

版权所有 公海赌船555000 沪ICP备16022951号