分享好友 资讯首页 频道列表

精准前沿丨覆盖人类肠道宏基因组189,680种DNA病毒的MGV数据库构建

2022-03-29 16:50:43 520

本期《精准前沿》分享美国劳伦斯柏克莱国家实验室和基因组研究所的Nikos C. Kyrpides团队在Nature Microbiology(IF=14.30)发表的一项研究[1]。在本研究中,我们利用公共数据集构建了人类肠道宏病毒数据库,并对构建的肠道宏病毒数据库进行了一系列的评测。

2131648543377284

研究背景

肠道菌群是一个复杂的微生物生态系统,对人体健康和发育起着重要作用。病毒在微生物中大量存在,与人类疾病有关。噬菌体(感染细菌的病毒)构成了大部分病毒颗粒,可以通过噬菌体捕食、溶原性和水平基因转移影响微生物生态系统过程。虽然它们无处不在,但我们对微生物组中病毒基因组多样性的了解非常有限,大多数病毒序列无法与现有的基因组数据库匹配,这给肠道病毒研究带来了许多困难和挑战。

一般来说,微生物类群的病毒基因组测序主要有两种方法:病毒富集宏基因组测序和宏基因组测序。病毒富集宏基因组学使用片段长度过滤来富集病毒序列,然后进行病毒DNA提取、全基因组扩增、鸟枪法测序和宏基因组组装。长度过滤用于富集胞外病毒,不会去除所有细胞的序列,但会排除一些基因组较大的病毒。由于样品生物量低,通常需要全基因组扩增,但这会扭曲病毒丰度,并过度扩增小环状单链DNA (ssDNA)病毒。

另一种方法是宏基因组测序,直接分离病毒和细胞序列统计,无需片段长度过滤或全基因组扩增。这种方法捕获细胞外和细胞内病毒的序列,包括整合的原噬菌体,并且不受全基因组扩增的影响。缺点是病毒数据量低,难以组装低丰度病毒。此外,对于病毒的DNA提取也没有优化,有些病毒序列可能来自细菌染色体中的噬菌体在降解前。

目前,已有研究人员尝试构建人类肠道病毒数据库,并已发表,包括人类病毒数据库(HuVirDB)、肠道病毒数据库(GVD)、IMG/VR数据库等。

研究设计

收集61个以前发表的人类粪便样本,总计11810个宏基因组测序数据,然后大规模鉴定病毒基因组。使用这些数据,形成了宏基因组肠道病毒(MGV)目录,其中包含189,680个病毒基因组草图,估计完整性超过50%,代表54,118个候选病毒物种。这些基因组极大地扩展了肠道微生物区系中DNA病毒的已知多样性,并提高了对宿主-病毒关联的理解。

MGV数据库建立方法

首先根据现有的一系列方法和系统建立标准的病毒检测流程,然后建立标准的模拟数据集进行性能评估。应该在性能评估中使用模拟数据集,以确定本研究中开发的病毒检测过程的性能是否达到甚至超过VirFinder/Virsorter和其他工具的性能。之后,利用本文开发的病毒检测流程收集并分析了之前的肠道宏基因组测序数据。整个数据库建立方法如图1所示。

35081648543378092

图1. MGV数据库建立方法

MGV数据库性能评估

1. 总体统计

该数据库收集的189680个病毒序列的统计包括基因组完整性、序列的区域来源统计(主要在欧洲和亚洲)、序列的生物分类比例统计、预测宿主比例统计、宿主整合序列比例统计等。如图1d所示。

2. 病毒多样性评估

为了量化MGV名录中基因组的多样性,首先采用MIUViG推荐的标准确定了物种水平的病毒操作分类单位(vOTU)。总的来说,确定了54,118个vOTU,其中8,086个来自至少两个样本(图2a)。为了识别病毒的更高级别的系统发育分支,基于成对平均氨基酸同质性(AAI)和基因共享,基因组被聚类到接近属和科水平的组中,并且发现了属水平的5,800个vOTU和科水平的1,434个vOTU(图2a)。vOTU的累积曲线在科和属的水平上趋于渐近,但还没有达到种的水平(图2b)。

然后根据四个基因组数据库和genbank建立对比数据库,将病毒覆盖率的差异与测试数据集进行对比(图2c)。为了防止自身匹配,放弃了来自同一原始研究和病毒基因组的测序读数之间的比对。MGV基因组覆盖了整个宏基因组阅读量的8.6%,比其他数据库高4倍,病毒组阅读量的40.1%,相当于HuVirDB的42.3%。CRISPR间隔和每个病毒数据库之间的匹配也被比较,作为量化主机-病毒连接的方法。总体而言,来自UHGG基因组的1.8 M间隔区的37.5%与来自MGV目录的基因组匹配,这比其他数据库高3.25倍(图2c

)。总之,这些结果表明 MGV目录大大增加了已知的病毒多样性,改进了整个宏基因组中病毒读数的检测,并扩大了宿主-病毒连接的覆盖范围。

81531648543378897

图2. 病毒多样性评估结果

3.  宿主预测和拓扑结构注释

从UHGG数据库选择了286,997个人类肠道细菌和古菌基因组,代表4,644个原核生物物种,从中提取了1,846,441个CRISPR,通过寻找精确匹配,MGV病毒与宿主关联的比例为81%。之后又进行了2个数据库的全基因组比对,通过精确匹配(96%的同源性,且比对读长超过1kb),得到了关联的宿主基因组占96%,病毒基因组占比90%,病毒和宿主的CRISPR分布具体如图3所示。

50501648543379504

图3. 宿主(纲水平)与MGV病毒CRISPR同源性统计

4.  肠道尾病毒目的系统基因组学

尾病毒目是一类广泛存在于环境中的有尾双链DNA噬菌体(dsDNA),且在肠道宏基因组中具有很高的代表性,为了探索该目在肠道微生物组的进化,基于77个蛋白质编码标记基因的串联比对,构建了物种水平的系统发育树(图4a)。在删除数据不足的基因组(少于三个标记或在比对中< 5 %)后,最终的树包含来自四个未培养肠道病毒数据库(MGV、IMG/VR、HuVirDB 和GVD)。

基于累积分支长度,MGV目录覆盖了总系统发育多样性(PD) 的 95.7%,并包含代表整个树的所有主要谱系的基因组(图4b)。这部分也比较了MGV和其他数据(IMG/VR、HuVirDB 和GVD)的差别,与其他三个数据库的组合相比,MGV基因组导致PD 增加了 287%,并且均匀分布在病毒和宿主分类组中。由于这些 vOTU 数量众多且系统发育分布广泛,梭菌噬菌体是迄今为止最多样化的群体(占 PD 的41.8%)。相比之下,拟杆菌噬菌体仅占 PD 的 11.1%,大多数 vOTU 分为四个主要簇(图4a),其中一个以 crAss 样噬菌体为主(占 PD 的2.17%)。

46831648543380036

图4.  肠尾病毒目系统进化树结果

5.  基因功能预测和耐药性分析

尽管人类肠道细菌和古细菌的功能潜力已被广泛研究,但肠道噬菌体的功能潜力却鲜为人知。为了探索这一点,在本研究的 189,680 个病毒基因组中鉴定了 11,837,198 个蛋白质编码基因,每个基因至少有 20 个氨基酸(98.4% 具有起始和终止密码子),并将这些基因与 HMM 数据库进行比较,包括 KEGG55、TIGRFAM56、Pfam57、VOGDB(http://vogdb.org/)和地球病毒组数据库。总体而言,45% 的病毒基因与任何数据库都没有确切匹配,75% 没有分配任何生物学功能(图5 a, b),这表明对人类肠道病毒的功能潜力知之甚少。

为了确定肠道噬菌体中最常见的功能,使用 MMseqs2以30% AAI作为选取标准,将鉴定出的1180 万个病毒基因进一步聚类为 459,375 个从头病毒蛋白簇(图5c),其中 61% 至少有两个成员(图5d)。积累曲线没有显示平台,表明肠道噬菌体具有大量功能多样性库,但本研究未完全捕获(图5e)。梭菌噬菌体的功能多样性最多,有 173,187 个蛋白质簇,反映了这些噬菌体的系统发育多样性。几个最大的蛋白质簇没有预测的功能,包括第四大的 8,319 个基因,因此可能是未来实验表征的良好候选者(图5f)。其他大簇用典型的病毒功能进行注释,包括衣壳形成、包装、裂解、溶原性、复制和转录调节(图5f)。

尽管列举所有病毒功能和辅助代谢基因超出了本研究的范围,但有两个特别不寻常的发现。通过对 Pfam 的 HMM 搜索,我们发现了 11,496 个推测的病毒 β-内酰胺酶(PF12706),包括具有 5,832 个成员的单个蛋白质簇中的大多数序列(图5f)。β-内酰胺酶是能够对青霉素、头孢菌素和头霉素等 β-内酰胺抗生素产生抗性的酶,并且会造成重大的全球健康问题。为了验证这一结果,我们使用 Resfams、NCBI AMRFinder和RGI对抗菌抗性基因的精选数据库进行了同源性搜索。这些工具显示总共只有 88 个抗性基因(使用 Resfams发现63 个,使用 AMRFinder 发现56 个,使用 RGI 发现30 个),表明 11,496 个推测的病毒β-内酰胺酶和验证的抗性基因之间的相似性较低。尽管功能宏基因组分析可能会发现肠道微生物组中真正的病毒 β-内酰胺酶,但这些结果似乎支持噬菌体很少编码抗生素抗性基因的结论。

另一个有趣的发现是大量的噬菌体逆转录酶(RT)(图5f)。RT 域 (PF00078) 是第三个最常见的功能注释,仅次于螺旋-转角-螺旋 DNA 结合域 (PF01381) 和噬菌体整合酶家族(PF00589)。已知逆转录病毒发生在逆转录病毒、靶向 RNA 的 CRISPR-Cas 系统和产生多样性的逆转录元件(DGR)中。DGRs 利用容易出错的逆转录在模板区(TR)的转录本中产生随机突变,然后将其插入到可变区 (VR) 的基因组中,从而在一个特定基因中产生群体水平的高度变异。

为了确定病毒 RT 是否是 DGR 系统的一部分,使用 DGRscan67 在 79,250 个高质量病毒基因组中识别 TR-VR 对,估计完整性> 90%。证实了该假设,与少数没有 RT 的基因组(53,630 的 6.5%)相比,绝大多数具有 RT 的基因组也包含 TR-VR(25,620 的 85.7%)(图5g)。DGR 在某些尾状病毒科(例如,6,616 种肌病毒科的 84%)和溶原病毒(18,187 种的 50.1%)中非常常见,而它们在其他尾状病毒科、ssDNA 病毒和真核病毒中很少见或完全不存在(图5h)。尽管绝大多数 DGR 基因靶标没有进行功能注释,但观察到几个Pfam域中的高度显着富集。总之,这些结果表明 DGR 在肠道噬菌体中很常见,并且可能是参与分子噬菌体-宿主相互作用的病毒蛋白。

11021648543380686

图5. 功能预测结果

讨论

在这项研究中,对公开可用的宏基因组进行了大规模数据挖掘,识别出189,680 个符合质量病毒基因组,代表54,118 个物种、5,800 个属和 1,434 个科级别的 vOTU。这个庞大的资源包含其他数据库中没有的广泛的病毒基因组多样性,改进了微生物组中病毒读数的检测,并代表了许多以前未发现的病毒基因组。

通过多种方法的组合,我们能够预测肠道微生物组中大部分病毒和原核生物多样性的宿主-病毒联系。这些宿主-病毒联系在未来对于理解疾病过程、设计噬菌体疗法或理解宿主-病毒共同进化动力学可能很重要。尽管进行了大规模的注释工作,但只能为 25% 的病毒基因分配初步的生物学功能,这表明需要更多的工作和新方法来预测病毒基因组中的蛋白质功能,例如深度学习和功能宏基因组分析。虽然目前的研究只关注 DNA 病毒,但未来的研究可以使用元转录组学数据来研究 RNA 病毒或基因表达模式。

结语

本研究使用大规模公开的人类肠道宏基因组测序数据,通过构建规范严谨的病毒检测流程,在此前的肠道宏病毒数据库基础上,对肠道宏病毒组(主要是噬菌体)进行了较大规模的扩展,扩大了肠道宏病毒组的范围。此外,本研究还建立了一套数据库评估的方法,这些方法除了评估数据库之外,对以后的肠道宏病毒组功能研究也给出了一定的参考价值。总之,本研究是一次有意义的探索,对推动人类肠道宏病毒组研究有重要意义。 

END 

参考文献:

[1] Nayfach S, Páez-Espino D, Call L, et al. metagenomic compendium of 189,680 DNA viruses from the human gut microbiome. Nat Microbiol. 2021;6(7):960-970. doi:10.1038/s41564-021-00928-6

撰写丨 飞翔的杜卡迪

编辑、排版丨SX

审校丨Lesley

反对 0
举报 0
收藏 0
newmap | sitemaps