确保宏基因组学数据的完整性
宏基因组学方法采用与传统研究(例如 PCR 和 qPCR)类似的处理方式和工作流程。对于宏基因组和传统研究,第一步都是获取、分离和纯化核酸样本——用于基因组学研究的 DNA 和用于转录组学研究的 RNA。随后对该样本进行扩增(如果涉及的是下一代测序技术,则进行测序),使用专用仪器对终产物进行读取和测定。最后,使用软件对所得的原始数据进行处理、编辑和分析。
宏基因组与传统方法的最大不同之处在于规模。在设计和执行宏基因组学工作流程时,研究人员不仅必须考虑如何优化扩增前和扩增后的核酸产量,还必须考虑扩增后的产物尽可能准确地表示原始样本。这就使得一份样本中数千种微生物的基因表达规模和比例变得重要起来——宏基因组学样本中潜存的每个微生物都具有其独特的基因谱。因此,与传统的单个微生物研究相比,宏基因组学研究的难度更高。
什么是偏差以及偏差是如何引入的?
不幸的是,偏差——测得的数据值相对于原始样本真实值的系统性偏差——在所有实验过程中都会有不同程度的存在,在宏基因组学中也不例外。从样本采集到测序和reads组装,在整个典型的宏基因组学工作流程的任何阶段都可以引入偏差(1)。首先,一份样本是否能够真正代表它作为其中一部分的更大群落将取决于采样的位置和频率。例如,在研究肠道微生物组时,一份粪便样本给出的微生物群结果将不同于从肠道粘膜上获取的样本。此外,样本的组成可能会因样本的存放及运送至实验室的方式而出现偏差。
宏基因组研究所需核酸的提取通常要求将核酸从细胞的封闭结构中释放出来。破碎细胞膜和细胞壁的方式可以是化学、酶解或机械方式。然而,微生物在裂解难易方面各有不同,从而使得核酸产物的比例存在巨大差异。对于相同的样本,改变提取方式可能会使某个给定群类的占比出现多达 10 倍的差异(2)。因此,研究人员必须了解并补偿其提取方案和/或选择的试剂所带来的固有偏差(3)。
鸟枪法测序中的偏差来源
类似地,单项测序技术也有其自身的偏差。引物构建、扩增方案、基因组规模甚至核酸样本是单链还是双链都被认为是偏差的来源(3-5)。例如,虽然鸟枪法测序可创建用于在随后生成读长的随机片段,但随机性并不能自动等同于均匀性,可能会发生某些基因组或转录组区段相对其他区段获得优先扩增的情况。相同的,16S 测序依赖于将 16S 核糖体 RNA(rRNA)作为系统发育分析标记物以确定微生物组的组成(3)。
16S rRNA 测序中的偏差来源
16S rRNA 测序以细菌 16S rRNA 基因高变区周边的保守区为靶标,是一种被广泛使用的方法。数十年来,16S rRNA 基因分析一直是基于序列的细菌分析的主要方法。(7)ITS(内部转录间隔)区分析适用于进行真菌基因组分析(8)。
意识决定对策
偏差具有累积性。样本制备过程中产生的偏差将会在测序过程中被放大,并在分析过程中被凸显。因此,科学工作者理解潜在的偏差来源并开发出详尽的系列控制措施以期补偿偏差是至关重要的。阳性和阴性对照可用于识别采用相同方案和相同样本的不同实验运行间的变异性,而像 Microbiome Quality Control(微生物组质量控制)项目这样的数据库可有助于显示方案变化如何转化为最终结果的变化。最后,研究人员需要意识到,检测某些感兴趣的生物(例如病原体)的努力可能会掩盖许多其他生物,从而对微生物群落产生偏见(1)。尽管完全去除偏差是不可能的,如果宏基因组学要成为一个临床诊断工具,则理解并减少偏差将是至关重要的(1,6)。