缩小人类基因组的差距为什么Y是最后的障碍

导读 到2022年,人类每条染色体都已被完全绘制Y染色体除外。1尽管这条染色体是最短的,但它却是最难测序的,因为它布满了重复的DNA。2常用测序技

到2022年,人类每条染色体都已被完全绘制Y染色体除外。1尽管这条染色体是最短的,但它却是最难测序的,因为它布满了重复的DNA。2常用测序技术从染色体上的随机位点收集短读段,并将它们拼凑成重叠的单个读段,但由于多位点重叠,Y染色体上的重复DNA使组装变得复杂。

最后,两个科学家团队合作应对了这一挑战,并对Y染色体进行了全面测序。他们在《自然》杂志上发表的两项独立研究中报告了他们的结果。第一项研究描述了经过仔细验证的完整参考序列,而第二项研究报告了来自不同背景的43名男性之间的Y染色体变异。3,4这些数据共同为探索Y染色体的基因组成和多样性创造了新的机会。

“很多人并不欣赏幕后发生的技术发展。癌症基因组公司GRAIL的计算基因组学研究员BriannaChrisman没有参与这两项研究,她说:“这真的令人印象深刻,它将使组装准确和完整的基因组变得更加可能。”

在第一项研究中,来自不同研究所的研究人员在端粒到端粒(T2T)联盟下联合起来,以填补参考人类基因组中的空白。为了对Y染色体进行测序,国家人类基因组研究所的基因组学研究员兼研究合著者AdamPhillippy和他的同事选择了纳米孔测序,因为它会产生长读长,即使存在重复DNA,这些读长也明确重叠。5然而,这种技术很容易出错,大约每100个碱基就会产生一个错误。因此,研究人员还使用了一种称为单分子循环一致性测序的高保真技术,该技术会产生较短的读数,并平均每1000个碱基产生一个错误。6然后,T2T联盟首先使用了一种名为Verkko的算法,该算法结合了这两种技术,将高度准确的长读数组装成完整的Y染色体序列。7

Y染色体的第一个完整序列包含3000万个新碱基对。菲利普说,这些新发现的序列大多数与其他染色体上的序列相关,但带有细微的变异。“现在的问题是‘这些微妙的变化有什么有趣的作用吗?’”他说。

Phillippy和他的同事发现了110个新基因,其中41个预计可编码蛋白质。其中大部分是TSPY基因的额外拷贝,该基因参与精子的产生。目前尚不清楚为什么这些备份会发生变化。

新的Y染色体序列可能会给宏基因组学研究带来变化,宏基因组学研究涉及微生物基因组测序。人类DNA污染物经常渗透到这些研究中。8“实验室里的人员将脱落的皮肤细胞放入试剂中,”Phillippy解释道,这些污染物序列可能会被错误地归因于微生物。从生物伦理学的角度来看,污染物可能含有其来源个体的DNA特征。他补充说,例如,在人类微生物组研究中捐赠样本的人会被承诺匿名,他们的DNA需要从已发布的数据集中排除,以避免将来有可能追踪到他们的DNA。

Y染色体中的3000万个碱基对此前尚未测序,造成了盲点,可能会通过过滤器泄漏。使用完整的Y染色体序列而不是以前的版本,该团队在这些数据集中发现了近1000种潜在污染物。克里斯曼说:“收集我们拥有的公共细菌参考基因组,也许还有病毒,并尝试标记这些Y染色体序列,将是有帮助且可行的。”

领导第二项研究的杰克逊实验室基因组学研究员查尔斯·李(CharlesLee)从不同的角度解决这个问题。一旦T2T联盟对他们用于研究的测序方案进行了微调,Lee和他的同事就采用了该方案并将其应用于43个Y染色体来自居住在除澳大利亚以外的每个大陆的人。克里斯曼说:“他们的样本来自世界各地,更多地关注南美、西非和东亚,这些地区历来代表性不足。”一半的染色体来自非洲背景,非洲是遗传多样性最高的地区之一,因为迁移到其他大陆的人类在迁移过程中丢失了突变。9通过比较所有43条染色体的变异,研究人员估计最近的共同祖先生活在大约183,000年前。

每条染色体平均都有惊人程度的变异,包括三个超过1000个碱基对的反向序列、88个超过50个碱基对的大插入或缺失,以及超过3000个单碱基对突变。绘制这种多样性图表可以帮助识别影响男性健康和生育能力的基因。

性染色体在疾病研究中一直被忽视,因为直到最近它们才被完全测序。“现在,没有理由不将Y染色体纳入人类健康研究中,”亚利桑那州立大学计算进化生物学家、T2T联盟这项研究的合著者梅丽莎·威尔逊(MelissaWilson)说。事实上,Y染色体最近在癌症研究中引起了人们的关注,因为衰老细胞中Y染色体的缺失与膀胱癌的不良预后相关。10

“我接下来要寻找的是能够在单细胞水平上完成我们已经完成的工作”,以探索个体内部的变异,李说。他解释说,虽然单细胞测序技术已经存在,但它无法从一个细胞的DNA中收集长读数。