人工智能催化基因激活研究并揭示稀有DNA序列

导读 生物学家使用机器学习(一种人工智能)来识别在基因激活中具有专门设计功能的合成极端DNA序列。他们测试了5000万个DNA序列,发现了具有可用于

生物学家使用机器学习(一种人工智能)来识别在基因激活中具有专门设计功能的“合成极端”DNA序列。他们测试了5000万个DNA序列,发现了具有可用于生物技术和医学的活性的合成DNA序列。

分享:

人工智能在我们的新闻源中呈爆炸式增长,ChatGPT和相关人工智能技术成为广泛公众关注的焦点。除了流行的聊天机器人,生物学家正在寻找利用人工智能来探索我们基因核心功能的方法。

此前,加州大学圣地亚哥分校的研究人员调查了开启基因的DNA序列,他们使用人工智能来识别与基因激活相关的神秘拼图,这是一个涉及生长、发育和疾病的基本过程。使用机器学习,一种人工智能,生物科学学院教授JamesT.Kadonaga和他的同事们发现了下游核心启动子区域(DPR),这是一种“网关”DNA激活代码,参与多达三分之一的运作我们的基因。

基于这一发现,Kadonaga和研究人员LongVongoc和TorreyE.Rhyne现在已经使用机器学习来识别在基因激活中具有专门设计功能的“合成极端”DNA序列。发表在《基因与发展》杂志上的研究人员通过机器学习(AI)通过比较人类和果蝇(果蝇)中的DPR基因激活元件测试了数百万个不同的DNA序列。通过使用人工智能,他们能够找到罕见的、定制的DPR序列,这些序列在人类中有活性,但在果蝇中没有,反之亦然。更一般地说,这种方法现在可用于识别具有可用于生物技术和医学的活性的合成DNA序列。

“在未来,这种策略可用于识别具有实际和有用应用的合成极端DNA序列。我们可以测试药物A(条件X)的能力,而不是将人类(条件X)与果蝇(条件Y)进行比较,但不是药物B(条件Y)来激活基因,”分子生物学系杰出教授Kadonaga说。“这种方法也可用于寻找定制的DNA序列,这些序列激活组织1(条件X)中的基因,但不激活组织2(条件Y)中的基因。这种基于AI的方法有无数的实际应用。合成极端DNA序列可能非常罕见,也许是百万分之一——如果它们存在,它们可以通过使用AI找到。”

机器学习是人工智能的一个分支,其中计算机系统根据数据和经验不断改进和学习。在这项新研究中,Kadonaga、Vongoc(前加州大学圣地亚哥分校博士后研究员,现就职于VeliaTherapeutics)和Rhyne(助理研究员)使用一种称为支持向量回归的方法来“训练”具有200,000个已建立DNA序列的机器学习模型基于真实世界实验室实验的数据。这些是作为机器学习系统示例呈现的目标。然后,他们将5000万个测试DNA序列“输入”到人类和果蝇的机器学习系统中,并要求它们比较序列并识别两个庞大数据集中的独特序列。

虽然机器学习系统显示人类和果蝇序列在很大程度上重叠,但研究人员关注的核心问题是人工智能模型是否可以识别基因激活在人类中高度活跃但在果蝇中不活跃的罕见情况。答案是响亮的“是”。机器学习模型成功识别了人类特有(和果蝇特有)的DNA序列。重要的是,极端序列的AI预测功能在Kadonaga的实验室中通过使用传统(湿实验室)测试方法得到了验证。

“在开始这项工作之前,我们不知道人工智能模型是否足够“智能”以预测5000万个序列的活动,尤其是具有异常活动的离群“极端”序列。因此,令人印象深刻且非常了不起的是AI模型可以预测罕见的百万分之一极端序列的活动,”Kadonaga说,他补充说,从每个湿实验室开始,机器学习技术分析的可比的1亿湿实验室实验基本上是不可能的实验需要将近三个星期才能完成。

机器学习系统识别出的罕见序列是一个成功的示范,并为机器学习和其他人工智能技术在生物学中的其他用途奠定了基础。

“在日常生活中,人们正在寻找ChatGPT等AI工具的新应用。在这里,我们展示了AI在基因激活中设计定制DNA元素的用途。这种方法应该在生物技术和生物医学研究中有实际应用,"卡多纳加说。“更广泛地说,生物学家可能刚刚开始利用人工智能技术的力量。”