来源:生物世界(ID:ibioworld)
CRISPR 基因编辑技术在生物医学等领域有着很多应用,从治疗遗传疾病、癌症,到农业育种、核酸检测等等。CRISPR 基因编辑依赖于其两种组分,向导 RNA(guide RNA,gRNA)负责识别和靶向目标位点,Cas 酶负责对目标位点的切割。CRISPR-Cas9 是应用最为广泛的 CRISPR 系统,但越来越多研究显示,其对 DNA 的直接切割具有潜在风险。
近年来,越来越多的 CRISPR-Cas 家族被相继发现,其中 CRISPR-Cas13 是新型 CRISPR 工具中的耀眼新星(尤其是 Cas13d)。与 Cas9 不同的是,Cas13 是靶向切割 RNA。RNA 靶向的 CRISPR 系统为开发新一代的基因编辑疗法带来了巨大希望。
2023 年 7 月 3 日,纽约大学和哥伦比亚大学的研究人员在 Nature Biotechnology 期刊发表了题为:Prediction of on-target and off-target activity of CRISPR–Cas13d guide RNAs using deep learning 的研究论文。
研究团队将深度学习技术与 CRISPR 筛选相结合,开发了一种人工智能(AI)平台——TIGER,可以预测 RNA 靶向的 CRISPR 系统(CRISPR-Cas13d)的上靶和脱靶活性,还能实现对基因表达水平的精确调控。这项新技术为 CRISPR 基因编辑疗法中的精准基因调控铺平了道路,也进一步推动了 RNA 靶向的 CRISPR 系统在人类遗传学和药物发现方面的广泛适用性。
论文通讯作者 Neville Sanjana 表示,随着从 CRISPR 筛选中收集到更大的数据集,应用复杂机器学习模型的机会越来越快。有了 TIGER 模型,我们可以预测脱靶活性,还能实现对特定基因表达水平的精确调控,这使得 RNA 靶向的 CRISPR 在生物医学领域的许多令人兴奋的新应用成为可能。
RNA 靶向的 CRISPR 系统有着广泛的应用前景,例如,RNA 编辑、靶向敲低 mRNA 来抑制特定基因表达、进行药物的高通量筛选、识别非编码 RNA 的功能,还可以用来预防或治疗 RNA 病毒的感染。
高精度是治疗性 RNA 靶向的 CRISPR 技术安全性的关键,要想推进 Cas13 的临床应用,需要实现两个关键目标——最大化上靶活性(on-target)、最小化脱靶活性(off-target)。脱靶活性包括 gRNA 和目标 RNA 的错配(mismatches),以及产生的插入和缺失突变(indels)。
然而,早期针对 RNA 靶向的 CRISPR 系统的研究主要集中在上靶活性和错配上,而对脱靶活性的预测,特别是插入和缺失突变,还没有得到很好的研究。在人类中,大约五分之一的基因突变属于插入或缺失突变,所以这是 CRISPR 设计中需要考虑的重要的潜在脱靶类型。
在这篇最新论文中,Neville Sanjana 团队在人类细胞中进行了一系列 RNA 靶向 CRISPR 筛选实验,在多个人类细胞系中检测了 20 万个靶向必需基因的 gRNA 的活性,包括完美匹配的 gRNA,以及导致错配、插入或缺失突变的脱靶 gRNA。从而生成了一个大型 Cas13d 数据集,对 Cas13d gRNA 的上靶和脱靶活性进行了全面评估。
Neville Sanjana 团队与机器学习专家、哥伦比亚大学计算机科学助理教授 David Knowles 合作,通过上述数据训练了一个深度学习模型,将其命名为 TIGER(Targeted Inhibition of Gene Expression via gRNA design)。将深度学习模型预测生成的结果与在人类细胞中进行的实验室测试相比较,TIGER 能够准确预测上靶活性和脱靶活性,这也成为了第一个预测 RNA 靶向的 CIRSPR 系统的脱靶活性的工具。
论文共同通讯作者 David Knowles 表示,利用现代高通量实验产生的庞大数据集,机器学习和深度学习正在基因组学领域显示出巨大优势。更重要的是,我们还能够使用“可解释的机器学习”来理解为什么该模型能够很好地预测 gRNA 的效果。Neville Sanjana 实验室之前的研究展示了如何设计能够敲低特定 RNA 的 Cas13 gRNA,而现在有了 TIGER,就可以进一步指导对 Cas13 gRNA 的设计,在靶向敲低和避免脱靶活性之间取得平衡。通过将人工智能(AI)与 RNA 靶向的 CRISPR 筛选相结合,研究团队设想 TIGER 的预测将有助于避免不希望的脱靶活性,进一步促进新一代 RNA 靶向疗法的发展。
在这项最新研究中,研究团队还证明了,TIGER 的脱靶预测可以用来精确地调控基因表达水平,通过错配 gRNA 实现对特定基因的部分表达抑制。这对于许多由于基因拷贝数增加导致的疾病具有重要意义,例如唐氏综合征、某些类型的精神分裂症、腓骨肌萎缩症,以及一些因为基因异常表达导致的癌症。
▲图|使用TIGER来设计gRNA,实现对基因表达水平精确调控
总的来说,该研究开发了的 AI 预测模型增强了我们对 gRNA 靶向特异性和避免脱靶的理解,还能在一定程度上实现对基因表达水平的精确调控。这项研究进一步推动了 RNA 靶向的 CRISPR 系统在人类遗传学和药物发现方面的广泛适用性。
论文链接:1.https://www.nature.com/articles/s41587-023-01830-8