近期,中国科学技术大学的刘海燕教授与陈泉团队开发了一种名为SCUBA-D(SCUBA-diffusion)的新模型,这是一种不依赖预训练结构预测网络的蛋白质主链去噪扩散概率模型。该模型能够自主地从头设计蛋白质的主链结构,或者在指定的功能位点基础上生成主链结构。这一研究成果已于10月9日在线发表在国际知名期刊《自然-方法》(Nature Methods)上。
#### SCUBA-D的特点与优势
SCUBA-D是基于深度学习算法的一种迭代升级模型,它可以处理多种蛋白质结构设计任务。与之前的模型相比,SCUBA-D在设计过程中引入了对抗损失来优化扩散模型训练,从而避免生成物理上不可能存在的蛋白质结构,显著提高了设计的成功率。
由于SCUBA-D不依赖现有的结构预测网络来进行预训练,因此它能够在设计过程中避免对已知天然蛋白质结构的过分偏好,并有能力探索现有模型未能覆盖的蛋白质结构空间。
#### 实验验证
研究团队对SCUBA-D模型在不同类型蛋白质从头设计任务中的表现进行了验证。在单体蛋白质结构设计中,对70种设计序列进行实验分析,结果显示近80%(53种)的序列可以实现可溶性表达,并且通过高分辨率晶体结构解析,证实了它们与预期目标结构的高度一致性。
在小分子结合蛋白的设计中,研究者对非经典的血红素降解酶进行了保留结合位点的主链重构设计,并对设计出的12种序列进行了实验验证。其中有5种序列显示出与血红素结合的能力,3种序列与血红素的亲和力甚至优于或等于天然蛋白质。
对于人工设计的30种Ras结合蛋白,有14种与Ras存在相互作用,其中3种与Ras的结合亲和力与天然蛋白相似。复合物的晶体结构进一步确认了设计的准确性。
#### 模型原理
- **设计灵活性**:SCUBA-D可以根据随机噪声或者用户定义的结构草图来设计新的主链结构,同时也能够在给定包含功能位点的局部结构的基础上设计完整的主链结构。
- **模型架构**:SCUBA-D模型的架构中包含了对抗损失函数,这有助于提高设计过程的质量控制,确保生成的蛋白质结构符合实际生物学需求。
这项研究得到了来自科学技术部、国家自然科学基金委员会以及中国科学院等机构的支持,标志着蛋白质设计领域的重要进展。