【人物】David Baker 大卫·贝克 _ 从哲学研究到诺贝尔化学奖 _ Rosetta _ 蛋白质结构预测 _ Foldit _ RoseTTAFold _ RFdiffusion

大家好,这里是最佳拍档,我是大飞
2024年10月
我们做了几期诺贝尔奖的节目
其中物理学和化学奖都颁给了跟人工智能有关的科学家
引起了大家的很多关注
其中,化学奖的得主中
大家可能更为熟悉DeepMind的CEO 德米斯哈萨比斯
但是今天我们想介绍的
是另一位获奖者
美国华盛顿大学的大卫·贝克(David Baker)教授
他在蛋白质设计领域的卓越贡献
不仅革新了科学界对蛋白质的认知
还为众多相关领域带来了全新的发展机遇
今天
就让我们一同走进大卫·贝克的科研世界
探寻他从哈佛哲学系走向蛋白质设计大师的传奇历程
大卫·贝克于1962年10月6日
出生在美国华盛顿州西雅图的一个犹太家庭
父母分别是物理学家和地球物理学家
按常理
这样的家庭环境或许会让他早早踏上科学研究之路
然而事实并非如此
在哈佛大学本科阶段
他主修的是哲学和社会研究
回顾那段时光,他曾经表示
很多哲学讨论在当时看来意义不大
感觉像是在浪费时间
直到大学的最后一年
一次偶然的经历彻底改变了他的学术轨迹
他选修了发育生物学课程
在课堂上见证了一个神奇的实验
那就是加入蛋白变性剂后
RNA酶失去了切割RNA的活性
但是当溶液中的变性剂被蒸发后
RNA酶的活性竟奇迹般地恢复了
这个现象让他深深着迷
蛋白质究竟是如何在瞬间
自主找到正确的构象并发挥功能的呢?
这种对科学问题明确答案的追求
比哲学的模糊性更让他感到兴奋
从此
他开始如饥似渴地阅读《细胞分子生物学》这本经典教材
对生物学的兴趣也愈发浓厚
随后
他加入了诺贝尔生理和医学奖得主兰迪·谢克曼(Randy Schekman)的实验室
并于1989年获得了加州大学伯克利分校的生物化学博士学位
博士毕业后
他进入加州大学旧金山分校大卫·阿加德(David Agard)教授的实验室
进行博士后研究
在那里
他接触到了用计算机解析晶体结构的工作
却发现传统的人工匹配方式效率低下
而且困难重重
于是
他萌生了用计算机预测蛋白质结构的想法
1993年
贝克回到家乡西雅图的华盛顿大学
开启了他研发蛋白质结构预测软件的征程
这就是后来闻名遐迩的Rosetta
在研发过程中
贝克遇到了许多的挑战
因为蛋白质结构预测是一个极其复杂的问题
需要考虑到氨基酸序列、蛋白质的折叠方式以及各种物理化学因素
为了解决这些问题
贝克带领团队基于物理学的原理
让Rosetta通过对蛋白质的构象进行能量最小化计算
来预测最稳定的三维结构
也就是接近自然状态下的蛋白质稳定构象
1998年,Rosetta正式发布
为了验证它在蛋白质结构预测中的准确性
贝克团队积极参与了CASP竞赛
在这个竞赛中
参赛者需要对一批尚未公开结构的蛋白质进行盲测预测
以此来评估不同算法的性能
Rosetta在竞赛中逐渐崭露头角
而2004年的CASP 6竞赛成为了它的高光时刻
针对目标蛋白T0281
Rosetta首次实现了接近原子级精度的从头蛋白质结构预测
这个成果震惊了整个蛋白质结构预测领域
也让Rosetta一度成为这个领域的领导者
但是随着研究的深入
更准确的预测意味着需要消耗更多的计算资源
购买新的计算机不仅成本高昂
还面临着空间不足的问题
为了解决这一难题
贝克团队启动了Rosetta@home项目
这是一个极具创新性的项目
它邀请全球各地的人们
用自己闲置的算力来进行蛋白结构计算
当计算机运行这个屏幕保护程序的时候
屏幕上会显示正在折叠的蛋白质
让参与者也能直观感受到科学研究的魅力
如今
Rosetta@home项目已经吸引了众多志愿者的参与
极大地推动了蛋白质结构计算的发展
为了持续改进Rosetta软件
贝克还创建了Rosetta Commons学术社区
这个社区汇聚了来自全球60多个机构的学者
涵盖化学、生物学、生理学、物理学、工程学、数学和计算机科学等多个领域
每年社区都会举办会议
成员们也会互相分享成果、交流想法
在这里,不同领域的智慧相互碰撞
为蛋白质结构研究注入了源源不断的活力
Rosetta Commons也逐渐发展成为一个大规模的国际合作项目
受到Rosetta@home项目的启发
贝克意识到合作共赢的重要性
2008年
他的团队推出了一款名为Foldit的在线益智游戏
这款游戏的独特之处在于
无论是专业人士还是非专业人士都可以参与
在游戏中
玩家需要使用游戏中的工具
尽可能完美地折叠选定的蛋白质结构
得分最高的方案将由研究人员进行分析
评估在现实中的适用性
进而应用于靶向治疗等领域
Foldit一经推出便受到了广泛的关注
吸引了超过40万人参与
玩家们的热情和智慧
为蛋白质研究带来了意想不到的成果
2011年
一篇被《自然》杂志录用的论文中
Foldit的玩家帮助破解了困扰科学家长达15年的M – PMV逆转录病毒蛋白酶的晶体结构
令人惊叹的是,玩家们只用了10天
就构建出了足够准确的酶3D模型
成功进行了分子替换和随后的结构测定
这个成果充分展示了公众参与科学研究的巨大潜力
也让Foldit成为了蛋白质研究领域的一个创新典范
就在Rosetta和Foldit在蛋白质结构领域大放异彩之时
2020年底
一个强大的竞争对手出现了
那就是AlphaFold 2
在第14届CASP大赛中
AlphaFold 2的表现堪称惊艳
它预测蛋白质结构的准确性直接碾压了其他所有团队
包括贝克团队的Rosetta
AlphaFold2将深度学习与物理、生物等相关领域知识结合
实现了端到端的蛋白质三维结构信息预测
这个成果被誉为蛋白质研究的里程碑
然而
当时开发AlphaFold2的DeepMind公司并没有公开具体的细节
面对挑战,贝克没有选择退缩
和他的老师兰迪·谢克曼一样
贝克崇尚科学的开源、共享
兰迪·谢克曼曾经因为提倡开放、免费获取科学文献
对《自然》《科学》《细胞》这类封闭式访问的期刊大力批评
并且宣布自己的实验室永不向这些期刊投稿
受老师的影响
贝克也立志研发一个能够与AlphaFold 2媲美的开源模型
经过数月的努力
贝克和实验室的其他成员借鉴AlphaFold 2的思路
发布了深度学习模型RoseTTAFold
RoseTTAFold采用了独特的三轨(three – track)神经网络架构
能够同时考虑蛋白质的序列模式、氨基酸相互作用以及可能的三维结构
在这个架构中
一维、二维和三维信息相互流动
使得神经网络能够推理出蛋白质的化学组成与其折叠结构之间的关系
利用RoseTTAFold
研究人员计算了数百种新的蛋白质结构
包括人类基因组中许多未知的蛋白质
还生成了与人类健康直接相关的蛋白质
比如与炎症疾病和癌细胞生长相关的蛋白质
而且
RoseTTAFold的计算耗能和时间都低于AlphaFold2
只需一块RTX 2080显卡
就能在短短10分钟内计算出400个氨基酸残基以内的蛋白质结构
2021年6月
贝克公布了详细介绍RoseTTAFold技术路线的预印版论文
几天后
DeepMind首席执行官德米斯·哈萨比斯(Demis Hassabis)在推特上宣布
他们将公布AlphaFold 2的论文和源代码
同年7月15日
RoseTTAFold和AlphaFold2的相关论文分别发表于《科学》和《自然》杂志
《科学》杂志还将RoseTTAFold和AlphaFold共同评为2021年度突破技术
这场学术界与商业界的激烈竞争
最终以双方的成果共享和共同进步而完美结束
在经历了与AlphaFold 2的竞争后
贝克深刻认识到了深度学习的强大力量
于是他不仅开始将深度学习用于蛋白质结构预测
还将它拓展到了蛋白质设计领域
其实,早在多年以前
贝克的团队就有了设计全新蛋白质的想法
2003年
他们成功设计出了世界上第一个全新蛋白质Top7
Top7是一种由93个氨基酸残基组成的α/β蛋白质
研究人员通过一种在序列设计和结构预测之间迭代的计算策略
为它设计了全新的序列和拓扑结构
实验证明
Top7能够折叠成稳定的结构
它的X射线晶体结构与设计模型的均方根偏差
只有1.2埃
这个成果标志着人类在蛋白质设计领域迈出了重要的一步
随着深度学习技术的不断发展
贝克带领团队在蛋白质设计领域取得了更多的成果
比如
他在《自然》期刊发表了一篇题为《利用RFdiffusion从头设计蛋白质结构和功能》的论文
研究人员在蛋白质结构去噪任务中
对RoseTTAFold的结构预测网络进行了微调
开发了一个生成模型RFdiffusion
这个模型在蛋白质结合剂设计、酶活性位点支架设计等方面表现出色
而且具备极好的通用性
目前也已经开源
与此同时
为了进一步拓展RFdiffusion的能力
贝克还开发了一种基于深度学习的蛋白质序列设计方法ProteinMPNN
ProteinMPNN将蛋白质结构作为输入
1秒即可生成能够折叠成对应骨架的新氨基酸序列
结合像RFdiffusion这样的结构生成工具
它可以用来设计具有前所未见的序列、结构和功能的蛋白质
研究表明,在天然蛋白质骨架上
ProteinMPNN的序列恢复率为52.4%,
而过去基于Rosetta的物理设计仅为32.9%。
这个成果最终以一篇题目为《使用ProteinMPNN进行基于稳健深度学习的蛋白质序列设计》的论文
被《科学》杂志录用
除了开发新的工具以外
贝克的团队还对Rosetta和Foldit进行了优化
通过在软件内引入新的模块和算法
这两款软件不再仅仅局限于蛋白质结构预测
还拓展到了抗体设计、酶设计和小分子对接等方面
贝克表示
Foldit最初是为蛋白质结构预测而创建的
但是随着研究的深入
现在已经转向了蛋白质设计
团队会不断为玩家更新关卡
让游戏与研究兴趣的变化保持同步
贝克的研究成果不仅在学术界引起了轰动
还在工业界得到了广泛应用
他深知,将科研成果转化为实际产品
才能真正造福人类
因此
每当他认为某项技术基本成熟的时候
就会成立新公司
或者投入过往创立的公司来进行孵化
推动技术的产业化落地
根据华盛顿大学蛋白质设计研究所官网显示
贝克作为创始人直接参与的公司就有21家
此外
他还以顾问的身份参与了其他公司的运营
以2024年4月成立的Xaira Therapeutics公司为例
它就应用了RFdiffusion和ProteinMPNN技术
公司致力于通过新兴的AI技术重新设计和开发药物
由斯坦福大学前校长马克·特西尔 – 拉维涅(Marc Tessier – Lavigne)博士
担任首席执行官,贝克为联合创始人
Xaira通过整合分子与人体疾病相关生物学特征的海量数据
来训练高质量的模型
同时
公司建立了工业化的干湿实验平台
能够在实验室中测试蛋白质对特定细胞靶标的粘附程度
并且评估稳定性等关键属性
所有产生的数据会被快速反馈到蛋白质模型中
实现分子设计的迭代优化
另外
2023年成立的Archon Biosciences公司
致力于通过生成式AI设计一种全新的生物药物类型
抗体笼(Antibody cage),简称AbC
AbC将AI设计与结构控制融合
可以完全控制抗体的方向、结合域化合价、大小、形状和刚度
这种结构控制能够实现精确的生物分布和细胞靶向结合
结合内部的临床数据
能够快速验证抗体的有效性
公司获得了英伟达等多家公司的支持
所用技术都源于贝克在2024年诺贝尔化学奖中获得认可的成果
2023年
Monod Bio公司推出了世界上第一个完全从头蛋白质产品
用于生命科学研究和诊断的荧光素酶LuxSit™ Pro
这个成果也是源自贝克2023年在《自然》杂志上发表的一篇论文
此外
2009年成立的Arzeda、2014年成立的Cyrus Biotech
以及2018年成立的A – Alpha Bio等公司
也都积极引进了贝克最新研发的AI技术
致力于研发更多的新型蛋白质
用来制造新的药物、疫苗、疾病疗法
甚至是新的材料
回顾大卫·贝克的学术生涯
他从最初的哲学探索
逐渐成长为蛋白质设计领域的大师
每一步都充满了对未知的渴望和对创新的执着
他始终坚持合作共赢的理念
用开放与分享的精神
激励着全球无数研究人员和科学爱好者
投身到蛋白质领域的发展中
他的研究成果不仅在学术界取得了巨大突破
还成功从实验室走向了工业界
为疾病治疗、食品生产、材料科学等多个领域
带来了新的可能
随着AI能力的不断进步
相信我们很快会看到
蛋白质设计领域不断会有新的发现和突破
帮助我们治疗各种疑难病症
甚至是改变我们的生活方式
而这些
都与大卫贝克的探索和奉献密不可分
感谢大家收看本期视频
我们下期再见

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注