日前,计算生物界的大明星AlphaFold,再度取得重大突破。它已经能够预测超过100万个物种的2.14亿个蛋白质结构,几乎涵盖了地球上所有已知蛋白质。AI的出现极大改变了蛋白质预测的模式和效率。目前各高校、企业都有相关布局,而我国相关创业公司在2017年至2021年呈现出爆发式增长,且大多都已获高融资。
在不久前,互联网巨头Meta,更新蛋白质大模型ESMFold。它可直接从单序列语言模型表示中预测完整的蛋白质结构,准确性与AlphaFold相媲美,推理速度快了一个数量级。彭健带队的国内AI创新药公司华深智药,也实现了最新突破:OmegaFold用单条序列搞定蛋白质3D结构,即便是人工设计蛋白质,也可以通过AI预测3D结构确定其功能。
在AI激活、数据驱动下,它正从幕后走向台前,计算生物正在从实验室走向大规模应用前夜……
国内计算生物学2017年-2021年呈现出爆发式增长
日前,在量子位智库《计算生物学深度产业报告》中指出,计算生物,本质来讲就是通过计算手段来解决生物学问题。
具体来说,就是根据不同类型的生物数据(比如浓度、序列、图像等)来构建算法和模型,从而理解生物系统本身(比如分子、细胞、组织和器官等),并推进相关研究及应用的学科。
而从应用划分,目前主要落地领域包括序列分析、结构和功能分析、生物分子动力学、系统建模、进化和群体基因组学、相关性网络……
以AlphaFold2为例,它是基于基因序列预测蛋白质结构,属于结构和功能分析范畴。
可以看到的是,计算生物学属于工具性质的学科。某种程度上这决定了市面上尚不存在严格意义上的计算生物学公司,而是以AI制药、组学、精准医疗等名义出现。
这一点在我国尤为明显。
目前,国内以AI制药为核心场景。不光高校机构(西湖大学生命科学研究院、北大前沿交叉学科研究院等)、互联网大厂(阿里、百度、华为等)有相关研究和布局。相关创业公司在2017年-2021年呈现出爆发式增长,且都已获高融资。
这种情况同样也体现在国外。
据浦发硅谷银行《医疗健康行业投资与退出趋势》报告显示,2021年投向计算生物学公司的金额达到59亿美元(即397亿元)一年增长高达3倍,超过非计算生物学公司投资的两倍。
从商业模式上看,整个行业以2B为主导,主要为算法授权、生物资产和软件使用。我国主要为前两种,但鉴于软件平台和先锋项目能够形成技术及业务迭代闭环。
量子位智库认为,在出现大量优势自研算法后,软件平台所占比重将有明显上升。国外已开始通过打包订阅、按照使用量计费等方式对外商用其计算生物学服务。
AI或者深度学习的出现给计算生物带来了转机
量子位智库分析,如今这一赛道爆火的原因:一是和深度学习近年来的爆发式增长有关;二是最近兴起的AI for Science概念,让AI在生物学领域落地的象征——计算生物学成为一种趋势。AI和传统科研结合带来的巨大潜能,有望带来一场全新的科学革命;三是对于生物学本身,传统的实验和分析手段已难以充分开发海量生物数据,确实需要计算生物学这种跨学科,同时兼顾多个细分领域的综合性工具来解决问题。
那么,计算生物学具体能给生物学带来什么价值呢?
《计算生物学深度产业报告》认为,分成科研和应用两大块。在科研方面,计算生物学最直接的作用,就是对实验的替代,甚至超越。与操作水平、 实验器具、观察水平等精度有限的传统生物实验相比,基于计算机的计算生物学不仅成本更低、速度更快,在理论上也拥有无限的计算精度和高度可复制性。在将过往经验内化在AI模型中后,计算生物学能够自动化、规模化和并行化地提出假设,让科研人员无需依赖少数天才,同时降低下游进行开发的门槛,而这将有望对行业格局带来重大影响。
其次是开辟“先假设-再验证-最后优化假设”的新方式,让研发效率得到数倍提升。
早在1991年,Nature上有观点就提出,新的生物学研究方式的出发点应该是科学家先从理论推测出发,再返回到实验里去,追踪或验证理论假设。计算生物学恰好能够基于干湿循环实验,开辟“假设-验证-优化假设”的新方式,提升整体生物研发效率。
具体来说,一方面,实验室通过高通量的湿实验,在快速验证AI预测的同时,为AI模型提供大量可用的训练数据,提升AI预测模型的精度。另一方面,AI将基于自身的数据处理能力,提供能够在湿实验中验证的假设(高参考价值、甚至可实用),两者共同迭代加速。
精准医疗将成为计算生物学长期的重点发力方向
在AI制药领域,智能实验室已成为公司长久竞争力的重要体现。量子位智库认为,这种情况也将广泛适用于所有计算生物学相关的产业领域。
在应用方面的价值,可以按流程划分为三大类:
一是计算推演生物性质及原理,包括:蛋白质结构预测、致病机理研究、蛋白质相互作用预测(PPI)、抗体和抗原的表位预测、基于基因组学寻找疾病成因或寻找新型的生物标志物等。
二是搭建预测及判断模型,包括:AI制药中基于靶点的化合物性质预测(主要涉及小分子药物开发),疾病诊断/监控/治疗建模,涵盖细胞/器官/人体的生物模拟器等。
三是对生物体进行控制改造,包括:新疗法/药物开发、精准医疗和生物制造(以合成生物学为代表)。
其中新疗法/药物开发是目前落地最成熟的场景。
精准医疗将成为计算生物学长期的重点发力方向,这是由于C端市场的消费意愿更为明显,且使用人体广泛、产品形态相对直接。
在这个方向上,国外已出现了基于多组学的多家布局,而国内布相关公司相对较少,且均基于基因组学进行,存在一定差距。
对癌症的个性化治疗和基因组学也将成为精准医疗中最先落地的场景。
总的来看,量子位智库认为,以疾病诊断与AI制药为代表,生物模型预测及判断将成为短期内计算生物学应用价值的首批增长点。但计算生物学产业价值的最终落地还是体现在对生物体的控制改造上。
年轻的计算生物学有几大关键瓶颈待突破
可以预见的是,计算生物学未来的产业链将会是以数据提供商为底层支撑+上层各类相关从业公司(包括提供计算平台和软件、分子建模/机器学习框架、算力以及智能实验室的企业)的结构构成。
量子位智库预测,计算生物学软件平台将产生相当的市场规模,以及该领域内研究的问题将逐渐向系统化、底层化、更适用于直接落地的方向发展。
《计算生物学深度产业报告》认为,眼下,要想实现以上期待,年轻的计算生物学还有着以下几大关键瓶颈待突破——有的问题为该行业独有,也有的是整个AI科学领域都存在的:
一是对生物底层原理的明确。目前,我们还有大量关于生物学本身的底层机制待研究透彻,在进行模型构建、生物验证及人体落地时,需要引入这次知识来减少不符合领域认知的偏差,保证准确率。
二是统一的计算和数据框架。基于微观手段,一些生物学上的特定问题能够得到解决,但要最终落地,所需的模型需要能够覆盖多组学数据、多环节及功能并行。
此外,需要保证计算生物学中的多种异构数据,例如图像、视频、分子图谱、DNA 代码、基因表达、电信号等,有明确的标准和通用格式,以便在不同算法和平台之间互操作。
三是消费级数据的获取。在分析师看来,基因组学相关的计算生物学,其关键的产业发展阶段是数据采集达到了消费级水准。
四是工程落地能力。目前学术上有很多机器学习算法和模型已经相当成熟,关键是如何在具备底层数据的情况下,加入对生物学的具体理解,进行精细地调整。
最后就是数据隐私的问题,以及如何让相关模型具备可解释性,取得这一特殊行业的信任问题。
下一篇:返回列表
【免责声明】本文转载自网络,与科技网无关。科技网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。