计算机辅助合成线路设计
在实验室或工厂大规模生产具有特定结构的化合物,是人类战胜自然的非凡创造力的一种有力表现。一个复杂化合物的合成,往往要经过几十步的反应,因此在合成实验实施前化学家必须参考大量的反应资料,分析目标化合物的结构特点,选择合成策略,安排实施计划和确定各步具体的反应。这一过程可统称为合成路线设计。
通常,化学家是从已有知识(数据)中找出共同规律,根据这些规律用类比推测来寻找合成路线。尽管有大量数据可供参考,化学家在选择合成路线时仍会不知所措,化学反应体系的高度复杂性也决定了难以用纯理论方法来解决合成路线设计问题。因此,合成路线设计不仅需要化学家熟记成千上万个化学反应,还要求他们具有丰富的实践经验、科学的预见能力乃至敏锐的直觉。
随着计算机的普及和计算机技术的发展,人工智能方法日趋成熟。越来越多的化学家希望借助计算机用更科学的方法,而不是单凭经验和直觉来寻找解决合成路线设计这一化学中最需要人类创造力的难题的方法。
计算机辅助合成设计的缘起
计算机辅助合成设计的思想,最早可追溯到1960年,弗拉迪尤兹(G.Vladutz)提出将化学反应储存于计算机中并进行检索[1]。随后,他又提出了基于反应数据库的计算机辅助有机合成(computer-assisted organic synthesis,CAOS)的概念。1967年,哈佛大学的科里(E.J.Corey)和威普基(W.T.Wipke)[2]等人将这些思想变为实际的研究工作,形成了第一个计算机辅助合成设计程序——LHASA。
LHASA的工作原理与科里提出的合成设计的通用方法是一致的。它是从要合成的目标分子出发,先找到目标分子的前体,然后把前体看作目标分子,再找出新一轮的前体;重复这一过程,直至它们是可得(商品)化合物。这个把目标分子不断降解为结构更简单的前体分子,直至成为可得化合物的方法常称为逆合成(retrosynthesis)。逆合成分析的结果可以形象地组织成一棵树,称为合成树(synthesis tree)。
在LHASA以后,计算机辅助合成设计的研究在全世界得到了蓬勃发展。通常,把基于弗拉迪尤兹思想建立的计算机辅助合成设计系统称为检索型的。在科里建立LHASA的同时,德国的乌吉(I.Ugi)和考夫霍尔德(G.Kaufhold)[3]考虑运用数学方法来帮助解决化学问题,并建立新的计算机辅助化学系统。1973年,乌吉的工作发展为描述化学反应的代数模型——DU模型[4]。乌吉把这个模型视作计算机辅助推理求解化学问题的理论基础,希望把有机合成设计问题形式化和推理化,甚至可以给出目前尚未被实验观测到的反应,启发有机合成化学家的思路。后来,乌吉和其他研究者在此基础上开发了一系列计算机辅助合成设计系统,如EROS、AHMOS等。
随后,推理型的计算机辅助合成设计系统有了进一步的发展。在DU模型的基础上,加斯泰格尔(J.Gasteiger)发展出WODCA系统[5]。该系统使用了一些较新的思想和算法,嵌入了EROS系统中的反应预测和反应活性评估模块以及化合物物化性质计算模块,是继LAHSA后比较重要的计算机辅助合成设计系统。但是,目前它还仅是一个处于起始阶段的可供借鉴的雏形。
1970年,从事几何定理机器证明的格勒恩特(H.Gelernter)采用类似几何定理证明的逻辑方法,开发了一个化学数据库合成设计程序SYNCHEM[6]。1970年代初,亨德里克森(J.B.Hendrickson)[7]提出了有机分子的结构特征和互相转换的数学表示。
另一个比较成功的计算机辅助反应模型化系统是CAMEO[8],它能从给定的反应条件预测反应产物。CAMEO通过重组化学家熟悉的基元反应机理来操作,它既能作逆合成又能作前向合成检索。运行CAMEO系统的目的,是深入分析某个单独反应,而不是产生一个完整的合成树。它的主要特点是能考虑到产物。 一般说来,检索型计算机辅助合成设计系统的分析结果是基于已知反应的。它设计的合成路线切实可行,程序结构简单,易于实现。因此,检索型合成设计在近期最有可能达到实用化水平。下面详细介绍检索型合成设计的基本方法。
计算机中的化学反应知识
一百多年来,化学家辛勤劳动积累的大量化学反应实验数据,是设计合成反应的依据。有经验的合成化学家可以不直接参考这些数据,而是根据需要设计某个新化合物切实可行的合成路线。通常,化学家不是生硬地引用某一具体反应,而是在日常工作中通过自学习不断提高合成设计分析能力。
在进行合成设计时,化学家会从一类反应中抽象出某种通用的反应模式,再结合实际需要形成一个基本切实可行的合成反应,应用于某个特定目标化合物的合成。对化学家来说,合成设计是一种知识的学习与运用过程。从这个角度考虑,用计算机解决合成路线设计问题,可看作是用计算机模拟化学家的这种知识学习与运用的过程。在这个过程中,首先必须解决的问题,是将化学家头脑中的反应知识转变成计算机可处理的形式,即建立所谓的反应知识表述模型。由于在实际工作中,反应知识是按照反应类型分别处理的,因此这种模型称为反应知识的分类模型。
的创新能力,很大程度上取决于它与已知知识作类比和外推的能力。因此,在建立反应知识库的时候,不仅需要知道反应条件,也必须知道反应的可能适用范围,即此种反应条件下对目标分子中其他官能团产生的影响,或者反应起始物中官能团的存在是否会抑制反应的发生(或产生大量的副产物),以便决定应采取的应对措施。
为了提高程序的外推能力,化学家尝试在反应知识的表达模型中加入反应的可能适用范围。例如,对第尔斯-阿尔德反应来说,反应的适用范围较广,对较敏感的官能团一般不太会产生负面影响(较敏感官能团是指有机合成中,一般在酸、碱、氧化剂、还原剂存在下可发生反应的官能团。例如,羟基、羰基、羧基、硫醇、氨基等)。
对于环氧化反应,由于在反应中用到了氧化试剂(过氧化物),如果目标分子中存在对氧化剂敏感的官能团,将会对反应产生影响。逆合成分析时如果要用到这类合成反应,就要考虑采取相应的保护措施,如添加保护基。
模型中加入反应的可能适用范围这一功能后,将会提高程序的外推能力,使计算机辅助合成设计更加智能化。
逆 合 成 分 析
逆合成分析是合成设计中最关键的一步,它是从相反的方向分析合成反应。通常把从反应物到产物的过程称为反应,为了与反应区别,这种从产物到反应物的过程就称为转换。
用计算机易懂的语言来表达,逆合成分析可经过两个步骤来完成:找到谋略键;通过以理想方式断开或者连接谋略键来阐明这种特定的转换。所谓谋略键(strategic bond),是指在目标分子中最易发生反应的键,通过它可以将目标分子降解为更简单的中间产物。
对于较复杂的目标分子,用逆合成分析获得其合成方法的过程是十分漫长和曲折的。因此,进行逆合成分析时,仔细进行优缺点评估,较早删去那些可能发生但把握性不大的反应是必不可少的。但是,过早或过晚删除反应,都有可能影响发现有价值的合成路线。这说明计算机采用系统化逆合成分析方案所带来的本质问题:如何选取最有价值的谋略键始终是最为关键的。
目标化合物的析分系统
计算机通过反应知识模型掌握了合成反应知识,又有了将目标化合物不断降解的方法——逆合成分析,就可以建立实际的合成路线系统。这种合成路线系统称为目标化合物析分(parsing)系统。 目标化合物析分系统的数据流或它的逻辑结构比较简单,基本上是模仿人类的思维过程。在输入目标分子的二维结构后,将通过三个主要步骤完成析分:系统对目标分子析分并识别谋略键;根据谋略键分拆目标分子,得到目标分子的前体;在原料库中寻找分拆的结果。如果找到分拆结果,则结束析分过程;如果没有找到,则将此前体作为新的目标分子,返回第一步。最后将整个过程以合成树的形式,在屏幕上显示出来。
合成树的裁剪策略
在实际工作中,要合成的化合物相当复杂,合成树将十分庞大。因此,对合成树进行合理的裁剪十分重要。为避免不恰当的裁剪影响发现有价值的合成路线,化学家提出了许多选取最有价值谋略键的策略。这里介绍五种主要的合成策略。考虑到策略选择的复杂性,这五种策略可以根据实际情况作适当选择。
短程策略(short-range) 利用目标分子中存在的官能团进行逆向合成分析的简化。主要采用断裂、连接和消除方法来处理一些不常见或复杂的官能团。该策略适用于有较少官能团的目标分子。
拓扑策略(topological) 使用经验规则来选择谋略键,以达到合成问题的简化。规则对环系分子的谋略键给出了详细的约定。
长程策略(long-range) 在目标分子中引入其他的结构特征使某些变换得以应用。已经研究了第尔斯-阿尔德等反应的应用。
立体化学策略(stereochemical) 这种策略可以产生立体关系比目标分子更简单的前体分子。但现在还没有一个好的规则来选择立体中心作为策略使用,仍须由用户选择。
原料策略(starting material) 这种策略可以识别某一反应原料合成目标化合物的适用性,搜索逆向合成原料分子的合成路径。反应原料由系统按优先顺序提供,或由用户从原料库中任意选择。经过目标分子与原料分子的原子匹配,识别从目标分子到原料分子需要的官能团和骨架的变化,按照相应的合成规则(如协同反应规则、芳香亲电规则等),从知识库提供的选择变化实施从目标分子到原料分子的变化。当没有策略使用于当前的目标分子时,系统将会建立一些子目标,进行进一步的合成设计。
硅片上的化学
随着化学的高速发展,化学反应数据不断增长,检索型的合成设计将更为实用,同时对计算机平台和设计系统性能的要求也更为苛刻。通过对庞大反应数据库的深度加工获取反应知识,将比简单地扩大反应数据量更为重要,这种深度加工可以使计算机更懂得合成设计。包含种类更多的同类反应知识,再配以计算机化的各种合成设计策略,将会使检索型合成路线设计系统的性能更好。
目前,推理型合成设计系统实用化的“瓶颈"依然在于寻找能准确预测反应可能性的方法。然而,反应性的模型化是一个十分棘手的问题。多参数组成的高价超空间对某些反应性可能有效,但在解决反应体系的高度复杂性时,这一方法仍显得不够完善。随着对化学反应本质研究的深入,高强度计算设备(超级计算机、并行计算机)的普及,预言化学反应性的准确度将有可能提高,届时推理型的合成设计系统会更具有吸引力。
计算机辅助合成设计是一个富有挑战性的化学人工智能课题。随着计算机在化学中的应用日益广泛,传统的试管烧杯的统治地位已受到冲击,在高性能的计算机及其网络系统上集成各种化学信息检索、结构解析、分子设计和合成设计功能的软件将成为化学家日常工作中不可缺少的工具。
但是,计算机能做到的实在还不能与合成化学家的智慧相比。只有仰望尚未到达的叠叠峦峰,才意识到已跨越的是多么微不足道。耳边仿佛响起新的召唤:“到达这里才是化学人工智能!”这个不断发展的前进过程将永无止境,只有不畏艰险的攀登者才有可能到达光辉的顶峰。 毕竟,“硅片上的化学”(计算机化学)已经不再是梦想。