为什么有很多理论看起来很美却不行?DNA密码破解正是如此

作为一个科学作者,我常常会收到一些热心朋友有关宇宙真理的猜想。对科学与宇宙充满好奇与热情是一件好事,没有丰富的想象力,就无法叩开下一扇真理的大门,我最喜欢的科学作家兼理论物理学家卡洛·罗韦利曾在他的书中这样说:

伟大的科学家与伟大的诗人有着某种相似,他们都充满想象力甚至是拥有类似的、深刻的洞见。

同时我想强调,当我们歌颂想像力时,必须要认识到“大胆假设”的背后必然是数量巨大且繁琐的“小心求证”。二者如果不相互帮助,相互制约就无法形成严谨的科学。今天本文就带大家回顾一下生命科学之旅中,科学家是如何在一次又一次的挫败中破解DNA密码。

DNA与氨基酸间的秘密

让我们回到1953年,两名年轻科学家的伟大突破让人类对生命的研究正式进入分子时代,脱氧核糖核酸——DNA揭示了生命遗传的秘密。

但是与多数人想象中的不一样,从来就没有什么仪器可以直接把细胞放进去分析然后直接给出结果,细胞中含有无数的化合物与蛋白质,比较你见过最稠的粥还要厚。所以多数情况下必须要一种一种分离再研究才行。

当生物学家已经认识到DNA是遗传密码后,接下来最重要的工作当然就是“破解密码”,他们推测DNA可以通过一系列复杂的反应生成蛋白质,而蛋白质又是由氨基酸构成的,那么DNA上碱基的序列与氨基酸到底有什么样的对应关系呢?

氨基酸总共有20种,而DNA有四种不同的碱基,所以这很快就变成了一个数学问题。如果一对一DNA就只能控制4种氨基酸,不行;两个碱基对应一个氨基酸最多也只有4*4=16种氨基酸;那么只有可能是三对一了,但是三对一很明显出现了多余,4*4*4有多达64种组合,对应区区20种是不是显得有点浪费呢?进化通常都是高效简洁的,这样的结构无疑给生物学家以巨大的压力——三对一真的正确吗?DNA翻译到底存在什么样的秘密呢?

第一完美猜想

第一个给出“完美”方案的人不是生物学家,而是一名美国物理学家乔治·伽莫夫,你对这个名字可能会比较陌生,但是一提到他的成就你一定会恍然大悟——宇宙大爆炸。

他给出的答案是怎样的呢?他认为DNA使用的是一种“重复密码子”的方法,比如说有一段序列是ATCGTC,它可以翻译的氨基酸不是2个,而是4个。第一个密码子是ATG,第二个密码子则是由第一个密码子的第二位与新加入的最后一位组成,也就是TCG;第三个自然是CGT了,第四个是GTC。这种可以让信息最大化的编码方案是密码学家的最爱

那为什么说这个答案是“完美”的呢?因为从中正好算出了20。你看看,如果生命采用的是重复密码子,那么当第一个密码子ATC确定后,第二个密码子就不可以随意安排了,只有四种可能性,也就是TCA、TCT、TCC、TCG。同样,第二个密码子确定后,第三个密码子也就只有四种可能性了。

这意味着这种组合下,不可能支持64种不同的密码组合。通过数学计算,伽莫夫发现这种方案最多只能容纳20种不同的氨基酸进行组合,这难道是一种巧合吗?这是不是一个优雅、简洁、高效、完美的方案?它就像一块严丝合缝的卯榫,精准地插入了预想的理论框架。

但科学史就总是这样,一路上将无数看上去极美好,极完美的预测与理论击个粉碎!一名两次获得诺贝尔奖的天才将它毁灭了——弗雷格·桑格尔。

使用“重复密码子”的第一个问题就是组合有序列的限制性,每个氨基酸后只能存在四种特定的氨基酸,但是桑格尔的测序显示任何氨基酸可以存在于任何氨基酸后面,它们的位置没有任何限制。

第二个问题是如果一个碱基发生突变,就会引发至少两个氨基酸发生突变,但是后来的测试表明并没有,每发生一个突变最多只会改变一个氨基酸。

于是这个看似非常美好的方案就被否决了。

第二个更完美的猜想

第二个“完美”的方案来自DNA双螺旋结构的发现人克里克,他获得了一个看上去非常美丽的猜想,比上一个更精确,更合理,不仅规避了多余的限制,而且已经非常接近真相了,然而不幸的是在离真相还有一步之遥的时候,他翻了个车。

克里克首先意识到DNA并非直接翻译成蛋白质,而是通过先翻译成RNA,再来到细胞质中通过一些关系翻译成蛋白质,这与今天我们所知的真相一模一样。但克里克的理解在最后一步上有个细节并不正确,他认为RNA翻译成蛋白质的过程不是逐一按次序完成的,而是RNA分子链如一条晒太阳的蛇一样舒展开来,所有携带氨基酸的转运RNA自由地与长链结合,然后这些氨基酸自动组合在一起变成蛋白质。

既然是自由组合,那么其中就存在一个问题——转运RNA可不知道长链的开始与结束,如果它结合在了不正确的地方又当如何?比如ATCGTC,它本来是ATC与GTC,如果先来了个TCG直接往中间一插,不就全乱套了么?

于是克里克琢磨出来了一种可能性——或许所有可能造成歧义的密码子都是不可用的,比如几个相同的密码AAAAAAA,你就不可能找到它们从哪开始,所以不可用,也就是AAA、CCC、GGG、TTT都不存在对应氨基酸。然后为了让两个相邻密码子之间不存在首尾组合出错,单个组合的其它前后顺序也不可用,比如ATC如果是作为一个密码子的话,那么TCA、CAT都不存在;没有了CAT也就不会和下一个C开头的密码子组合出ATC来了。

那么这么处理后还剩下多少密码子呢?恰好也是20个,完美!这个理论简直是精彩绝伦!当它一问世后就征服了大多数生物学家的心,大家都以为已经找到了终级答案!

然而没过几年,人们发现AAAAAAA可以为赖氨酸编码……完美理论,卒。

被枪毙的猜想不计其数

现在想想是不是发现,一个想象出的理论很可能看上去非常美好,好像已经触摸到了真相,但是无情的实验数据会对这些信息做出修正。专业的科学家尚且如此,何况对知识一知半解,只凭一腔热情想象的普通群众呢?

最后我们说说真相到底如何吧,让所有生物学家大跌眼镜的是,其实20这个数字并没有什么秘密,64个密码子每个都有用处,只是多数氨基酸都是一对多而已,比如亮氨酸、丝氨酸、脯氨酸、苏氨酸、精氨酸都是四对一,只有色氨酸是一对一,其中还有三个是终止密码子,表示一个蛋白质合成的结束。

我在以往的文章中说过:“没有经过学习的想象是毫无价值的”,而就算是已经历丰富学习的想象,依然处处充满着陷阱,只有事实才能将它们筛选出来,成为真正的科学。

我是酋知鱼,一个有点东西的科学创作者,欢迎关注!