AI发现莎士比亚经典剧作有代笔,几乎一半场景由他人写就

文学分析家们早就注意到,莎士比亚戏剧《亨利八世》中有另一位作者的痕迹。现在,神经网络已经识别出了这些特定场景,以及这些场景是谁写的。

图|莎士比亚《第一对开本》戏剧集(来源:AP)

在威廉·莎士比亚的一生中,他大部分时间都是 King’s Men 剧团的剧作家,该剧团在伦敦泰晤士河岸边演出莎士比亚戏剧。1616 年,莎士比亚去世后,剧团需要一个人来接替他的工作,于是他们请来了当时最多产、最著名的剧作家之一约翰·弗莱彻(John Fletcher)。

自此之后,弗莱彻销声匿迹。

但是在 1850 年,一位名叫 James Spedding 的文学分析家注意到,弗莱彻的剧本和莎士比亚的《亨利八世》中的段落有惊人的相似之处。Spedding 断定弗莱彻和莎士比亚在剧本中一定有过合作。

Spedding 的证据来自他对两个作者的语言特质研究,以及这些特质是在《亨利八世》中哪些地方体现的。例如,弗莱彻经常写 ye 而不写 you,写’em 不写 them。他还倾向于在标准的五音步诗行中加上 sir 、 still 或者 next 这些词,这样就多了一个额外的第六音节。

这些特征使得 Spedding 和其他分析者认为,弗莱彻一定参与了剧本创作。但是,对于该剧本究竟是如何分配的,仍存在很大争议。还有一些评论家认为,另一位英国剧作家菲利普·马辛格(Philip Massinger)实际上也参与了莎士比亚的剧本创作。

分析人士和历史学家都很想确定,是谁参与了《亨利八世》创作,写了哪些部分。

然而现在,捷克科学院的 Petr Plechá表示,他已经解决了这个问题。他使用机器学习来识别剧本的每一行文字,然后判断作者是谁。“我们的结果高度支持 James Spedding 提出的经典推断,即威廉·莎士比亚和约翰·弗莱彻共同创作了《亨利八世》”,Plecha?说。

从原则上来看,这种新方法直截了当。多年来,人们一直使用机器学习算法来识别作者独特的写作模式。

机器学习使用作者的大量作品来训练算法,并使用一个不同的、更小的作品来测试算法。然而,一个作家的文学风格在其一生中是有可能产生变化的,所以,确保所有作品都有相同的风格是很重要的。

图 |《亨利八世》中莎士比亚和弗莱彻的贡献比例(来源:论文)

只要算法学会了作者最常用的单词和语句模式,它就能在从未见过的文本中识别出这种风格。

Plecha?采用的就是这种技术。他首先训练算法,使用与《亨利八世》同时期创作的其他剧本,如《科里奥兰纳斯的悲剧》《辛白林的悲剧》《冬天的故事》和《暴风雨》等来识别莎士比亚的风格。

然后,他训练算法识别约翰·弗莱彻的作品,使用的是弗莱彻当时写的剧本——Valentinian, Monsieur Thomas, The Woman’s Prize, 以及 Bonduca。

最后,他在《亨利八世》上运行算法,并让它通过滚动窗口技术来浏览剧本,从而确定剧本的作者。

结果很有趣。算法印证了 Spedding 的分析,即弗莱彻写了戏剧中几乎一半的场景。同时,该算法允许能使用更细粒度的方法来揭示作者在新场景中,甚至在前一场景结束时是如何改变风格的。例如,在第 3 幕第 2 场,算法显示在第 2081 行之后出现了不同作者的风格,随后莎士比亚在第 4 幕第 1 场开始之前的第 2200 行完全取代了之前的风格。

Plecha也训练算法来识别 Philip Massinger 的作品,但发现几乎没有证据表明他参与了创作。Plecha?总结道:“Philip Massinger 不太可能参与剧本创作。”

这是一项有趣的工作,它展示了语言学家和文学分析家如何使用机器学习来帮助我们更好地了解人类的文学历史。

然而,在这之前还有许多工作要做。例如,机器视觉算法能识别艺术风格后,计算机科学家很快就想出了如何提取一种艺术风格并将其应用到其他图像上,这使用的是一种称为“神经风格转换(neural style transfer)”的技术。于是,一夜之间,一张普通的照片就可能被赋予梵高或莫奈的风格。

这就提出了一个问题,类似的技术是否也适用于文本。有没有可能把一篇散文,或者是《麻省理工科技评论》的一篇文章,变成莎士比亚或者约翰·弗莱彻的风格?

可惜的是,现有的算法除了用 them、’em 之类的词来识别文字风格之外,还没有更好的识别能力。这主要是因为语言学家或他们的算法没有很好地理解文字的底层结构。