数据竞赛如何推动基础科研研究?从文本摘要生成技术谈起

互联网和移动互联网的普及方便了信息流通,但也让每个人都暴露在大量的信息海洋中,难以消化。根据 IDC 的估计,目前互联网数据量已跃至 ZB 级别(1ZB=2 的 40 次方 GB),预计 2020 年达到 35ZB。我们每天也能看到大量的信息,包括新闻快讯、社交网络更新、事件评论,以及专业教程等等。如何迅速判断哪些信息对我们有用?要做到这点非常困难,如果想浏览所有内容过于耗费时间,而搜索引擎也并不能彻底信息过载问题,移动设备的普及和碎片化的阅读方式让这个问题更加严重。

所以,长期以来,如何让机器自动给文章写一个标题或者摘要,一直是学术界关注的问题,因为这样就可以帮助消化海量的信息。在这个信息过载的年代,每个人都会面对大量文章,读者需要快速判断其中哪些值得阅读,并且快速获取每篇文章传达的主要内容;如果可以有一个自动化的程序把文章的精髓提炼出来,可以节省很多时间。在这种情况下,标题生成具有很大的应用价值。

60 年前开始启动的文本摘要生成技术

其实,早在 1958 年,IBM 的计算机科学家 H.P.Luhn 就研究了这一课题,并发表论文《The automatic creation of literature abstracts》。如果只说大致的原理,Luhn 的方法并不难理解。他认为,一篇文章中最重要的句子就是那些带有最多关键词的句子,而关键词则是那些出现次数最多的词。他的摘要就是把最重要的句子组合在一起。

类似 Luhn 这种方法的文本摘要生成技术被称为抽取式(extractive)摘要。抽取式摘要相对较为成熟。这种方法利用如 text rank 这样的排序算法,对处理后的文章语句进行排序。不过抽取式摘要在语义理解方面考虑较少,无法建立文本段落中的完整的语义信息。

相较而言,生成式技术(又叫生成式,abstractive)需要让模型理解文章语义后总结出摘要,更类似人类的做法。不过这种技术需要使用机器学习技术,长期以来并不成熟。转折点出现在 2014 年。这一年,Yoshua Bengio 等人发表论文《Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation》,正式引入了 sequence-to-sequence 模型。

这一模型通过两个循环神经网络,分别把输入文本转化成矢量,再把矢量转成输出序列。这种模型在论文中主要用来完成机器翻译任务,并且后来被应用在谷歌翻译中,但后续在文摘生成任务中也产生了广泛的应用。此后,这种利用深度学习的 sequence-to-sequence 方法不断被改进,在一些标准的评测数据集(如 DUC-2004)上,已经超过了传统的抽取式方法。

例如,2016 年,Facebook AI 实验室(FAIR)的学者发表论文《A Convolutional Encoder Model for Neural Machine Translation》,在编码的时候用 CNN 取代 RNN,获得不错的效果。Salesforce 的研究人员 2017 年发表的论文《A Deep Reinforced Model for Abstractive Summarization》中,使用了增强学习,在 CNN/Daily Mail 数据集上的 ROUGE-1 分数达到 41.16 分。同年,又是 FAIR 发表了论文《Convolutional Sequence to Sequence Learning》,引入 attention 机制,不仅提高了评测分数,还极大地提升了速度。

贴近学术前沿的评测

虽然有过大量的研究,但是如何评测文本摘要模型的性能一直是个难点。和很多常见的数据竞赛不同,文本摘要和标题生成并没有一个绝对客观正确的答案。一篇文章让 10 个编辑起标题,可能会看到 10 个截然不同的标题,但每个都有道理。

目前文本摘要的常见评测工具是 ROUGE,简单地说,这种方法可以比较机器生成的摘要和人类编辑起的摘要(作为正确答案)的相似程度,两者越接近分数越高。这么做的缺陷很明显,和某一个编辑起的摘要不同不代表摘要不好。

基于这个领域的重要性和长期以来的评测难点,中国人工智能学会以及字节跳动联合组织了 Byte Cup 2018 国际机器学习竞赛。这次评测采用了字节跳动的海外产品 Topbuzz 提供的英文文章。获得 Google Play 2017 最佳应用的 Topbuzz 是为北美和巴西用户打造的“海外版今日头条”,它利用机器学习算法为用户提供个性化视频、GIF 图、本地新闻及重大新闻。Topbuzz 上每天都会有大量的文章发布,但如何为创作者提供更好的标题选择是 Topbuzz 目前面临的一个问题。2017 年,今日头条人工智能实验室(现字节跳动人工智能实验室)就和北京大学合作,共同完成了“互联网信息摘要与机器写稿关键技术及应用”项目。

在此次的测试集数据中,每篇文章都经过了至少 5 位编辑起的 5 个标题,这样就扩大了正确答案的空间,增加了评测的准确性。参加评测的队伍可以根据训练数据训练模型,并在测试集的文章数据上生成标题。

图 |Byte Cup 2018 国际机器学习竞赛获奖队伍领奖

中国团队标题生成模型评测结果出众

本次比赛的参赛选手共组成了近 1100 支队伍,来自 30 多个国家的 400 多个机构,覆盖除中国内地以外,美国、俄罗斯、日本、越南、英国、澳大利亚、德国等国家和香港、澳门等地区。参赛选手不仅来自清华大学、北京大学、国防科技大学、复旦大学、浙江大学、卡耐基梅隆大学、佐治亚理工、马里兰大学、莫斯科物理技术学院等国内外高校,还有的来自 IBM、微软、腾讯、网易、搜狗等企业。

在为期 3 个月的比赛结束后,来自浙江大学的团队获得第一;来自北京大学、西安交通大学和同济大学的队伍获得第二;大连理工大学的队伍获得季军。

2019 年 1 月 19 日,评测的颁奖仪式在清华举办。这次活动挂靠 Byte Tech 2019 机器智能前沿论坛。活动由中国人工智能学会、字节跳动、清华大学联合组织。在颁奖仪式,前三名的队伍介绍了他们的方法。获奖队伍基本都参考了相关领域的最新论文,并尝试了不同的模型组合。值得一提的是,比赛队伍还在文本摘要领域已经发表的论文内容之外,使用了最新的工具进行了尝试。2018 年 11 月,谷歌发布了最新的语言预处理模型 BERT。此时,比赛赛程已经过半,但是几支参赛队伍仍然立刻把 BERT 应用于他们的标题生成模型中。

在这次评测中,提供给选手的文章样例如下:

"Paypal (PYPL) beat earnings and revenue estimates for the second quarter, but it was the third quarter that seemed to concern investors. Paypal shares dipped more than 4% in after-hours trading Wednesday as the company's revenue outlook for the third quarter fell slightly short of analysts' expectations. On their earnings call on Wednesday, Paypal forecasted revenue of between $3.62 billion and $3.67 billion for the third quarter, compared to a consensus estimate of $3.71 billion. The payments giant reported adjusted EPS of $0.58, versus consensus expectations of $0.56. PayPal also reported $3.86 billion in revenue for the second quarter, beating consensus expectations of $3.71 billion. "Our customer choice initiatives, partnership strategy and continued focus on being a customer champion are contributing to our sustained strong performance," said Dan Schulman, President and CEO of PayPal, in a press release. "We are pleased to have announced four acquisitions in the second quarter that advance our merchant value proposition and geographic reach. Our strategic decision to become an open platform committed to partnerships has increased the value that PayPal can offer our customers, both consumers and merchants." Paypal's stock has been on a tear this year, up 18% year-to-date."

而根据评测结果,获得冠军的浙江大学队伍生成的标题为:“paypal shares drop more than 4 % after-hours trading”,取得亚军队伍生成的标题为:“paypal shares fall as revenue guidance misses expectations”,季军队伍的标题则为:“paypal shares fall as earnings guidance misses expectations”。

我们需要什么评测/比赛 ?

?

现在虽然数据比赛很多,但是大量比赛主要面向企业需求,以企业的问题为主。一般这类问题主要探讨企业面对的实际问题,创新性不足,但企业一般也能提供较多的奖金。另一方面,学术界也在组织一些试图推动前沿研究的评测,但这类比赛往往影响范围较小,奖金较低,一般以学术界的小圈子参加为主。如何结合两者优势,组织既能推动基础研究,也能产生商业价值的评测,成了一个重要的课题,也因此,通过观察包括 Byte Cup 2018 等竞赛的评测结果或许能够从中得到不同的启发。