深度学习开源平台能否成为下个Android?

如你所知,追溯历史,踩在某些意义深远的技术普及之前,这个世界上的科技巨头往往在合适时机选择开源一些产品,促使社区和整个行业进步——种种迹象表明,最新一轮开源运动来自人工智能领域,就在此刻,全球最顶尖的科技公司正掀起一场“AI技术开放”共享风潮。

时至今日已没太多人怀疑,人工智能是新一轮产业革命的土壤,人类社会也正在从“互联网+”向更高阶的“人工智能+”跃迁,而从专业视角,当人工智能(目前以深度学习为最佳路径)以更为务实的姿态蔓延到一个又一个行当,这也意味着代码开源将变得日趋重要。毕竟,人工智能作为未来数十年科技世界的底层基础设施,在面对具体乃至细碎的应用场景时,任何巨头都做不到无远弗届,开放共赢是更聪明的选择。

于是在不少人眼中,颇为类似九年前Android开源对智能手机格局产生的影响(直接导致移动互联网时代的尽早来临),深度学习平台开源也会对人工智能的未来起到关键作用,而不同于谷歌在如今开源领域的一家独大,现在看来,“AI技术开放”似乎不太可能赢家通吃——事实上,包括谷歌,微软,亚马逊,Facebook,雅虎,IBM在内,最近一两年,几乎所有巨头都发布了自家的深度学习(或者机器学习)框架,在不久前的百度世界大会上,百度首席科学家吴恩达也宣布开放其内部研发的深度学习平台PaddlePaddle,考虑到百度之于中国人工智能行业的角色,这一举措在人工智能圈层引发了诸多热议。

更宏观层面,“深度学习开源平台能否成为下个Android”的探讨无疑更为惹眼。在我看来当然有这个可能,而若你相信人类科技指数级演化的趋势,相比Android的体量,人工智能开源平台在未来能否构建出一个更复杂的生态系统也未可知。

各自开放

廉价的并行计算,更好的算法,以及更大的数据量,让六十年来不断幻灭又重燃希望的人工智能时代近在咫尺。而与Android一样,全球各地的开发者无疑是一股无法忽视的力量,开源即是吸引他们的重要途径,他们的加入或将成为科技巨头们抢占人工智能风口的最大变量之一。也因如此,巨头纷纷将已在内部发挥重要作用的知识结晶开源。

先说谷歌。去年11月,他们开源了名为TensorFlow的机器学习平台,这是谷歌开源的第二代人工智能系统,惯性使然,媒体当时就将此举解读为“复制人工智能领域的Android”。事实上,TensorFlow是一个用来编写和执行机器学习算法的工具,工程师和研究者能借此打造分析图像和语音等数据的系统,计算机在此类系统帮助下能自行作出决定,从而变得更智能。值得一提的是,谷歌已将TensorFlow用于Gmail,搜索,图片,翻译器等超过50款谷歌产品,如今他们希望更多人的使用能放大其价值。

Facebook的开源路径似乎更为激进。去年1月,Facebook人工智能研究院推出了一组基于Torch机器学习框架的开源深度学习工具,这之后,去年12月,他们又开源了Big Sur人工智能硬件架构——而就在不久前,Facebook又宣布开源了一系列 AI 软件,可以识别出照片里物体的种类和形状。

不甘为后的还有亚马逊。去年4月他们推出Amazon Machine Learning,一项托管服务,能让任何开发者轻松使用历史数据开发并部署预测模型——要知道,亚马逊一直用机器学习完成诸如过滤垃圾评论,通过姓名辨别用户性别等细碎任务。

响应开源运动的还有那些看似不在聚光灯之下的传统IT巨头,譬如微软就将分布式机器学习工具包(CNTK)开源,后者主要用于自然语言处理,譬如文本分类与聚类,话题识别以及情感分析。当然还有IBM,几乎与TensorFlow同时,IBM宣布开源机器学习平台SystemML,这是IBM研发超过十年的技术,大名鼎鼎的沃森(Watson)就整合了不少SystemML的功能。

再来看百度。早在2013年的时候,百度深度实验室就察觉到,在深度神经网络的训练上,伴随着计算广告,文本,图像,语音等训练数据的激增,传统的基于单GPU的训练平台已无法满足需求,实验室为此搭建了这个多机并行GPU的训练平台。PaddlePaddle已持续开发了三年时光,并被部署到百度30多项产品或服务中,譬如外卖预估出餐时间、预判网盘故障时间点、精准推荐用户所需信息、海量图像识别分类、字符识别(OCR)、病毒和垃圾信息检测、机器翻译和自动驾驶等领域。

很大程度上,PaddlePaddle的缘起来自降低人工智能的使用门槛。你知道,即将爆发的人工智能与一百年前“电器化”过程无比相似,它势必迎来与其他行业井喷式的嫁接与落地,你完全有理由期待它像电力或互联网一般,被添加至旧有事物,从而产生万千结果。但如前所述,人工智能在各领域的商业化落地不可能被单一巨头垄断,适逢深度学习极大提升了人工智能的整体状态,留给人工智能创业者的机会应有很多。

但大体而言,人工智能创业似乎还相对羸弱,离真正意义上的商业化落地为时尚早,部分原因是深度学习技术的门槛高企(虽较之过往已经提高),对不少雄心壮志的创业者而言,他们似乎需要一个更易使用的深度学习框架,如插件般将深度学习技术嫁接到他们的产品中;而对这一领域那些敏而好学者来说,更优质且易用的算法源码也大有裨益。

嗯,深度学习开源平台若想成为下个“Android”,对新手友善也许是个不错的途径。事实上,PaddlePaddle 就支持多种神经网络结构和优化算法,能用更少代码建立复杂模型,实现相同功能,譬如只需其他深度学习工具1/4的代码即可实现神经网络机器翻译模型;此外这一平台还可让人使用现有模型去解决新的问题,无需担心用于实现模型的数学方程。目前,它在Github上已经提供了Neural Machine Translation、推荐、图像分类、情感分析、Semantic Role Labelling等5个Task,每个Task均可迅速上手,且大部分任务可直接套用。

从直觉便知,这一拥有俏皮名字的开源平台,能在很大程度上降低深度学习应用门槛,优化整个深度学习的研究环境,诚如加州大学伯克利分校电气工程和计算机科学副教授,Open AI研究科学家Pieter Abbeel所言,人工智能的进展受制于软件开发所花费的时间,开放软件框架是使整个社会加速发展的关键。

价值之网

当然,围拢的从业者越多,巨头自身也会受益良多。除了能在社区中招揽人才,企业也可借助开源平台进行大数据分析,对自身产品完成优化。而无需赘言的是,通过开源争夺人工智能行业话语权,亦是巨头展开开源运动的重要因素。因为他们知道,在未来的商业环境之中,哪怕是巨头,其命运也愈加和网络交织在一起,每个企业都在编织一张价值网,依附在这张网络上的人和资源越多,企业自身获利的可能性才越大。

在未来人工智能领域这张“巨网”中,巨头们自然希望置身于网中心。就说国内,我看到的数据是,目前国内人工智能方向的创业公司有200家左右(个人觉得并不算多),正如同真正的战略思维是将他人利益嵌入到以自我为中心的体系之中,百度开放PaddlePaddle的目的之一即是试图在未来构建以百度为核心的人工智能基础设施,而假以时日,当这张价值之网收拢,技术壁垒也就自然建立。

仍拿Android来说。2005年,谷歌以五千万美元收购了当时名不见经传的Android,2007年11月宣布开源,如你所知,而今如日中天的Android已从智能手机领域蔓延至几乎一切科技领域。

人工智能开源能演绎出相似的故事吗?至少与当时Android刚出世时遭到的低估不同(2007年Android发布时,当时负责微软移动开发的Scott Horn评价说:“我真看不出他们能有多大影响。”),人工智能开源的力量已被广受关注,毕竟谁都知道,对于商业世界——以及与未来生活相关的一切,人工智能意味着什么。

“在 2050 年,会有另外一个白胡子老头问你:你能想象在 2016 年当一个发明家会有多棒吗?”凯文·凯利这样说道,“那是一片广袤的处女地,你随便找个什么东西,都可以加上人工智能,上传到云里面去。那时的设备里不像现在,传感器成千上百,很少有超过一两个的。那时的期望不多,壁垒很低。成为第一轻而易举。”——毫无疑问,受益于时代的恩赐和技术平台的赋能,人工智能的创业者只会越来越多。

最后不妨说一个讨巧的隐喻,其实“Android”这个词的现代含义即是“机器人”,用于描述自动工作的机器——很大程度上,这倒与人工智能和人类的关系颇为暗合。

李北辰/文(知名科技自媒体,致力于为您提供文字优雅的原创科技文章;微信公号:李北辰)