谷歌发布最新视觉“黑科技”:搜索3D化,代码仅100KB?

美国时间 5 月 7 日,谷歌 2019 年 I/O 开发者大会在山景城总部开幕,为期三天。

在开幕式上,谷歌宣布了诸多亮点,比如更贴近用户的搜索功能,更强大的 AI 与语音助手,内置在安卓系统中的语音转文字功能,新款 Pixel 3a 和 3a XL 中端手机,Nest Hub Max 智能家居设备,还有安卓 Q 系统更新等等。

“To Be Helpful”是整场大会的主题之一。因此,无论是产品演示,还是演讲者,几乎全都从安全、隐私和实用的理念出发,透露出与往届 I/O 大会不同的务实风格。

谷歌AI领军人: Jeff Dean

即使是最后登场的谷歌 AI 领军人 Jeff Dean,也是以现有研究成果出发,强调了 BERT 模型在自然语言处理领域取得的建树,以及 AI 技术在健康和环境领域的应用潜力,并未带来令人眼前一亮的惊艳机器学习新成果。

不过从另一个角度来看,这或许才是科技本身应有的样子:一项高科技,无论初见有多惊艳,最终只有成为像空气一般的存在,让我们几乎察觉不到它,却又依赖于它,才能让我们开始享受它的价值,进而真正地享受生活。

这也是谷歌 2019 年 I/O 开发者大会带给我们的启示。

图 | 谷歌I/O大会开场

“黑科技”开场,奠定务实风格

一开场,谷歌就遵循一贯风格,直接亮出了人们喜闻乐见的“黑科技”。

副总裁 Aparna Chennapragada 率先介绍了谷歌的最新视觉技术:巧妙地整合摄像头和增强现实(AR)技术,强化谷歌搜索结果的互动性和实用性。

她在谷歌上搜索出的二维图片,可以直接转换成三维模型,并通过摄像头放在真实环境中。

无论你搜索的是人体骨骼,一双鞋,还是一条鲨鱼,都没问题,只要谷歌制作了 3D 模型,就可以通过摄像头,展示在现实场景中,供用户查看效果。它们不仅可以活动,还能够接受放大、缩小、运动和转移等操作指令。

可以肯定的是,3D 化的搜索结果不仅仅停留在有趣这一阶段,它可以给用户带来更直观的使用体验和感受,加深对物体运作机制的理解程度。

想象一下,如果你想知道心脏长什么样子,除了看到实物,有什么东西能比一个会跳动的、可以放大缩小和分解的立体模型更加形象的呢?尤其是它可以随时随地出现在任何地方,AR 技术的价值进一步得到了挖掘。

图 | 搜索出的大白鲨以 AR 形式出现在演讲台上

除了强化搜索结果,谷歌还通过 Google Lens 程序,让手机摄像头变得更有价值。

如果你新到一家餐馆,不知道有什么特色菜,没关系,只要拿出手机,打开 Google Lens 程序,对准菜单,它就可以根据已有点评,标注出大多数人推荐的特色菜。

如果你去法国旅游,却不会法语,看不懂路标,没关系,只要拿出手机,打开 Google Lens 程序,对准路标,它就可以识别上面的法语,直接翻译成中文和英语等十多种语言,还可以直接朗读出来,让语言不再成为交流和旅游的障碍。

如果你想看菜谱学做菜,没问题,Google Lens 配合食谱制造商,录制预先制作的烹饪视频,只要将镜头对准菜谱文字,就会有实际演示视频跳出来,为你展示如何操作。

这些都是非常贴近日常生活的实用功能,如果实际操作效果与演示效果相符,那么将极大地方便我们的生活。

图 | Google Lens可以翻译多种语言的不同标志

谷歌在现场播放了一段视频,讲述了印度的试点项目。视频中,一名不识字的印度母亲依靠着 Google Lens 程序,终于可以以听的方式理解书上的内容,孩子的作业,路上的标识,餐馆的菜单等等,最后无需别人的帮助,单独完成很多任务。

虽然在普通人看来,她完成的都是些琐碎小事,比如去 ATM 取钱和预订火车票,但对于她来说,这就像打开了生活的另一扇门。

由此可见,谷歌贯彻的“To Be Helpful”的理念,意味着技术应该能够真正帮助有需要的人提高生活质量。

图| 印度母亲使用Google Lens 帮助自己看懂包装盒上的字

谷歌最后强调,这种技术结合了自然语言处理、机器视觉、以及谷歌 20 多年来的搜索信息才能实现,但代码只有 100 KB 左右,所以无需高端设备就可以运行。

这项功能将加入 Google Go 应用中。对视觉障碍者,以及不会外语的人来说,这无疑是获取信息的新方式。目前,Google Go 已经能支持数十种语言,售价为 35 美元。

不得不说,谷歌选择用直观的视觉技术作为开场,非常机智。不仅契合主题,突出了实用性,还成功塑造出眼前一亮的感觉,调动了观众的积极性。但是稍显可惜的是,这些演示或许是整场大会最有看点的部分了。

更强大、更懂你的AI语音助手

在去年的 I/O 大会上,谷歌的语音助理技术推出新功能 Google Duplex,让 AI 打电话预订餐厅,因其声调语气相当逼真,接电话的人没察觉,该技术一鸣惊人,但引起了一些争议。

在今年的 I/O 大会上,谷歌也演示了新功能,包括一句话开启驾驶模式和更先进的 Duplex on the web,也就是“Duplex 可以帮忙执行网页上的任务”。

例如用户可以呼出语音助理,要求它上网帮你预订一台车,然后语音助理就会进入租车网站,帮你填写姓名、住址,甚至是偏好车型等信息,并要求你确认。

图 | 语音助手帮你租车

它还利用知识图谱来进行个人推荐。根据用户的使用习惯,AI 能更好地理解用户的语音指令,可以通过语音瞬间打开 App,并且可以使用连续的语音指令,而不需要每次都说出唤醒词。比如 AI 可以追踪一连串语音指令:打开地图,播放音乐,打开相册,搜索有动物的照片,发送给某人,它能根据一系列语音指令按顺序完成相应动作。

谷歌认为此功能拥有很大的应用前景,并强调随着深度学习的进展,把 AI 模型放置到移动装置将是一种范式的转换。他们希望可以把 100GB 的语音识别模型缩小到 0.5GB,并放在终端设备上,让用户更方便使用。

不过谷歌表示,目前该功能还在完善阶段,预计今年晚些时间才会公布更多细节,并透露在今年晚些会推出新的 Pixel 手机。

安卓内置语音转文字功能

作为一家以人性化为核心的公司,谷歌这次格外考虑到了听觉或语言障碍人士,推出了 Live Caption(实时字幕)技术。

图 | 实时字幕技术演示

该技术由循环神经网络支持,可以把手机中的视频和音频内容实时转化成文字,类似于微信的语音信息转文字。

不过更重要的是,Live Caption 是原生存在于安卓系统中的功能,意味着它能够契合所有的应用,适用于视频聊天、电话、录像,甚至是游戏中,而且使用全程可在设备端进行处理,不需要联网,从而进一步保障用户隐私。

对于普通人来说,如果不想外放语音,一副耳机就可以解决。但对于听觉或语言障碍人士来说,这项功能可以发挥很大的作用,帮助他们更好地与人沟通。

在此基础上,谷歌推出了 Project Euphonia,通过机器学习来了解语言障碍者的对话模式,来实现精准的语音转写。

安卓Q围绕安全和隐私等优化

尽管谷歌有许多平台,像是 Chrome,但安卓系统依旧是最重要、装机量最大的那一个,目前全球已有超过 25 亿台安卓设备。

谷歌在今天也发布了最新安卓 Q Beta 3 版本,围绕安全和隐私等核心问题进行优化,12 家 OEM 厂商的 21 个手机机种都可以升级,包括华为、小米、Vivo 等。

除了支持上述的 Live Caption 功能,安卓 Q Beta 3 还适配可折叠屏幕,游戏应用可以直接在两种模式下无缝流畅转换,并且加入了用户期待已久的黑暗主题。

图 | Q Beta 3 适配折叠屏

此外,谷歌还推出了其它新功能,比如Focus Mode 专注模式,可以让用户暂时停止使用一些容易打扰人的应用;Smart Reply 功能,可以预测和提供智能回复建议,能够通过任何应用快速发送回复;以及针对小孩的父母管理机制。

值得一提的是,安卓 Q 已经增加了 5G 网络支持,为未来 OEM 厂商推出 5G 手机打下了基础。

强调隐私保护,Nest Hub Max 诞生

智能家居一直是各家业者都想争取的市场,Nest 是谷歌旗下专注智能家居的独立团队,已有家庭安全摄像头和带有显示屏的 Home Hub 等智能家居产品。

图 | 推出新版 Nest Hub Max

谷歌在大会上表示,智能家居必须非常重视用户的隐私,并且宣布,将 Home Hub 更名为 Nest Hub,同时推出升级版 Nest Hub Max,装有更大的 10 英寸显示屏,直接与 Facebook Portal 和亚马逊 Echo Show 等同类产品竞争。

谷歌强调,没有用户允许绝不会启动摄像头,另外拍下或录下的数据只会存在终端上,并使用 FaceMatch 面部识别用户,支持手势操作。

屏幕较大的 Nest Hub Max 售价 229 元,现有的 Nest Hub 则降价 20 美元至 129 美元。

推出两款Pixel,进军中端智能手机市场

随后谷歌带来了两款 Pixel 系列手机,Pixel 3a 与 Pixel 3a XL,售价分别是 399 美元和 479 美元,前者即日起开售,后者今年暑期上市。这也是谷歌首次推出中端智能手机。

图 | 新款Pixel 3a售价399美元,即日发售

两个机型在外观上依然延续 Pixel 家族的特点,无刘海屏幕,后置单摄像头,提升拍照质量主要靠搭载谷歌自研 Pixel Visual Core 图像处理单元,还继续使用后置指纹识别,保留有 3.5mm 耳机孔,一次充电可以支撑 30 小时,并且配有 Titan M 安全芯片,专门用来保护用户隐私。

至于硬件配置,谷歌大会上并没有给出详细参数,但已有媒体爆出了比较可信的数据,其中 Pixel 3a 搭载高通骁龙 670 处理器,配备 4GB 内存+ 64GB 存储,分辨率为 1080×2160 ;Pixel 3a XL 搭载高通骁龙 710 处理器,配备 4GB 内存+128GB 存储,分辨率为 2220×1080。

相比 Pixel 3 的 799 美元售价,两款中端手机的价格更加亲民,这在一定程度上可以刺激目前较为疲软的 Pixel 销量,但随着全球整体智能手机市场逐渐饱和,再加上谷歌在大会上暗示今年晚些时候将推出新 Pixel 高端机,它们究竟能够为谷歌带来多少收益还不得而知。

就像在刚刚过去的第一季度财报会议上,谷歌 CEO Pichai 表示的那样,“在硬件之路上,谷歌还处于早期阶段”。

Jeff Dean登场,压轴的谷歌 AI

在大会的最后,谷歌 AI 领军人物 Jeff Dean 压轴登场,介绍了自己团队一直以来的研究目标和方向。从推动计算机视觉的极限,到语音识别,他们研究的领域涵盖生活中的方方面面。

图 | Jeff 介绍谷歌AI 团队的研究进展

在Jeff 看来,最让他激动的AI技术进展是语言理解。

遵循这一思想,谷歌 AI 一直在努力提高计算机对语言的理解能力,希望有朝一日能媲美人类的水平。最新的研究成果就是自然语言处理领域大名鼎鼎的 BERT 模型(Bidirectional Encoder Representation from Transformers)。

BERT 模型突破了传统 RNN 模型的限制,不再局限于单个关键词词义的理解,而是结合上下文分析语义,能够在大段文字下更好地理解语境和整体内容。

该模型于 2018 年 11 月推出,直接刷新了自然语言处理任务的 11 项纪录,同时启发了多个研究团队,后续衍生模型不断刷新着新的纪录。

谷歌团队更是将其直接定义为:BERT 模型开启了自然语言处理的新时代!

随后,谷歌 AI 介绍了 AI for Social Good 项目,旨在将 AI 技术推广到各个领域。

图 | 谷歌用AI 检测肺癌

他们将 AI 运用于医疗保健,建立了 CT 扫描图预测模型,可以帮助检测肺癌。他们还将 AI 运用在自然灾害预测领域,建立了一个洪水预测模型,预测洪水会出现在何时何地。该模型结合了深度学习、卫星影像与以现实为基础的情境模拟,并且会将信息共享给可能会受到影响的个人。

除此之外,谷歌的 AI for Social Good 项目还包括地震余震预测、全球渔业活动预测等等,都突显出 AI 技术的实用价值。

图 | 用 AI 模型预测地震余震

结语

最近一两年,数据隐私和 AI 道德问题持续困扰着美国科技巨头们,特别是用户体量巨大、掌握海量数据的 Facebook 和谷歌。

上周的 Facebook F8 大会,扎克伯格三句话不离数据隐私保护,力求挽回形象,而在谷歌 I/O 大会开幕式上,我们似乎也感受到了谷歌的刻意“保守”。

去年,谷歌在大会上演示了 Google Duplex,让 AI 打电话订位,AI 模仿人类太成功,接听电话的店员根本没有察觉有异,不料却引起外界忧心技术被用来欺骗人类。

随后,谷歌遭人诟病的事一桩接着一桩,一下子员工联名抗议用 AI 做军事生意,导致云计算部门高管的离职潮,一下子又反对 AI 道德委员会的某些外部成员,使得该组织才成立一周就被迫解散。这让曾经确立“AI 优先”战略的谷歌不得不重新思考技术的发展走向和展示策略。

所以,今年的 I/O 大会在展示 AI 技术时,更多演示 AI 对于人类带来正面效益的应用,塑造出一种“谷歌是你的好帮手”的感觉,例如帮助听力或语言障碍人士更好地与世界沟通,在谈论服务及硬件设备时,也不断重申数据保护、摄像头绝不会监视用户等,深怕又被外界抓了小辫子。

或许正是因为如此,今年的大会才略显平淡,少了曾经的惊艳。

但就像开头所说,以创新力闻名的谷歌能带来颠覆性技术突破固然令人兴奋,可是相比于过分激进,转型成为这样一种帮手型角色,对于普通用户、谷歌自身和社会发展来说,未尝不是一件好事。

科技之于人类,本就应该扮演这样的角色。

-end-