小米、高通押宝的下一个AI风口: 改造机器听觉

许多人认为这次的 AI 复兴主要来自两个领域的突破:机器视觉和自然语言处理,特别是在机器视觉比如人/物的体识别、自动驾驶等,都已经取得很好的表现后,科学家们正在攻克另一个领域—机器听觉。

在众多智能语音助手、智能音箱问世的带动下,提到机器听觉很容易直接让人联想到“关键词唤醒”、“自动语音识别”(ASR),例如先喊一声 Hey Siri、Alexa、小爱同学,呼唤这些智能语音助理,接着对其下指令。其实,机器听觉是一门范畴广泛的领域,从声学系统、脑怎么处理声音、到如何将人类的听觉知识封装在算法中,以及如何把算法组合成一个可模拟听觉的机器。

人类的耳朵除了让我们听得更清楚,还能识别声音的方向,知道发声的物体是什么,或者判断处在一个什么样的环境当中。想要让机器能够具备如同人类耳朵的完整功能,现有技术还是很难实现,像是吵杂环境的多人音源分离、远场语音交互等,大家讲远场识音可以达到 3 米、5 米,但要做到 3 米、5 米有一个前提,就是噪音不能太大。正因技术发展还有巨大的提升空间,不少科学家正通过深度学习来改善,并推动行业的发展。

美国著名发明家和科学家 Richard F. Lyon 在 2010 年发表一篇关于机器听觉的重磅“Machine Hearing: An Emerging Field”,指出机器听觉将成为一个新兴领域。文章指出,“我们的计算机目前基本是聋的,它们对于自己存储和处理的声音几乎没有概念”,“近年来,基于文本的图像或视频分析稳健发展,但声音分析则显得滞后.... 与机器视觉的多样化和活跃度相比,机器听觉领域仍处于起步阶段”。

因此,他利用类似机器视觉建模的方法,来打造一个 4 个主要模块的听觉系统结构:1. 外围分析器(peripheral analyzer)、2. 听觉图像生成器(auditory image generators)、3.特征提取模块(feature extraction module),这个部分在机器视觉领域,就是把图像作为输入,萃取出多尺度的功能、4. 可训练的分类器或决策模块(a trainable classifier or decision module),这个阶段会针对应用程序选用适合的机器学习技术,并利用上阶段提取的特征来做决策。

Richard F. Lyon 指出,要打造一个“智能环境”系统是项大工程,可以通过具听觉的机器来实现,把它们安装在汽车、家庭、办公室的计算机,利用这些“听觉前端”实时添加应用程序、执行任务,而且配合“特征提取”、“机器学习”来实现。现在来看,他成功预言了 8 年后今日的样貌,自动驾驶、智能音箱等都选择以“听觉前端”作为交互的入口。

另外,值得一提 Richard F. Lyon 在 80 年代晚期任职于苹果的先进科技部门,当时苹果曾推出 PDA 产品 Apple Newton,其中的手写识别系统 Inkwell 也是由他开发。他也曾在 Google 工作,从事听觉和声音处理的研究工作。

此外,华人科学家汪德亮,同样是机器听觉的大牛,身为俄亥俄州立大学感知与神经动力学实验室主任的他,不仅是机器视觉、听觉交叉学科的专家,更是把深度神经网络引入机器听觉领域的先驱,例如通过机器学习把嘈杂的说话声样本切割为时频单位(time-frequency units),并从这些单位提取出数十种特征来区分语音和其他声音,接着把特征送到深度神经网络中,借此训练出可以分离出语音单元的模型。最后,把这个程序应用在滤波器上,过滤掉所有非语音的单元,只留下分离后的人声。他的最终目的是希望借此改善助听器的品质。

为了把学术研究成果转化为商业化技术,他以联合创始人的身份创办了专攻机器视觉的人工智能初创公司大象声科。就在几周前,大象声科完成了数千万人民币的 Pre-A 轮投资,领投者出现两个重要名字:小米和高通创投,不难猜想这两家公司的战略意义之外,更代表机器听觉的技术将随着硬件巨头的重视可望进入大规模的落地。

机器听觉仍远落后于人类

视觉跟听觉可说是人类最重要的两个感知能力,机器视觉在许多特殊场景下已经超过人类水平。但是为什么机器听觉的发展速度却不如机器视觉快,仍远落后人类?

大象声科 CEO 苗健彰接受 DT 君采访时解释,视觉是一种遮挡的信号,不论是区分图像、物体、人脸,机器可以容易画出物体的边缘,但是,声音是一种叠加的信号,比如一个场景里面有各种的人声、噪声等叠加在一起,信号能量混在一起之后,想要将其分开就很困难。另一个原因是起初深度学习多被应用在语音识别,而更前端的信号处理部分大约是到 2013 年左右才开始引入 AI。前端处理是指在特征提取之前,对原始语音进行处理,如噪声抑制、回声消除、混响抑制等。

不过,近来行业开始涌现了非常大的需求,越来越多智能硬件、机器人需要语音交互。

传统设计思维过时

在今年 4 月锤子坚果 3 手机发布会上,提到内置了“AI 通话智能降噪”,简单说就是通话听清,背后的技术即是来自大象声科。

降噪,不是项新概念,市场上也有许多降噪耳塞,效果如何总是得体验过才知道,既然并非人人都是锤子用户,为了让一般人可以感受,大象声科其实做了一个录音 APP—VOCPLUS,苗健彰表示,现在录音笔多半不具备降噪功能,遇到吵杂环境往往没辙。不过,APP 只是让大众体验的入口,并没有打算将其商业化,公司定位是面对手机业者的 B2B 生意,真正商业化如锤子手机的降噪就是与 APP 同样的技术。而 DT 君实际试用该款 APP,感觉对于消除环境噪音确实有不错的效果,有兴趣的读者可以自行下载试试。

为什么可以做到很好的效果,是提取噪音进而消除吗?答案其实正好相反。

苗健彰指出,传统信号处理的思路是基于噪音特征,比如噪音的 Pattern 是如何、在频率上有什么特性等,接着设计滤波器,把噪音留在滤网上,剩下的声音就留下来,但这么做存在一个问题,就是世界上的噪声种类变化太多,聚合一起有各种排列组合,而且很多的动态噪音没有办法事先预测何时会出现。

所以大象声科换了一个角度来思考问题:既然人类语音的 Pattern 特征其实很明显,那就把在重点放在人的声音上,让机器只关注人的声音,反而更符合人类听觉的基本原理,当我们与朋友在餐厅吃饭,环境很吵,但人类仍然可以轻松对话,就是因为我们把注意力放在对方身上,这也是为什么人类可以简单解决鸡尾酒会的问题。

盲源分离是机器听觉缺失的一块

他进一步解释,“机器其实缺失的听觉功能是盲源分离(BSS,Blind Source Separation),也就是判断发声音源”。

为了解决鸡尾酒会问题,盲源分离成了近年来信号处理领域的一个研究热点,BBS 是指一种不需要任何预先得到资讯,从感测器所量测到的混合信号(mixtures)中,把信号源(sources)抽取、分离出来的方式,目前在语音信号分离、麦克风阵列信号处理、生医讯号如脑电波(EEG)处理等领域都有不少研究。

盲源分离的基本架构如下图,假设有两个声音源 S1、S2,经过了一个未知的混合过程,麦克风收到了两个声源的混合信号 X1、X2,而 a11、a12、a21、a22 代表声源到麦克风的衰减程度,这些系数皆为未知,这也就是称为“盲”的原因,盲源分离的目标就是在信号和混合过程均未知的情况下,分离出各种音源。

图|盲源分离技术基本概念

Google 双人声分离展现高水准,用视觉辅助听觉

在看不见的情况下,如何把各种各样的音源区分开来,是机器听觉里面的一个挑战,解决这个挑战就有多种思路,“AI 其实提供了一个好的办法”:通过训练让模型能够自主在嘈杂环境底下把声音特征提取出来。

目前来看,大象声科技术强项在分离人声和噪音,解决了手机产品某种程度的鸡尾酒会问题,不过在其他场景仍有待克服,例如智能音箱、电话会议场景等,还需要解决人声跟人声的分类,“多个说话人声分离,甚至还要记录下来,可说是在语音分离上最高级的挑战”。

在多人声分离领域,Google 前阵子展示把两个人对话分离的成果,结合视频的图像来辅助,就是说,在某些复杂且嘈杂的场景下,加入视觉信号分析来做语音分离,是一个趋势。

在今年的 Google IO 大会上展示了一段影片,运动节目里两位来宾情绪激动,说话针锋相对,你一言我一句,声音重叠几乎很难听清楚任何一方在说什么,这种情况常出现在新闻节目、脱口秀、会议上,而 Google 做到将两个人声分离,让用户可以在视频中指定让某人“静音”,只听见另一方的声音。“这在语音分离部分是一个很棒的进展,”,他说。

Google 将此技术称为 Audio-Visual Speech Separation(声音影像的说话分离),最大的特点就在“联合视听模型”,不只是分析人声跟背景噪音,还会分析视频中人物的嘴型与表情。研究团队用了 YouTube 上只有单一讲者的无干扰演讲影片,并将这 10 万个、总时数长达 2,000 小时的影片混入其他演讲影片与背景杂音,以训练多重串流卷积神经网路(Multi-Stream Convolutional Neural Network),进而把各个人物所说的话分离成独立音轨。

图|谷歌的 Audio-Visual Speech Separation 技术

图|用视频中的嘴型、表情来协助完成语音分离

其他的趋势还有像是机器可以从声音去判断用户的情绪是好是坏,或是机器透过听觉,它可以自己知道身处在一个什么样的环境当中,甚至是当它如果听不清楚的时候,它可能会主动告诉你:“对不起,我听不太清,可以把音乐关小一点吗”,这些都是机器现在不具备的能力,但在未来有机会拥有。有了这些技术功能,智能音箱可能就不会再闹笑话。