你知道初音未来是如何诞生的吗?

“今年6月,初音未来要来上海开演唱会啦!”这消息如同一枚深水炸弹,引爆了无数粉丝的热情,尽管几百元到一千多元的票价并不便宜,但身边的好多朋友都已经开启“买买买”模式了。其实,明星来魔都开唱没什么好稀奇的,毕竟连著名的雨神都已经来过好几回了,稀奇的是这位明星她不是真人,而是一位虚拟偶像歌手——她的一切,从形象、歌声到舞蹈,全部是通过计算机技术制作出来的,简直妥妥的黑科技。人们先创造了她动听的声音,然后赋予了她可爱的形象,现在又打破次元的壁垒,将她活灵活现地带到了舞台上,带到了观众面前。如此神奇的一切究竟是怎样发生的呢?让我们从头讲起。

动听的声音——歌声合成之路

唱歌是歌手的本职工作,即便你是虚拟的,不会唱歌也干不了这一行。一首歌,简单来说就是由“音乐”和“人声”两部分组合而成的,其中“音乐”是由乐器演奏出来的,而“人声”自然是由人唱出来的。不过,初音未来不是真人,她的声音是人工合成出来的。那么,声音又是如何被创造出来的呢?

无论什么声音,它们都具备相同的本质——机械波。既然所有的声音都是波,那为什么听起来完全不一样呢?从物理学上看,所有的声波都是由多个简谐振动的波叠加而成的,而每个简谐振动都只包含三个物理量:频率、振幅和相位。换句话说,无数个频率、振幅和相位不同的简谐波叠加起来,就形成了我们所听到的各种各样的声音。

于是,有些物理学得特别好的音乐家就开始动心思了,既然声音都是由这样一些基本元素所组成的,那么我能不能利用这一原理人工合成出声音呢?这个主意听起来很不错,因为早在19世纪,人类就已经发明了电子扬声器,可以将波动的电信号转化成机械振动来发出声音,而操纵电信号的频率、振幅和相位非常容易,于是,能够人工合成声音的“电子合成器”也就应运而生了。早期的电子合成器,是采用几个电子振荡器来产生变化的电流,然后通过调制器对电信号波动的频率、振幅和相位进行动态控制,最后再将这些波叠加起来,通过扬声器变成声音。

这种从声音本质入手的思路固然不错,不过人类的力量毕竟有限,要知道,我们所听到的真实世界的声音都是由非常多的简谐波以非常复杂的形式叠加而成的,而电子合成器只有寥寥几个振荡器,所能够产生的声音实在是太简单了,听起来完全不像任何一种真实的乐器,更加不可能合成人声了。于是,音乐家们有了更高的追求,他们梦想着有一天能够人工合成出各种真实的声音。

既然声音的本源对我们来说还是过于复杂了,那不妨换一个思路试试。所有的声音无论如何发出的,最终都要进入耳朵被大脑所解析,那么我们可以从人的听感入手,看看声音是如何构成的。对于音乐和歌声,我们能感知到的大体上有三个要素:音高、响度和音色。音高,就是这个音是Do、Re还是Mi;响度,当然是这个声音听上去有多响;至于音色,我们只能说它是一个集合概念,代表一种声音的基本特性,比如说这声音是钢琴、小提琴,或是邓紫棋、古巨基。在这三个要素中,音高和频率相关,响度和振幅相关,这两者都很容易控制,就剩下最复杂的“音色”,它包含的要素太多了,怎么办呢?

这时,有人想到,我们可以把真实乐器的声音,比如用钢琴弹一个Do,录下来,作为一个样本存起来,然后当我要发出Mi的声音时,把刚才的样本拿出来,用处理器给它升个调,再放出来不就行了吗?我们在卡拉OK里面唱不上去的时候可以把伴奏降几个调,就是这么玩的对吧!这种方法就是“采样合成”,只要有高质量、大规模的采样、优秀的采样合成算法和数字处理器,音乐家就可以完全使用电子合成器来制作音乐,效果相当棒。如今,随着计算机处理能力的提高,个人电脑已经完全可以胜任声音合成的工作,因此电子合成器也由专用硬件逐步变成了软件,甚至iPhone上的一个App就可以媲美专业合成器的效果,还真的有一些音乐家用几台iPhone和iPad组成乐队来表演呢。

采样合成技术的普及大大降低了音乐制作的门槛,为一些喜爱音乐创作但手头又不是很宽裕,或者是自己不太会演奏乐器的人打开了通往新世界的大门。可是合成器只能用来制作音乐,还不能制作出人的歌声,这显然还不够酷——要是连歌声也能合成就好了!事实上,歌声和乐器的声音并没有太大区别,在采样合成技术已经十分成熟的背景下,合成歌声并不存在根本性的技术障碍。尽管如此,合成歌声还是比合成乐器的声音要困难得多,主要是因为歌声比乐器的声音多了一个要素——歌词,这依赖于语音合成技术,当然还有其他一些难点,例如唱法、表情,以及音和音之间的自然衔接等等。

在语音合成方面,日本人民又具备先天优势了,这是因为和其他大多数语言相比,日语的发音体系相对简单很多。2004年,鼎鼎大名的日本YAMAHA公司发布了世界上第一款歌声合成软件,名叫Vocaloid。在这款软件中,只要输入歌词和旋律,就可以自动唱出歌来。从本质上来看,Vocaloid也是一个采样合成系统,事先将真人的语音录制成包含各种辅音、元音的切片并制作成“歌声库”,软件按照歌词从歌声库中挑选合适的采样切片,然后再根据旋律和其他参数合成出歌声。扫平了歌声合成的障碍,虚拟歌手也就呼之欲出了。

初音未来——给“软件”穿上“偶像”的外衣

Vocaloid本身只是一个引擎,而歌声库才是虚拟歌手的灵魂。为了让Vocaloid拥有更多的歌声库,YAMAHA将歌声库的开发工作授权给其他合作伙伴来完成,自己主要负责开发和改进Vocaloid引擎本身。最早参与合作开发歌声库的两家公司分别是英国的ZERO-G和日本的Crypton Future Media(简称Crypton),前者主要负责英语歌声库的开发,而后者则负责日语歌声库的开发,我们今天的主角初音未来也正是出自Crypton之手。

初音未来诞生于2007年,软件的包装盒上印着一枚大大的动漫美少女形象,绿色的长发和电子气息浓郁的服装十分抢眼。其实,Crypton早在2004年就推出过MEIKO和KAITO两款歌声库,它们的包装盒上也使用了动漫形象,在当时的DTM软件市场上也算卖得不错的。从初音未来开始,Crypton在MEIKO和KAITO的基础上调整了产品策略,高调地打出了“虚拟偶像”牌,不仅人物形象的设计提升了一个档次,而且还给人物赋予了丰满完整的设定。对于音乐爱好者来说,你不是在用软件制作歌曲,而是让一个活灵活现的虚拟歌手唱歌给你听,这无疑令动漫迷们心动不已。实际上,初音未来的歌声并不能算是很真实,里面透着一股十分浓重的电子味儿,但Crypton打的本来就不是真实牌——一个虚拟偶像,应该有她自己独具特色的声音。为初音未来献声的是日本动漫声优藤田咲(读作“笑”),当时的她在声优界可谓是默默无闻,事实证明Crypton的这一招走得十分明智,因为如果起用非常出名的声优或歌手来献声,她本人的光环就会喧宾夺主,谁还会去关注你设定出来的这个虚拟的形象呢?

初音未来问世的第一年就卖出了4万套,大大超出了Crypton自己做出的1000套的预期。初音未来的走红,和Crypton对虚拟偶像的运营密不可分。首先,Crypton鼓励大家用初音未来进行二次创作,这里的创作不仅限于歌曲,还包括使用初音未来的形象绘画和制作动画。为此,Crypton专门设立了一个网站供爱好者们发布和交流自己的作品,还在“Niconico动画”等著名视频投稿网站上设立了专门的频道,支持并参与各大动漫展会和相关的同人创作活动。

引爆初音未来人气的导火索,是在仅仅发售5天之后,出现在Niconico动画上的一段视频,内容是Q版的初音未来手里拿着一根大葱,边甩边唱一首旋律十分洗脑的芬兰民歌《伊娃的波尔卡》(Ievan Polkka)。这段视频和这首歌曲立刻通过网络传遍了全世界,在中国,粉丝们给这首歌起名叫“甩葱歌”,直到现在你还能在电视上、超市里,甚至是大妈的广场舞里面听到这首歌。随后,很多业余音乐爱好者开始用初音未来创作歌曲,因为请这样一位超萌的偶像为自己的作品演唱不但价格不贵,而且自己动手制作歌声还别有一番乐趣。再后来,一些专业的音乐制作人也加入到Vocaloid大军当中,为初音未来打造个人专辑,Crypton也为此成立了一个唱片公司,专门用来发行Vocaloid制作的歌曲。2010年,精选集《EXIT TUNES PRESENTS Vocalogenesis feat.初音未来》夺得日本ORICON音乐公信榜周榜单冠军,这在日本音乐史上可谓是空前的纪录,见证了虚拟偶像已经不再属于动漫亚文化的小圈子,而是逐步演变成了一种新的大众文化。

初音未来的走红让公众意识到虚拟偶像的力量,同时也让音乐家们见识了Vocaloid引擎的实力。借助初音未来的成功,Crypton又相继推出了虚拟歌手2号“镜音铃/连”和虚拟歌手3号“巡音流歌”。除ZERO-G和Crypton两大元老之外,其他公司也纷纷加入到Vocaloid歌声库的开发阵营中来,目前Vocaloid已经拥有超过50款歌声库,并且还在不断扩充中,其中,上海禾念也于2012年和2013年先后制作并推出了中文歌声库“洛天依”和“言和”,在中文圈子里引爆了一次虚拟歌手热潮。


“全息”投影——打破次元的壁垒

随着初音未来在二次元领域人气爆棚,粉丝们就盼望着他们心中的偶像有一天能够穿越次元的壁垒,来到舞台上开一场“真人”演唱会。2009年,在日本埼玉体育馆举行的Animelo夏季动漫演唱会上,初音未来第一次作为嘉宾登台演出。尽管这次表演仅仅是在舞台的大屏幕上播放了一段视频而已,但还是赢得了观众们的热烈支持。仅仅过了一个月之后,在初音未来诞生两周年的纪念活动上,初音未来真的走出了大屏幕,以一种独特的形式“站”在了舞台上,实现了和作曲家、歌手的同台表演,让现场观众大呼过瘾。

初音未来的3D形象和活灵活现的舞蹈动作离不开一个叫做“MikuMikuDance”的软件。MikuMikuDance是一个个人制作的免费软件,里面内置了初音未来的3D模型,用户可以很容易地通过编辑指令让初音未来做出各种舞蹈动作并输出成动画视频。由于这款软件不需要很高的计算机配置就可以运行,而且操作简单、功能强大,因此用这款软件制作的初音未来动画视频也开始大量涌现。


现在初音未来已经从2D变成了3D,而且还可以跳舞,那么如何让她真正走出屏幕呢?在看似空荡荡的舞台上投射出一个活动的虚拟形象,不禁让人联想到传说中的“全息”技术,而粉丝们也一般将初音未来的表演称为“全息投影”。实际上,真正的全息技术可没那么简单,初音未来能站在舞台上,用的只是一些比较高级的障眼法,其中用得最多的是一种叫做“DILAD Screen”的屏幕来进行投影的技术。

DILAD Screen是由Kimoto公司开发的一种几乎透明的聚酯投影膜,只要将聚酯膜贴在透明玻璃板(或者亚克力板)上,然后把玻璃板立在舞台上,从背面用多台高分辨率投影机来投影就可以了。由于DILAD Screen本身的透明度非常好,因此在适当的光线条件下,观众在一定距离之外几乎是看不到这块板的,自然就产生了初音未来凭空出现在舞台上的错觉。


除了DILAD Screen之外,初音未来的演出还采用过其他一些投影技术,例如2012年采用的Eyeliner投影。Eyeliner是通过上方的投影机将影像投射到地板上的反射材料上,再反射到一张倾斜放置的透明薄膜上形成影像。这种方式投射的影像立体感更强,而且由于角度的原因,薄膜相比DILAD Screen更不容易被观众察觉,因此效果也更好。