人类利用语言向机器下达指令,随后,机器同样借助语音做出反馈,但凡接触过“科幻电影”的人们对于这种新奇的交流方式大多耳熟能详。如今,这一切早已脱离了“科幻”的范畴,也许,读者您便拥有一台具备语音交互功能的电子设备。然而,对于视障人士而言,其可用性如何呢?
在人们的日常生活中,公交公司的广播报站系统往往会使用电脑合成语音。除此之外,语音识别技术在电话服务领域也已得到了日趋广泛的应用。近日,笔者致电一家公用事业公司,根据电话内的录音指令说出了自己的邮政编码,这样,系统便可将我的来电转接到相应的地区服务部门。其实,相对而言,该系统的复杂程度并不高,因为,其所需识别的字母、数字乃至单词的数量都十分有限,自动给出的应答句也比较固定。
现今,计算机和智能手机平台上已经出现了能够处理大量单词、各种口音以及复杂环境的语音识别系统。2011年,苹果公司在其发布的最新产品iPhone4S中就内置了一款名为Siri的“智能语音助手”,能够通过语音与用家进行互动。事实上,Siri绝非最早的语音交互系统,其只是第一款由主流大公司推向大众消费市场的此类应用。
语音技术
其实,残障人早已站在了语音技术的最前沿,在Siri的广告中,就包含了一位视障妇女利用语音接收短信并进行回复的片段。数十年前,视障者便已开始利用听读取代直接浏览电脑屏幕的方式操作计算机了。无法操作键盘与鼠标的肢残人使用语音控制计算机的历史也已有了数年之久。
然而,多年来,这类技术的用家却基本上仅仅局限于少数特殊需求人士。许多人因计算机所发出的机械语调而对电子合成语音退避三舍,同时,需要大量磨合时间才能使计算机正确理解人类语言的事实也使得大量用户对语音识别技术望而却步。
你是在与我说话吗?
早在十余年前,大多数计算机操作系统中就已内置了语音识别软件。尽管绝大多数笔记本电脑都内置有麦克风,然而,也许是因为其音质距语音识别的要求相去甚远,用户仍需使用耳麦和具有背景噪声消除功能的降噪麦克才能正常使用该功能。
如果您是微软公司的Windows系统用家,便可在开始菜单中找到“Windows语音识别”功能。首次启动该组件后,你需要进行相应的设置,测试自己的麦克风,并可选择对系统进行训练,使之能够正确识别你的语音。训练内容由屏幕上显示的几段文字组成,用家需将其读出,使系统能够对之进行处理和识别。有时,你可能要反复读上两三遍才能得到正确的识别结果。
回顾往昔,用家想要借助屏幕放大或是屏幕阅读软件完成这项工作往往显得困难重重,然而,后续发布的“Windows7和Windows8”系统则对此过程进行了优化,消除了读屏软件的阅读障碍,并将文字篇幅进行了缩减,以保证绝大多数人都能将其暂时记住,除此之外,每当某段文字得到成功识别后,计算机还会发出音效以及屏幕提示,提醒用家开始下一段文字的朗读。
设置完成之后,语音识别功能既可随机启动,也可由用家通过键盘快捷键或语音指令自行打开和关闭。也许对于初学者而言,最为有用的语音命令便是“我能说什么?”(”What can I say?”)用家发出此指令后,计算机便会将所有可使用的指令以列表的方式显示出来。
苹果与微软的博弈
在苹果公司的Mac系统上,语音识别功能被分割成了“文字听写”和“可表述”项两大模块。“文字听写”功能仅在输入区域内可用,此时,用家只需双击“FN键”(或在“编辑菜单”中选择“文字听写”项),说出你的输入内容后再次双击“FN键”便可开始对此段语音进行识别。
在整个识别过程中,设备需将你的输入信息发送到“苹果公司”的服务器上进行处理,因此,顺畅的网络连接必不可少,此外,正是由于这一工作原理,你也许会对使用“听写”模式输入敏感信息抱有很大顾虑。不过,其与苹果设备内置的屏幕阅读软件VoiceOver以及放大软件Zoom之间的兼容性却显得无懈可击。
“可表述项”则可用于语音指令的发布,例如,用家在读完了邮件之后,可以直接说出“回复”二字,便会打开邮件回复见面。若需开启此功能,用户可依次进入“系统偏好”--“辅助功能”选项。正式启用前,用家还需对自己的麦克风进行调校,并加以短时间的磨合训练,然而,经测试,笔者感到,视障者凭借VoiceOver是无法独立完成此项操作的。
综述
总体而言,相对于Windows系统,Mac系统所提供的“文字听写”功能的操作方法略显简单,然而,其语音命令的控制则显得繁琐的多。用户启用听写功能时,必须说出所有的标点符号,而在Windows系统中,你则需习惯于将整个短语完整的说出,并在其后略微停顿,以确保系统能够对此加以识别。另外,在使用Mac系统的过程中,用户都需手动启用或停止文字听写功能。随着技术的不断进步,两家公司均花费了大量精力,持续完善其自然语言处理算法,因此,时至今日,它们都能够根据上下文,轻而易举的分辨“那儿”、“他们的”、以及“他们是”这类发音相近的词语。(译者注:在英语中,那儿(there)、他们的(their)和他们是(they’re)是同音异意词,及发音相同但意义不同。)
无论是在Windows系统中,还是在Mac系统上,用家都可以购买到功能更为完善的语音识别应用,回顾过去的十余年,一家名为“Nuance”的公司一直凭借着自己出品的“龙系统”(Dragon programme)稳居该领域的领先地位。
智能手机
随着智能手机的出现,如今,同类技术以开始在移动领域大放异彩。诚然,触屏手机有着众多优势,不过,文字输入却一直是其短板之一。尽管虚拟键盘在小小的触屏上占据的区域越来越大,但是,想要在如此小的键盘上完成触摸输入仍有着诸多不便。此外,屏幕上只能显示少量信息这一事实也意味着,用家可能首先需要通过三到四个操作手势才能找到所需应用,从而完成将其打开这一无比简单的操作。
在手机领域,语音识别功能可被大致划分为三个模块,及“文字听写”、应用操作(如“发送一条文字信息给约翰”)以及互联网接入和位置信息(如“离我最近的超市在哪里”)。
苹果与谷歌的对决
放眼两大主要的智能手机平台——苹果的iOS和谷歌的安卓,全都包含了语音识别系统,无论是其中的免费抑或付费应用,都可以轻而易举的实现上述的三大功能,然而,其所存在的一大问题便是,移动设备常常需在公众场合使用,因此,许多用家对于语音控制往往难以接受。
尽管智能手机的性能日趋强大,然而,面对语音识别所需的密集型计算任务,其仍然力有不逮。因此,绝大多数此类应用需要借助互联网,将用户所说的内容发送至性能更为出众的服务器进行识别,随后在将识别结果以文字形式反馈到用户的手持式终端上。
移动设备上搭载的“语音识别应用”大多无需训练便可顺畅使用。由于周围的环境噪声会对识别过程产生干扰,用户的语言习惯乃至设备握持方式也各有不同,因此,即使他们给出的指令完全相同,所得到的识别结果也很有可能大相近庭,
今天有雨吗?
智能手机平台所采用的语音识别系统也同样应用了前文提到的自然语言处理算法,其益处显而易见,例如,但凡想要了解当天的天气情况,你便可以这样问:“我需要带伞吗?”。
随着语音识别系统智能化程度的日趋提高,其对人类语言的理解力也不断增强,因而,该应用的价值日渐凸显。至少,那些无法顺畅使用触屏和键盘的人们变可从复杂的操作中彻底的解放出来。接下来,人们所面临的主要问题便成为了:如何增进人机对话的舒适度。