央广网

[盘点新年新科技]语音识别能否解放双手?

2017-02-01 09:52:00来源:央广网

  央广网北京2月1日消息(记者庄胜春 见习记者刘柏煊)据中国之声《新闻纵横》报道,过去一年,最火的科技概念莫过于人工智能。阿尔法狗大杀四方,将人工智能的深度学习能力展露无疑。但要说跟老百姓关系最密切的人工智能技术,可能要数语音识别。从互联网问世到手机普及,人们的双手逐渐和机器绑定在一起。未来,也许人们只需要动动嘴,机器就能明白人们的意思。

  但也许有人会说,这不新鲜啊,早在几年前,很多软件就支持语音操控了!然而不一样的是,随着技术的发展,语音识别的准确性不断得到提升。这种量变,正在孕育着质变。

  记者:Siri你是怎么过年的?

  Siri:你可以和亲戚们聊聊天,我去研究一下人类和亲戚们聊天的艺术。

  前两年,提到语音识别,大家可能第一时间会想到的就是这个不大会讲笑话的苹果Siri。如今,不光是苹果,谷歌、亚马逊等国际巨头主打语音控制的智能家居,都已经风生水起。但在中国,这外来的和尚念的经还是不够准,中文的听说能力只能给个及格分。在2016年的尾巴上,罗永浩在自己的锤子手机发布会上,捧红了一款中国的语音产品,“我在这里用尽可能口语化的语言,随便和大家聊几句,我开始长时间的胡说八道,请不要打断。”

  它是一款第三方软件——科大讯飞;深耕多年,一朝走红。

  罗永浩说:“在演示里,由于一个错字都没有,甚至显得有点假。但是你不用使用我们的手机,无论使用什么手机,只要下载讯飞语音输入法,今天你就能看到这个奇迹,97%的识别率。”

  这一年,不少新闻发布会和论坛的现场多了一个标配——一块专属语音识别的屏幕,主讲人一边说,屏幕上一边出现说的话。有人感叹,速记员这个职业可以消失了。

  不止是科大讯飞,百度去年也频频“秀肌肉”。在《最强大脑》最新一季节目中,百度的人工智能机器人小度就与《最强大脑》的顶尖选手较量了一把语音识别能力。

  双方根据三段不稳定通话中的只言片语,在一个性别相同、年龄相仿、声线极为相似的21人专业合唱团中,选出曾经在通话片段中出现过的3个声音。节目嘉宾魏坤琳这样分析比赛的看点:“虽然说话差别很大,但可能她们唱歌的时候,非常相似,这就是这个题目的难度所在,你需要从她说话的声音,推演她唱歌的声音。”

  最终,双方都只答对了三题中的两道,打成平手。人机谁更强,留了个悬念。

  目前,搜狗、百度和讯飞都已宣布,自己的语音识别系统正确率高达97%左右。而微软在去年发布的一份学术声明中也表示:自家语音识别技术的精准性已经可以媲美人类,在测试中已经实现了将错词率降低到5.9%——这已经与人类专业速记员的最好记录水平持平。

  展望2017,随着语音识别越来越多地渗透到人们的生活,人机交互方式的彻底改变也许不再遥远。人工智能专家、百度首席科学家吴恩达说: “如果你能和你的手机直接对话,而不是通过敲打键盘,这就是人机互动方式的质变。很多人都低估了这样一个事实,就是语音识别的准确率从现在的95%,一旦提升到99%,就会出现质变:你从偶尔使用语音,变成常常自然而然地使用。”

  当然,语音识别还有难题要解决。在智能语音专家贾磊看来,人、环境和设备的不确定性,是语音识别技术的最大挑战。比如,说话的人常常来自不同的方言区、说话时有不同的方式、带着不同的情感。此外,真实的语言环境也非常复杂,会被各种各样的噪声环绕,包括汽车的喇叭声、飞机的噪声、马路上人流车流的声音等;而发言者使用的设备也是五花八门,除了自然发声,人们还会配戴各式各样的麦克风。

  如何处理这些不确定性,也许决定着距离解放人们的双手还有多少时间。

编辑: 高杨
关键词: 语音识别