导读:人工智能一直是热门讨论话题,在刚刚过去的互联网大会上,百度公布了自己的人工智能进展,并且于日前宣布将开放情感合成、远场方案、唤醒二期技术和长语音四种技术。
日前,百度宣布在其语音开放平台上线三周年之际,向公众开放四项全新语音技术接口,分别是情感合成、远场方案、唤醒二期技术和长语音。
记者注意到,作为人工智能的主要技术及应用之一,语音识别是国内外科技公司都在耕耘的方向。百度公司首席科学家吴恩达甚至形容称,“我们已经站在人工智能的黎明。”
早些时候,谷歌于今年3月宣布开放其语音识别API(应用程序编程接口)。
据了解,百度语音开放平台日前宣布对外开放的四项技术,也可以理解为输出解决方案,包括情感合成、远场方案、唤醒二期技术和长语音四种。
“这些技术有很大的潜力,去彻底改变人机交互的效率和办法。未来语音技术在很多应用场景有很好的机会,将为人机交互带来巨大的改变。”吴恩达表示,这些技术旨在解决用户在使用语音交互的场合时,普遍感到困扰的一些关键问题。例如,百度情感合成技术主要聚焦在为合成语音“加入情感”,目前可达到接近真人发声效果。类似地,开发者还可以利用新的接口,使语音识别距离增加到3米到5米,将设备的语音唤醒率提升到95%以上,同时更省电、误报更少,或提升长时间语音识别的准确率问题。这将为语音技术带来远比现在更多的想象空间,而不只是遥控电视或解锁手机。
公开资料显示,百度语音识别准确率已达97%。百度语音开放平台自2013年10月上线以来,开发者数量超过14万。
斯坦福大学人工智能专家James Landay提到,“近两年,受益于大数据和深度学习技术的不断发展,语音识别技术突飞猛进,速度及准确性都有了长足进步。”
值得注意的是,作为人工智能的主要技术及应用之一,语音识别是国内外科技公司都在耕耘的方向,包括苹果、微软、谷歌、百度、腾讯、科大讯飞和搜狗等多家公司都在这一领域发力。
“我们已经站在人工智能的黎明。”11月22日下午,吴恩达在接受包括媒体采访时称,语音识别的门槛很高,除了技术复杂,数据门槛也非常高。现阶段,最难的仍是核心技术研发,如识别率提升、大数据语音合成等。百度希望通过开放相关技术,让智能应用更易被开发。
另一方面,今年3月,谷歌在其Next云计算大会上发布面向开发者的新机器学习平台的同时,宣布开放语音识别API,即谷歌语音搜索和语音输入的支持技术。
记者留意到,Google Cloud SPeech API包括了80多种语言,适用于各种实时语音识别与翻译应用。9月下旬,外媒报道称,谷歌宣布将收购智能语音识别工具开发商API.ai,预计会整合后者的自然语言理解技术。
而就在上周的第三届世界互联网大会上,王小川在演讲中现场演示了实时语音识别和翻译的能力,并提到,搜索的未来就是问答机器人,随着技术的突破,搜索引擎会自然而然演化成为问答引擎。但他也直言,尽管人工智能最重要的突破领域是在语音和图像领域,但在文字领域的进展仍较缓慢。比如,在安静的环境下,搜狗的语音识别准确度已经到了95%甚至97%,但一旦有噪音,准确率会迅速下降。