TECH2IPO/创见

「 新生活 新科技 新零售」

京ICP备14046667号

加速人工智能产业化落地 搜狗语音技术实力开始爆发

搜狗听写使用了搜狗知音独家研发的长时语音转写技术,并与业内领先的端到端深度神经网络技术深度整合,使得语音识别准确率保持在较高水平。

作为记者最害怕的事情并不是没有选题或者没有好的故事,也不是薪水太少或者工作太辛苦,而是整理录音,它几乎是每一个记者的噩梦之一。每一句都要反反复复去听,去用人肉的方法转成文字。在一些大的媒体机构可能会有专门的团队去整理录音,而像创见这样的小机构,那么之后自己去整理。一个约有 2 个小时的采访录音,整理录音的时间可能就得画上两三倍,甚至比写报道的时间还要长。

我想很多文字工作者也有这样的痛苦,几个小时的会议录音整理起来也是要人命的。实际上,语音记录,是记者、编辑、作家等文字工作者们常用的记录方式。但是,对于记录者来说,语音并不方便后期的整理、分享和追溯,这也导致听语音记录的过程耗时耗力,影响信息的沟通。

后来国内也出现了语音转文字的付费服务,从某种意义上大大减轻了负担,但对于这部分收入不高的群体来说也是一个不小的负担,不过近日,搜狗公司正式推出语音实时变文字的速记工具「搜狗听写」,解决会议、采访、写作等场景下长语音内容转写难题,而这一服务是全免费的。

实现复杂场景下的精准转写

创见记者一开始就参与了搜狗听写产品的内部测试,逐渐地就成为我工作中必备的一款产品,也见证了搜狗对这款产品细细打磨,不断改进的过程,及时转写的准确度也越来越高,不管是在嘈杂的会场还是一对一的静距离专访都能够很好地表现。

据搜狗方面介绍,为了保证在各种复杂场景下都能精准转写,搜狗听写采用了大量的前沿技术。在转写方面,搜狗听写使用了搜狗知音独家研发的长时语音转写技术,并与业内领先的端到端深度神经网络技术深度整合,使得语音识别准确率保持在较高水平。

经过近几个月的使用,记者发现搜狗听写的功能相当强大,可以支持写文章、采访录音、会议记录、笔记整理 、日常记事等场景,帮助用户实现高效记录和信息输入。而且针对不同场景和需求,搜狗听写可以支持「听写」和「转写」两种模式。

在「听写」模式下,录音的同时即可实时给出识别结果,话音落文字出,几乎没有时间差;而「转写」模式下则可以离线录音,录音完成后一次性获取文字结果。同时,为了提高文字整理效率,搜狗听写还贴心的加入了边听边改、无线标重点、多端同步、信息分享等人性化功能,大幅度提升记录效率,让文字编辑更轻松。

此外,在针对图书馆、咖啡厅等不便于大声说话而又有使用语音的场景,搜狗听写提供耳语识别技术,在人的说话音量低至 30 分贝时,依然可以准确识别。

搜狗听写可以说是一款相当实用的产品,但如果只是面对文字工作者这个人群的话可能会有点太窄,那么搜狗公司为什么要花大力气做这样一款看起来有些「小众」的产品呢。

在现场嘈杂以及距离说话者15米的大厅中 搜狗听写的表现还是满意的

搜狗语音交互技术中心总经理王砚峰在接受创见记者采访时表示搜狗的产品观是要帮用户解决问题。在互联网的产品的竞争中,产品需要有不可替代性,要考虑怎么帮助用户解决痛点,怎么把你的产品和用户的痛点结合起来,哪怕是在垂直市场上形成杀手锏级的应用,也会比你做一个很广泛的产品,说这个产品有五项功能,但你说不出每项功能在这个市场上有怎样的势能要成功地多。作为一个产品,一定要找到杀手锏是什么,然后在这个点上取得单点突破。哪怕你的用户群体不是那么大,但如果我能够给这个用户群体带来足够大的价值,就是一个好的产品。

同时王砚峰也否认了记者听写是「小众产品」的观点,实际上所有的用户都可以使用这个产品来记录自己生活的方方面面。比如,语音分享的功能、记事的功能、管理的功能,其实就是语音版的有道云笔记,以及语音版的锤子便签。

简单的听写 雄厚的实力

实际上,在搜狗公司的拳头产品搜狗输入法当中,语音输入的能力就已经被众多用户频繁使用,而搜狗听写这款产品则无疑是把「语音输入」这个功能在更高的难度和更复杂的场景下更好地表现了出来,它看起来简单,但这并不是随便一个公司都能做出来的产品,它需要公司有很强的技术实力。

王砚峰对创见记者表示,现在语音识别走到今天,未来我们要解决的问题,一是怎么样解决远场的问题。人与人之间的远距离喊话,大家可以听得很清楚,但机器的远距离识别是不好的。二是在噪声的情况下,我们三个人在一起说话,其中一个人对另一个人说话,大家知道他是对我说的,我旁边有人在说话的时候,他也能够区分声音,把自己想知道的声音提取出来,机器是达不到的。未来我们希望可以在这个方面取得突破。在这个时候,我们就真的可以说语音识别的能力是可以达到人类的水平的。

搜狗公司作为国内 AI 能力最强的互联网公司之一,搜狗已经建立了强大的语音自研团队,拥有目前互联网规模最大的语音数据。大约在一年以前的这个时候,搜狗推出了搜狗知音引擎,提出了自然交互+知识计算的战略布局,在雄厚的语音技术实力下,搜狗公司在这方面的表现也越来越突出,在过去的一年搜狗公司推出了众多语音识别技术来服务更多的用户。2015 年 5 月份,每年会有 5500 万的语音 DAU。2016 年 1 月份,增长到 1.25 亿。现在已经达到了 2.6 亿的规模。

王砚峰表示搜狗听写作为一款多场景的语音听写工具,其产品的关键在于语音识别准确率,而通过大规模的优质语音训练数据和深度学习的技术能力积累,搜狗也将这种语音识别的技术优势转化到了更多的适用场景中。基于每天超过 2.6 亿次的语音请求为搜狗智能语音系统提供了海量的真实语料数据,使得机器不断学习,识别准确率越来越高,可应用的场景也越来越广泛。

此次推出搜狗听写产品,是搜狗语音深入用户垂直场景下的又一个全新探索,通过更加专注于特定的场景和人群,去理解用户需求、解决实际问题,从而让语音技术为更多人所用。综合搜狗在人工智能上的产品布局,我们可以清晰的发现,让人工智能更「接地气」,已经成为搜狗在人工智能领域的独特标志。

搜狗语音产品开始爆发

王砚峰表示,未来语音产品的进一步落地将会成为搜狗未来的工作重点。搜狗很早就开始做语音识别,很早就做 NRP 和搜索,通过雄厚的语音技术储备,在去年语音产品开始爆发的情况下开始对外输出,并且也开始逐步进行产品落地。从去年开始到今年,已经有些产品使用搜狗的 AI 能力。未来,会有更多的产品获得 AI 技术结合的能力。

比如在可穿戴产品,在儿童产品领域,以及现在炒得非常火的智能家居、后装领域的车载产品,自主研发更多的硬件中 AI 就有很大的表现和变现机会,搜狗也开始进行布局。

王砚峰透露从今年年底开始,搜狗会推出更多自主研发的硬件产品,同时,搜狗会积极推广 AI 云平台、AI 云服务,服务更多的行业伙伴。在更多的垂直产品场景下,做更多好的产品,服务垂直行业的用户群体。

利用对话技术,搜狗上个月发布了一款产品「智能副驾」,它主打的模式就是通过多轮对话、地图知识和对话能力的结合,把它变成更好的对话引擎,让机器更自然的跟人交流、更自然的帮你完成导航。通过对话技术和车内知识的整合,就可以告诉用户更加复杂的发生在车内的语音交流,比如去清华大学的哪个门,你去清华大学的逸夫楼,还是主楼,是走三环还是四环。怎么把更多的结构化信息用到对话技术当中,帮用户进行对话的引导。搜狗表示会把这个产品更多的推向后装的方案商到前装的车厂,跟用户的实际驾驶感受结合起来。

搜狗在去年年底推出了一款答提机器人「汪仔」,它跟最顶尖的人类选手进行知识益智类的问答 PK,这个在江苏卫视的《一站到底》当中表现地非常耀眼。IBM 的沃森是基于封闭的知识库进行搜索,搜狗的「汪仔」就是面向搜索引擎,实时的抓取海量信息,根据问题的上下文,通过文本的分析、自然语言处理的能力,把用户想要的答案提取出来。目前搜狗搜索已经有这样的功能,你在搜索引擎、搜索 APP 上问很多问题,有些问题是能够以直接答案的形式呈现出来的。搜狗希望未来给出答案的比例越来越高,现在是百分之几,未来能到百分之十几、百分之二十、百分之三十。

另外,搜狗也表示从去年开始搜狗进行了 AI 技术的输出,与小米、魅族、创维、海尔等硬件厂商进行合作。

王砚峰在采访中表示,去年的这个时候搜狗提出,如果把语音放在智能硬件的场景里可以做出更好的产品,但很少有只能硬件厂家有同样的观点。但从去年年底到今年上半年,这个观点已经成为大家的共识。

评论于站点 回复 评论 删除 隐藏

评论于站点 回复 删除 隐藏