语音工程师难学吗
时隔两天,小米再次做客央妈!网友:大惊小怪,已经习惯了7月20日,经过这两天后,我对小米算是有的认识!以往对小米的认知还仅停留在手机层面上,没想到小米的多项成就和技术已经被央妈报道过多次了,以至于有网友表示小米怎么频频被央妈报道,另外一帮网友回答到已经习以为常了,不必大惊小怪。
先前在中国空间站上航天员携带的米家螺丝刀,到两天前某海军航空兵用满改的小米9号卡丁车执行场地巡逻任务,保证飞机的安全起飞,小米卡丁车已经成为了军需后勤保障的一员,不得不说小米生态的强大,能军用能民用,上得了刀山下得了火海,实属厉害!
而今天,小米的语音团队被央妈报道了,小米首席语音科学家 Daniel Povey和一众小米语音工程师们介绍语音功能在未来拥有更多的可能性,在Kaldi开源系统的基础上,小米为小爱同学加入了很多人性化功能,让语音助手变得更加智能和对话起来更拟人化,这是小米语音团队一直以来坚守和坚持的方向。
从小米MIX、智能工厂的建设、小米造车再到语音技术、从央妈的报道中知道,小米一直在坚持自研科技的探索,并且支持语音技术的开源性,实现人人为我,我为人人的开源精神,进一步加速了中国智能软件的开发。
流式语音识别前景?
就业前景不错,就业去向:目前已被广泛应用于教育、医疗、客服、个人语音助手等行业市场和个人用户领域。中国智能语音市场已形成了包括上游的基础设施制造(芯片、传感器、算力)、中游的技术实现(语音合成、语音识别、语义理解等)以及下游的众多应用服务(家居、客服、教育等)的完整产业链结构。
相信通过近一两年的需求深挖和技术完善,智能语音技术将会被更多行业所采用,这就需要有大量的工程师进行开发、维护、升级,其中,语音识别工程师将会有非常广阔的就业渠道。
语音工程师难学吗
语音交互是未来主要的车内交互方式。时下语音助手几乎开始向标配化的趋势发展。有资料显示:截止2021年,中国乘用车智能语音交互功能的搭载率已经高达86%。 然而车主们对待这个功能的使用率却呈现两极分化,要么极低,要么非常高。因为不好用的语音功能除了耗费更高的时间成本外,还有可能让你越用越生气,甚至大呼“人工智障”。 在小鹏汽车的上一代语音产品中,可见即可说的全场景语音能力和极低的误识别率,让语音成为鹏友连接座舱最主要的交互方式,用户使用率34个月高达99%。而随着全场景语音2.0的推出,更强大的功能体验有望继续刷新这一数字。 到底什么样的语音助手才能让鹏友用起来更爽?今天我们单独聊一聊速度对于交互体验的影响,挖一挖大家都爱用的车载语音助手小P的背后,工程师为你呈现的便捷和周到。 1.为何交互速度快会让人感到舒适? 根据统计,一般来说,人与人之间的对话的间隔时间平均是在200ms,这也基本等同于大脑的反馈速度。也就是说,当两个人之间对话的时候,维持在这个速度左右会比较舒服,太慢会让人着急,太快也会让人有压迫感。 在搭载全场景语音2.0的小鹏G9车载交互系统中,工程师在设计交互速度的时候充分考虑到了用户的舒适区间:从唤醒小P到界面反馈仅需245ms,而小P给出语音反馈的时间则小于700ms,是目前最快的语音助手。 2.怎么样才能更快? 虽然小P语音助手的交互反馈速度正在逐步接近人人交互,但智能语音交互系统毕竟不同于真正会思考的人类大脑,让我们一起来看看它是通过哪些技术优化探索来实现这一效果的: l 响应速度更快 在智能座舱领域,每一个功能的开发都是经过场景化的思考来决定的。而这一次,工程师们将用户所有常用场景所包括的语音控制车辆、控制应用,都下放到了车端直接实现,这就大大提升了响应速度。 目前,全场景语音2.0可以做到,从用户发出指令到执行动作用时在1秒以内。这也是行业最快的极速响应。 l 像同声传译员一样,边听边想边做边答 我们刚刚讲到,从用户发出指令到执行动作用时在1秒以内,这已经是行业领先的速度。但当用户指令语义模糊时,目前仍然需要更强大的服务器在线处理,联网则需要更多时间,这样的情况下,如何做到更快? 为了达到更快的目标,工程师们模拟了类似“同声传译”的工作方法:用户还没说完就开始行动。 同声传译员需要在工作中听得准,且不断根据新收到的信息用最快的速度调整输出语言。语音助手则需要有强大的思考能力应对不断增加的新信息带来的语义变化,同时维持准确的理解力,每一个字都可能引起巨量的服务器访问请求。 拥有了流式理解能力的小P,可以边听边想边做边答,像同声传译员一样,让需求在语音指令结束的一瞬间完成全部理解。 流式理解能力应用在车载语音助手领域是非常罕见的,不过,有了它,用户的在线请求的满足效率可大幅提速200ms以上。 l 一次多说几个指令,一起执行 一般来说,我们在与人交流时,如果需要对方提供多个帮助,可能会尽量一次性告诉对方,不然对方可能会说:你能不能一次性说完? 在与智能座舱的交互中,也会遇到这个场景,小P虽然不会不耐烦,但逐个发布指令到响应后再发出,多个来回大大降低执行效率,让对话过程变得很机械化,影响用户的体验。 面对2-4个同时发出的并行指令,其实也可以让小P同时做到。 比如:当你在雨中驾车,突然雨势变大,视线也因车窗起雾开始看不清时,一句“帮我打开远光灯和雾灯打开前除雾并把雨刷速度设为高”,一句话坐享其成,安全又从容。 3.快还不够,还要准确 97%的准确率“卡拉OK厅般喧嚣也能听清你的指令” 如果仅仅是响应速度够快,但不够准确,也是没有意义的。 为了让语音功能好用,用户能够常用,并且始终不断迭代更高的能力,小鹏的语音工程师团队在看不见的地方不断尝试着突破新的挑战,比如G9的杜比全景声的效果对于用户而言是震撼的声学效果,但对于语音控制来说,高回声的座舱空间意味着极度恶劣的声学条件,类似在卡拉OK厅里听清正常讲话,对于一台机器,其处理难度可想而知。 在高噪声、高混响、低信噪比环境下,通过语音基础能力的自研方案,小鹏解决了低信噪比下的回声消除难题,达到对播放中的杜比全景声音乐“充耳不闻”,并进一步,将其它噪声源发出的噪声也限制在不影响语音信号收听的程度,唤醒率和语音识别准确率都达到了97%,保障了真正准确且极速的语音控制效果。 小鹏全场景语音2.0所带来的极速体验以及背后所展现的能力就先讲这么多,其实,语音工程师在看不见的地方的努力还有很多,未来也会慢慢跟大家交流。 与智能座舱的交互伴随着用户几乎所有用车时间,所以语音交互的体验也贯穿用户的每一次出行驾乘体验。这也是小鹏为什么坚持在语音能力的研发上大力投入的原因:我们希望鹏友选择小鹏后,能够在日常用车中通过语音充分调动智能座舱的服务能力,享受科技带来的快乐和简单。 (此处已添加小程序,请到懂车帝客户端查看)关于DuDuTalk: DuDuTalk是武汉赛思云科技有限公司打造的语音数据驱动的一站式智能销售赋能AI-SaaS平台。通过智能硬件(IOT)、AI引擎、机器学习、NLP、文本数据挖掘等技术,为企业提供覆盖移动通话、现场沟通等全场景语音采集、识别、质检、分析等服务。让销售与客户互动全过程数字化、可视化、智能化,用科学的方式实现对销售团队的个性化赋能,让每个人都成为“顶级销售”。