0514扬州网

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 277|回复: 0
打印 上一主题 下一主题

科大讯飞刘俊峰:人机交互技术如何助力汽车智能化发展?

[复制链接]

809

主题

809

帖子

2431

积分

金牌会员

Rank: 6Rank: 6

积分
2431
跳转到指定楼层
楼主
发表于 2018-9-22 23:50:40 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
核心提示:"2018 全球未来出行大会——智能网联核心技术论坛 " 专题直播!
9 月 22 日 ,"2018 第二届全球未来出行大会 " 在杭州国际博览中心隆重举办,本次大会涵盖各类主题论坛近 20 场,其中由盖世汽车主办、全球未来出行大会组委会作为战略单位进行支持的智能网联核心技术论坛主要围绕智能网联核心技术发展趋势、智能驾驶相关技术领域的创新趋势等议题展开,以创新之名为智能网联产业赋能。以下是科大讯飞副总裁刘俊峰在论坛上的演讲实录:


科大讯飞副总裁 刘俊峰
谢谢朱老师,也是好久没见了。不像黄总和朱老师他们对整个汽车行业高屋建瓴,能够说的非常通透,我们只讲一点点,就是在车内的人车交互的事情,介绍一下我们的基本状态。从一个视频开始。
(播放短片)
这个就是用现在的技术在网络上抓取一部分特朗普的演讲或者是一些会议采访的声音之后,用机器学习的方式把这样一套语音的模拟系统建立起来。大家可以从高德地图、腾讯地图,很多手机上的一些 APP 都可以体验到我们用语音合成的模拟技术,对于一些明星发言人的表现效果,这个过程已经基本上可以全部脱离人工的参与,用机器学习可能采集 50 到 100 句相关的一些人的声音,就可以得到相应的效果,这个已经非常便捷。
他刚刚提到科大讯飞,我做一点小的广告,我们成立于 1999 年,成立之初公司创始人的导师讲中国人的语音技术一定要由中国人做的最好,中国人的语音技术是代表着民族文化的一个特征性的文化传承技术,所以当时 IBM、微软以及国外很多小的厂商在做这样的系统时,我们在其中其实活的非常困难,公司到 2008 年上市,9 年时间我们走的其实是非常艰难的,到现在大家因为有一些手机输入法以及智能设备,才了解到了我们,但是前面我们已经在这条路上走了十几年。现在已经变成了亚太地区最大的人工智能公司,也是唯一一个在中国语音方向的上市公司,现在公司 1.3 万人,市值已经突破了 800 亿,当前我们现在已经成为在 A 股市场上、科技股里面的蓝筹股,去年是 MIT 全球最聪明的 50 大公司排名第 6 位,中国 9 家公司排名第 1。
这是内部的结构,内部一共有 7 个部分,针对不同的产业发展,汽车、智慧城市、教育、客服、政法、医疗,这样的产业布局基本上是以 2B 的模式,还有一个是我们的消费者,这个是我们推出的输入法,以及给很多机器人提供交互模块,还有语音云平台在 2010 年上市之后成为全球第一个人工智能语音云的服务平台,当前连接过的设备总数量已经超过了 17 亿部,每天交互次数线上线下总数量超过了 40 亿次,就是这样一个平台从 2010 年到现在,给我们源源不断提供了大家在使用数据中的一些训练数据。在脱敏之后的训练数据,带着口音,带着你们的交互习惯,带着我们有些口头表达里面 " 这个、那个 " 的一些口气词,才变成科大讯飞在现在语音识别这个领域里面无可比拟的竞争优势,这是当前全球最大的一个语音交互的平台,是以云计算的模式为服务方式的。大家看自己的手机上下载一些相关的 APP,去体验像讯飞输入法、讯飞听见、讯飞翻译,昨天也是有一些 PR 事件有攻击,但是更为幸运的是昨天我们的讯飞听见和讯飞翻译下载量当天超过了 100 万,大家非常愿意来去挑战一下,看一看讯飞到底在这个领域里面是说真的还是玩假的,后续的口碑大家可以从各种应用市场下载之后看一看大家怎么说的。
这一路以来,从 2012 年,还有很多很多事情,我们一直推动着从感知到认知,从计算智能到认知智能,这样一系列跟人工智能、语音领域相关的这种技术领先的一些推动发展,这里面还有一些新的比赛结果,向大家简单汇报一下。
第一,我们连续 13 年获得国际最权威的 Blizzard Challenge 这个比赛得冠军,这个比赛 13 年没有一次是中国人的,全都是外国人的,考验的是算法,考验的是对数据能够精准把握的程度。
第二个,国际的图文识别大赛,ICPR MTWI,这个比赛我们第一次参加就包揽了三项冠军,当然我们前面还有一些夺冠,结合图文图像的比赛冠军。
所以现在作为一个技术创新性的公司,我们都是以技术驱动场景和应用的变化。
翻译机这两年已经成为一个大家愿意称道的明星级产品,在今年,我们与联合国编译组织 ITO 签订了战略协议,我们跟外交部和外文局签订了战略合作协议,推广翻译机成为 " 一带一路 " 文化交流的产品。这个过程,一方面我认为是有这个责任,因为翻译技术从 2014 年、2015 年之前一直是老外做的,英中翻译原来是美国人做的好,中英翻译原来是日本做的最好,在此之后我们把这两项全部拉过来,讯飞做的好,从这样一个技术保证才能够让这个产品拿到自己的手里、拿到大家的手里我们敢放心让大家使用,所以 2C 的东西不能说假话,而且一定要做的够扎实,这里面肯定存在着很多没有解决的长远问题,像一些专有名词,像一些在口语、口音这些地方的问题,这些问题不是完全能够穷尽的,总会出现一些瑕疵,但是攻击者往往会因为这样一些小问题放大对于我们的影响。昨天那个事情我们内部其实也是有一点点紧张。
谈谈汽车,从北京飞过来的飞机上我看完了一本书,叫《中国新能源汽车产业蓝皮书》,98 元钱,因为要参加 EV100 的会,我想更新一下我的认知体系。这里面其实除了 " 三电 " 系统,除了在产业研究,除了在每个城市的电动化的分析之外,其实我关注了几个事情,一个是强调智能化,最后一章强调的智能化,中汽中心和东风汽车联合在写的这本书。另外一个让我印象非常深刻的是,电动汽车产品的整个评价体系,这里面 28 项里面有一项就是产品智能化的程度,他的打分权重是 4.53,智能化的水平和产品的竞争力系息息相关的,所以这个也是让我感觉到,为什么现在市场上电动汽车分成两个极端,一个是极便宜,就是补贴之后极便宜。另外,特斯拉,我们讲未来或者讲电咖这样的车也叫电动车,两个差在什么地方?一个是用户不一样,一个是成本不一样,一个是体验不一样,另外一个是,大家拿到他向别人讲的时候心里面感觉不一样。所以这个过程我们就在想,百年汽车,30 年基本上没有发生过太大的变化,而这两三年比过去 30 年可能迭代速度都要快,有可能主机厂未来再也不是这样一个生态圈里面的核心,但是谁能说绝对。然后大家再看这个汽车的基因,可能已经从汽车的品牌到汽车的内外饰,到汽车那个 LOGO 之外,更关注了车内的这套智能系统的体验。是不是现在真正到了每一台车都应该来追求智能化?追求联网?追求我们的服务体验?追求软件效果这个阶段?所以讲智能网联,我认为智能化是要充分强调的,智能其实对应的是我的体验,但是网联其实是个基础,可能未来每一台车都是联网的,可能未来每一台车都需要有辅助驾驶的,可能未来每一台车都是需要有一个在车内好用的语音交互系统或者人机交互系统,这是基础,之上的是什么?我们可能随着消费升级,随着汽车整个服务链条的变革变的更宽,网络化结构,我们在车内确实有这个时间花费,确确实实是充分的跨场景的产品。这个时候我这个汽车品牌和其他汽车品牌,向用户提供的整个服务链条和服务网络的差异,将会变成汽车厂商重要的差异化的基因。


我们就谈这个基因里面重要的一个交互,人机交互从语音这个点上来讲,一定是跨产业协同的一个事情。刚才黄总多次提到了协同创新,这个名字其实后面是一个专业结实的一套体系,这里面我要再强调的是,在过程之中,在智能汽车发展的过程之中,随着智能汽车驾驶状态的变化,给人在车内连续的自由时间释放,他决定了这个车的智能化的评价等级,而这个过程之中,在车内怎么样让人感觉到一个值得投入时间的服务体系建设,他决定于很多方面,我的内容服务,我的汽车的品牌服务,我在车内的舒适程度,我跟其他汽车的交互关系,这绝对是一个充分协同的创新国家。
智能化和网联化,最终是服务给人的。车上那个人用交互的方式来智能化和网联化体现的结果和内容和数据,所以我们这里强调交互,是结合着整个产业链的发展状态,我们来强调交互是一定要被重视的,而且在这个过程之中每一个主机厂从产品规划的前期就要考虑到三个融合。我们原来只讲云和端一体化融合,现在我们来讲三个融合,一个是软硬融合,一个是叫情感融合,情感指的算法,感是指的传感器,硬件系统一旦成型,软件系统的迭代空间基本上就被锁定了,我们既要考虑成本,又要考虑冗余,也要考虑整个生命周期之内这台车应该跟用户之间形成什么样的服务连接,第三,就是云端一体化。
车的生命周期、开发周期是 2 — 3 年,现在快的基本上强调说 26 个月、28 个月,基本上我们认为是 3 年能够出一个车,但是软件迭代速度可能是半年,按照车规级的审核流程标准可能至少是 3 个月,所以车的整个生命周期里面我们要迭代多少次?我们为什么迭代?每次硬件研发和软件研发我们应该怎么样设计整个流程。现在大家在整个采购体系和供应链的关联关系里面,并没有给软件和服务留出来充足的可以具有弹性发挥的空间,这样一个过程其实并不是大家开个会讲几句,或者从顶尖的领导那儿说了几句话之后就马上成型的,每个车厂内部的体系变化,是不是允许软件试错,是不是允许在 OTA 的过程里面我们真正形成快速迭代,哪些是会灰色空间,哪些是绝对转变,到底是一个账号系统、一个用户、还是一台车,围绕这个车、这个生命周期会有很多的变化,我们要不要去把握。其实这里面都是需要深度思考的问题,并不是一个简简单单单一的技术决定的问题,而是全产业链、全内部系统全面改进的过程。
我们的交互现在有几点:第一,一句话能搞定的事不要让它麻烦。第二,它能够主动去说的事不要让他主动问。第三,绝对不应该因为炫技而导致了多于零点几秒的思考。我们这里面肯定有人在做手势识别,肯定有人在做触板或者手写的,OK,都没有关系,我们现在强调的是安全和效率,刚才朱老师说安全是 1,其他都是 0,只有 1 做好了后面才值钱,这个过程我们就是希望大家在过程之中炫技是基于那个安全的 1,这个时候语音的交互可能在车内用用户省下来的可能是两三秒钟触屏、两三秒钟的一些操作,好用我们就用,不好用,比如控制一些我们已经用一个按键点一下很轻松解决的动作的时候,我们是坚决反对的,除非车身主动交互过来的,说你要不要现在我开个窗户给你吹吹风,只有这样子我们认为才是舒服的,而不是非炫技说怎么样,这个过程就是用技术来让我们更安全、更舒服。


人性,千人千面,我可以随意定义我喜欢的那个角色,他知道我喜欢什么,他会给我推荐一个角色,我喜欢简单,就不要让我们每一次都要要选择是与否才做下一个动作。所以我认为这个过程就是,这几点决定着这样一个系统是不是真的够聪明、够智能、够有温度。
我们这些年确实在车内为整个汽车行业提供非常多的语音交互核心技术,全链的技术,这里面我们强调的是,如果有一点打红灯,你整个一套东西都是坏的,比方说降噪,重要不重要?非常重要,听不清楚的时候怎么可以能够去懂得它的意思。合成重要不重要?非常重要,我听的不舒服、不像人,或者你的声音确确实实有很多瑕疵。还有就是,声音识别每次做声音支付,每次做一些具有私秘属性开关的时候,你老是打不开,那没用,我会选择指纹识别,每一点都要打到黄灯以上,最好全部都是绿灯。就是因为这里面每一项我们都认为是相互关联的,只有把它做在一起,系统的做好它,才有可能把整个体系做好。
我们现在每一年为前装的车提供这样一套汽车语音交互系统,已经超过了 400 万,去年的时候将近 300 万,今年应该超过 400 万,这 400 万台车,因为有一些不是联网的,没有办法迭代,逐渐多的是联网的车辆强调语音交互要好用,我们现在都是可以能够形成,下一代产品都是可以形成 OTA 的。
这是面向未来,我们希望一方面,这个车越来越理解路,另外一方面,应该越来越理解人,我们现在重点强调的是这个垂直方向,这种从理解人的角度来解决对人的关怀,然后对人的服务。因为自动驾驶大家都在做,我们也是希望,我们也投资了一些科技公司,这个过程我们通过协同关系,我们希望在自动驾驶不一样的车上我们提供什么样的 HMI,提供什么样的交互、服务、内容,当时朱老师这边有一个团队出了一张图,5 级自动驾驶,不同驾驶状态对应人的时间,对应不同的 HMI,对应不同的连接方式,那张图我们受益匪浅,我们也觉得这个过程要综合考虑的。为了这样一个事情能够推进,我们从语音交互的单点上持续的往下投入、深入,首先是车内的多麦,是可以在不同的车坐的位置上唤醒打开车,为什么?因为车内有 4 个麦克风,后面可能会有 6 个甚至更多,他会在不同位置的人在讲话的时候我选择识别。
在车内未来可能是多人,多人同时讲话我应该怎么样输出,现在我们不但要做好语音的交互,还要做好声音的输出,现在我们已经构建了一个中国最强大的音效,我们希望能够把车内的音效也统一设计进来,因为它跟语音非常像。原来大屏化,让好多车卖了很多钱,未来车内的音响也决定了车的水平,卖的贵的 5% 是好卖的品牌,这里面有非常非常多通过声音的品质能够提升车的品质感受,这个过程一方面决定着车的体验过程,另一方面,他决定着语音交互的质量问题,所以我们把它全面构建起来。
从能听会说到察言观色,因为视觉和声音是相辅相成的。我们现在因为看不到外部、周边一些障碍物,造成了更多的经济损失,这个时候其实察言观色是我们认为要把车做成聪明的下一步,而不是去盲目的构建出来 L3、L4、L5,那个是我们投资的一部分,现在我们自己内部要把视觉和听觉交互,充分的结合在一起,在一些场景上面表现出来结合在一起的那些深度优势。


我们现在构建的是 AIUI+iflyOS,两个系统融合的汽车智能系统,这个系统我们用 iflyOS 可以打通所有的智能硬件和智能生态,AIUI 决定着我们的交互品质对于车辆控制的深度,是不是真的能够说一个非常随意的话,而车理解了你,这是决定着 AIUI 的,是不是从家里面有一个控制的单元可以跟我车连接起来,这是决定 iflyOS 的。
车联网平台我们现在逐渐已经构建起来了,给 7 个车厂做 Tier1,所以构建了整个生态链,我们有四五十个已经集中在这样一个平台下面,有一些 IOT 的控制单元已经集成上来。昨天刚刚发布的北京绅宝的,提供了完整的车机到车联网平台。未来其实汽车会覆盖我们每一个场景,我们还有很多新的技术,像随心听,因为这是我开车的状态、结合路面的状态、结合天气的状态推荐音乐,后面还有酷狗音乐、QQ 音乐这样的生态。汽车智能手册,一定是解决一些问题,把 5 本书学成一个大脑,包括维修手册、购买手册、使用手册、配件指南等,这五本书形成一个智能体系,人问车你怎么了,车比人更懂得自己,更知道我需要什么样的服务、更需要什么样的配件,直接构建 O2O 的商业模式。
车和家的连接,我们都讲故事,我们用自己中立的模式打通更多的已经建立起来的外部生态。还有养护方面。UBI,别人都会讲故事,我不讲,我认为一定要把它做好,因为信息不透明,构成了当时社会总成本变高,类似二手车,类似于保险,类似于维修配件,好的科技会让消费变得更高、变得更频繁,而不是让社会总成本变高的同时又人觉得吃亏,这是不一样的商业逻辑。所以当车变成一个智能化的传感单元,他有 10 年的生命周期的时候,他身上带的信息量、数据量可能会比任何一个我们原来出现过的智能终端都要大,而且商业价值还要更大。他的消费从售前端到生命周期的后端,他的消费比例已经在转移,怎么样设置这个消费比例的转移,这些都是一个一个要解决的问题。而且还有传统产业链里面这么多从业者、这么多相关者怎么联通这个关系。
讯飞从金融到呼叫中心、到银行、保险,还有很多很多行业,我们也建立了自己的子公司客服家园,每个月的呼入呼出总量超过了百万字,原来一个省级的呼叫中心 2000 人的规模,运营商,而这样一个人工智能的客服中心每个月可以有千万的用户,大家有的时候接到电话可能有骚扰电话,一接起来好像声音很甜,那全都是机器,这个过程就是通过机器挑选商机获客,后面有一个漏洞通道,把真正原来感兴趣或者有交互人的信息传递下去再去追踪,这是人机耦合的结果,所以人工智能能够帮助前端提高效率。同时他的质检系统,也不用人听了,能够把全部的数据跑完,而且能够筛选当天的质量问题还有其他的问题,这个 400 的电话改造、800 的改造,现在已经在跟一些厂商合作起来了。
在这里做一个小广告,我们下个月 10.24 会在合肥,我们已经连续办了三年,今年可能是万人规模,在合肥我们会召开汽车开发者的生态大会,我们希望借助讯飞,把我们对于一些技术的理解、生态整合的优势,因为现在从线上我们已经有了 80 多万的开发者,有 50 多万上线的开发应用,也是我们现在每一年有几百万的装车量,我们有上百号的汽车合作伙伴,一系列战略合作伙伴,我们希望把这样一个平台构建起来,一开始我们可能请到一些产业发展基金结合我们自己的投资模式,把这样的生态整合起来,利用讯飞和汽车厂商以及大家的协同创新能力,真正为汽车用户构建一个跨平台、跨生态,能够为企业追求极致的服务链条。大家如果后面看到这样的报道,欢迎大家报名参加,也欢迎随时找我。
谢谢大家!
敬请关注盖世汽车 "2018 全球未来出行大会——智能网联核心技术论坛 " 直播专题:
PC:http://auto.gasgoo.com/NewsTopic/136.html
移动:https://m.gasgoo.com/news/topic/136
提示:本文根据发言整理,未经嘉宾审核,请勿转载!


收藏收藏

这是一种鼓励!你懂的~

×

打赏支付方式:

打赏

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则





亲,赶快加入我们吧!
X
0514扬州网X

0511.net镇江网 分享生活 温暖你我

0511.net镇江网|镇江大小事,尽在镇江网! 镇江网由镇江亿速网络科技有限公司组建。镇江网汇集了镇江本地新闻信息,视频专题、国内外新闻、民生资讯、社会新闻、镇江论坛等。镇江网是镇江地区最具影响力的综合性门户网站,是镇江人浏览本地新闻的首选网站。...

点击查看详情 
快速回复 返回顶部 返回列表
友情链接