产品评估值小米12s测评视频评测视频脚本产品五大层
信息来源:互联网 发布时间:2023-05-20
TiD2019质量竞争力大会邀请到腾讯高级研究员柴华为参会者带来《智能语音助手产品和服务的评测探索》的精彩演讲
TiD2019质量竞争力大会邀请到腾讯高级研究员柴华为参会者带来《智能语音助手产品和服务的评测探索》的精彩演讲。
柴华分享的内容主要分为以下四个方面:第一,为什么要做AI评测及什么是AI评测;第二,如何评价AI系统的能力;第三,如何做更细粒度的评测;第四,如何挖掘并消灭badcase。
首先,AI的模型对我们来说是一个黑盒。黑盒很难判断出应该识别什么以及不该识别什么,也就是说AI真的不是神,甚至不如一个人,无法使用AI完全正确的完成测试。AI评测可以给用户和客户交付AI能力的持续保障。
第二,AI提供服务的对象一般主要是做ToB服务,无法直接获得用户行为状态。而AI评测可以通过线上监控,了解用户的真实状态。
第三,产品经理必须关注AI。一个关注点当前水准是什么样?下一步是怎么样能够更好?这是产品关注的事情,但是产品完成事情需要借助一些评测的力量帮助产品来了解下一步做什么?AI评测可以通过持续跟踪,帮助产品确定优化方向,更好地迭代提升。
第四点,开发技术人员需要知道用什么达到理想效果,什么样的技术更适合在什么样的场景下。AI评测可以通过多个项目的积累,提供出技术选型建议。
关于评。第一个是依据市面上流行的AI产品标准对AI产品进行评级认证;第二个是对AI能力的有效度量。第三是对AI服务的用户满意度。
关于测。测主要是找出AI服务在哪些维度能力偏弱,未能成功完成的样例分析,以及AI能力如何迭代提升。
AI分类包括NarrowAI,generalAI,SuperAI。用智能语音助手举一个例子,智能语音助手简单来说包括三部分,当用户给出语音后,走一个自然语言的对话管理,转换成语音评测视频脚本,最后报出来。
智能语音助手语音识别准确度如何?自然语言的理解能力怎样?是否能给出用户满意的答案?机器的表达和发音是否与人类相似?与相似产品相比优点在哪?劣势在哪?这些都是需要回答的问题。智能语音助手好不好,需要设立一个很大的评判标准小米12s测评视频。这是一件很难的事情。
具体看AI评测的分门别类。首先按评测对象分类,可按产品端评测视频脚本、抽象模块、技术方案三方面评测。评测粒度按概念、举例产品评估值产品评估值、别名评测视频脚本、评测目标、评测指标举例不同程度进行评测。按产品是否上线分类,可分为专业性评测和实用性评测,做到能力评测并观察线上实际服务效果及波动情况评测视频脚本。按评测周期进行分类,可分单次评测、对比评测、时间线评测,按一段时间的指标变化评测。
评测中最重要的一个点就是评测集的构建和管理,这其实是一个很大的课题,评测集首先包括评测资源(Resource)、结果标注(Label)、标签分类(Tag)三种元素。评测资源可以按照会话(Session)来组装,用于保留使用场景的上下文以及会话维度的指标输出。
评测资源(Resource):指用于评测的原始输入数据。比如文本对话系统的原始文本语料评测视频脚本、ASR的原始音频、 TTS的原始语料小米12s测评视频、翻译的原始文本语料。
结果标注(Label):指理想状态下被评系统应当返回的预期结果或者结果候选,一般以人工标注为真值。比 如领域分类中的正确领域真值。
标签分类(Tag):表示对资源细分,用于输出指标时的分类指标统计。比如对话系统原始文本标注单实体、 包含错字等标签,ASR中的性别、年龄等标签。
评价指标,只针对智能语音语义理解这部分,不同模型的评价指标完全不一样,使用较多的指标包括远端获取评价、任务完成率/完成代价等。基于这些指标可以划了一个二维图。指标代表性和指标输出速度都很高的的时候就是最理想的指标产品五大层。但是目前,理想状态还有些空白。
评测的执行过程相对来说比较偏工程化。评测的目的是什么?为了把一个产品从“0”推向“1”,或更优化的迭代,根据不同的目的选取不同的指标,比如要提升线上用户的能力,提升用户满意度。这时只能选线上指标小米12s测评视频,跟用户满意度比较贴近的指标更合理。
柴华简单的介绍了评测执行的工作流。其中,评测建设,评测指标来自于一线,如果对线上一个模型进行评测,就可能需要考虑从线上如何去抽样?获取实际用户的数值。这样有一个摸底评测,在制定一个优化目标的时候必须有一个SR来确定多长时间内的流程可以把目标定下来。整个过程进行周期性的迭代,每隔一段时间做出一个评价,持续迭代这样一个模型。并在每次做完一个指标的输出之后生成分析报告并同步出来评测视频脚本,依据报告来进行badcase分析,回归测试。
不同的模型,不同的业务之间的区别非常大。那么,如何做更细粒度的评测呢?柴华通过一些模型举例,进行了详细的阐述。
根据资源种类不同划分tag,比如对Speech资源分为语音、年龄、性别、语言类型、方言类型等;对于Text资源分为句式产品五大层、语言类型、情感、句法层数(通过语法分析到底有几层语法)、语体类型等。很多label都是借助模型,或机器学习打出来的,但由于对数据的准确度要求并不是特别高产品评估值,故有些许影响分析准确度没有问题。
为什么要划分TAG?首先通过TAG可以计算评测集散度。一个评测值的质量高低也是需要评测的。质量评测通过指标定义一个散度的概念,就是说不同的TAG下,评测值中的分布是否都是该TAG下面的。针对于ASR,如果都针对于二三十岁年轻男性这样一个语音,就可能覆盖不到其他人群,从而认为这个评测值质量不是特别高。
这个系统弱点在于如果宏观只是给一个大的评价指标是做不出来的,此时需要建设资源特征,细化得到丰富的数据属性。
纵向组建分析本质上是对AI系统进行拆建,看看哪一环支持的不好,哪一环支持,如果有一些缺陷,就针对性的修改某一环的问题,比如相对于语音助手可以粗糙划分出来很多很多块。比如第一个是ASR,会同时进行意图分类和模版匹配,意图分类后进行槽位提取,综合两步操作的正确率得出对话管理的正确率,通过一个标准的流程,判断每一块的支持度如何。总结起来即通过优化点,带动面的提升。
模型全局优化的思路,整体是一个闭环,包括以下几个步骤:训练集提升,可使用包括Cross-Validation、Model Bagging等方法;模型技术选型可参考技术选型、快速实验平台等;超参数调优产品评估值,通过贝叶斯优化、Population Based Training等方法;机器延伸学习包括Transfer Learning、Multi-task Learning等方法;进行可解释性研究产品评估值,参考LIME、Layer visualization等理论。
挖掘并消灭badcase是迭代机器学习模型最简单有效的途径。柴华在此部分介绍了一些线上挖掘的方法和思路。
通过头部聚类来发现线上大部分的问题在哪儿?首先如果服务未达到预期可能会产生的结果分为两类:用户产生消极情绪和用户重复发问。针对上述两种情形分别通过用户情绪分析和重复发问检测来提升评测效率。
通过badcase横向归类通过分析表象特征聚焦头部问题,分析用户影响。如ASR类badcase错法可能包括同音不同字、方言口音、噪声误收音、咬字不清等情况;NLU类badcase可能是由于未能理解、意图错误、槽位丢失、服务出错等原因。
通过badcase纵向归因在横向归类中找到的可能出现问题的方面寻找内在因素,如意图错误可能是由于模型泛化能力不足、模版误匹配、训练数据缺失等原因;槽位缺失原因可能是NER未识别或指代消解未完成。通过分析来实现进一步聚焦问题,集中进行模型全局优化及badcase分析优化。
badcase回归测试则是一个反复迭代的过程。首先发现头部badcase,发起评测专项并跟踪修复,修复后回归验证,最后再进行头部badcase检测。通过不断迭代进行优化。
最后,柴华向参会者详细解析了,在NLU评测中帮助领域分类模型迭代提升,让参会者对整个AI评测执行有更直观的体验。
质量竞争力大会,英文名称TiD,是研发创新峰会,由中关村智联软件服务业质量创新联盟主办,中国软件行业协会系统与软件过程改进分会、北京软件和信息服务业协会智能分会协办。TiD质量竞争力大会秉承追求行业高度(Top)、技术创新(innovation)、专业深度(Depth)的目标小米12s测评视频,致力于打造最具影响力的国内软件研发创新者交流平台小米12s测评视频。
免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186