为何同一个中文大模型，不同评测标准打分差异大？

作者：见智研究Pro

发布于:2023-05-10 16:59

雪球

转发：0

回复：4

喜欢：6

5月9日中文通用大模型综合性评测基准SuperCLUE正式发布。经过一天时间的发酵，论坛上对该评测标准质疑的声音越发多了，这是为什么？大模型评测标准设立的难度又在哪里？

中文评测标准为何重要？

科大讯飞董事长刘庆峰认为：如果要努力追赶OpenAI的进度，需要一套科学系统的评测体系；用这一套科学系统，来判定技术迭代到底到了什么程度，还有哪些任务是不达标的。

市场看重中文大模型评测标准主要基于三方面考虑因素。

第一、数据集的差异性。中文和英文的文本数据集在种类、规模、质量等方面存在很大的差异，需要针对中文特点开发相应的数据集，以确保评测结果的准确性和公正性。

第二、语言结构和语法的差异。例如中文是一种“主谓宾”结构的语言，而英文则是“主语动词宾语”结构的语言。这些差异导致了中英文之间在语言处理任务上存在很大的区别，需要不同的评测标准和方法。

第三、中文词汇量和歧义性。中文的词汇量非常大，而且存在很多歧义性，需要更复杂的处理方法和技术，如分词、词性标注、命名实体识别等。

华尔街见闻·见智研究认为：中文大模型评测标准的重要性在于它可以帮助厂商相对客观地评估模型的质量和性能，比较不同模型的性能和差异。更重要的是标准化的评估方法和数据集能够为开发者提供很好的方向，促进模型迭代速度。

此前，IDC发布的大模型评测标准，从三个维度（产品能力、应用能力和生态能力）、6个一级指标和11个二级指标来评估中国大模型的能力。

并且给出结论：文心大模型在产品力和生态能力上都超过平均分水平。但是由于评测方法没有完全公开，貌似并没有被市场所完全认可。

所以，在大模型层出不穷的当下，市场上非常需要对模型的评估方法和一致性标准。

但从当下来看，这貌似又是一个在短期内非常难以兑现的预期。

中文大模型评测标准化很难，SuperCLUE被吐槽选择题方式单一

刚刚发布的文通用大模型基准（SuperCLUE），是针对中文可用的通用大模型的一个测评基准。它主要回答的问题是：在当前通用大模型大力发展的情况下，中文大模型的效果情况。

SuperCLUE从三个不同的维度评价模型的能力：基础能力、专业能力和中文特性能力。

基础能力：包括了常见的有代表性的模型能力，如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等10项能力。

专业能力：包括了中学、大学与专业考试，涵盖了从数学、物理、地理到社会科学等50多项能力。

中文特性能力：针对有中文特点的任务，包括了中文成语、诗歌、文学、字形等10项多种能力。

以SuperCLUE测试结果来看，文心一言的评测结果远不如星火大模型；

而以另一种比较火的评测标准是JioNLP

，该评测是由中国科学院计算技术研究所自然语言处理与社会人文计算实验室（简称“计算所NLP”）开发和维护的。

JioNLP评测还提供了多种评测指标和计算工具，以帮助研究者和开发者客观地评估模型的性能和效果，并比较不同模型的优缺点和适用范围。

JioNLP评测方式目前的总下载量达到2.4万次，近三十天下载量为1634次。

通过JioNLP评测，研究者和开发者可以获取实时的评测结果和排名，以及相应的源代码和技术报告，为中文自然语言处理的研究和应用提供参考和支持。

从JioNLP评测的结果来看：文心一言的得分却又高于星火大模型。

这背后的原因是

两种评测的方法的设置有很大的差异性。

SuperCLUE是只通过选择题对模型能力进行测试，而JioNLP采用的是客观选择题+主观题（生成题、翻译题和聊天题）进行测试。

但相同的是，在官网留言区对于两个测试标准都出现很多质疑声音。

如：对SuperCLUE评测方法如何限定测试题目数量，生成和创作类评测用选择题测试是否合理，以及建议SuperCLUE像中文Alpaca一样适度公开评测说明和标准。JioNLP也同样存在测试精度、样本量小等问题。

见智研究认为：当下对大模型的评估方法和指标还有形成共识、更没有统一的标准出现，特别是对于不同场景和任务可能有不同的评价体系和需求出现。

常用的机器学习模型评估标准有7个比较重要的方向：

包括准确度（针对分类能力）、精确度和召回率（模型正确预测的内容占该样本的比例）、对抗攻击鲁棒性（模型在受到输入干扰时保持稳定的能力）、计算效率、均方误差、R方值以及数据隐私。

从当下来看，SuperCLUE的评测方式单一性确实存在一定的弊端，但是该模型采用的人工评价的精度也曾被市场认可确实在精度和灵活度上面高于系统的自动评价方法。

总的来说，大模型测试标准化是行业所需要的，但同样也是非常难实现的。

$科大讯飞(SZ002230)$ $百度(BIDU)$ $昆仑万维(SZ300418)$

欢迎大家在评论区评论互动～

关注见智研究Pro，获取更多行业热点解析

全部讨论

2023-05-10 19:57

不知道阿里的通义千问开发的怎么样，我申请不到内测资格

吉祥如意章鱼王

2023-05-10 17:26

吉祥如意章鱼王

2023-05-10 17:25

吉祥如意章鱼王

2023-05-10 17:25

玻璃钢生产厂家赣州多彩玻璃钢雕塑批发扬州玻璃钢雕塑生产厂家曲阳玻璃钢雕塑安羊北京大型玻璃钢雕塑优势陕西大型玻璃钢雕塑销售厂家制作玻璃钢雕塑报价多少钱遵义商场美陈定做合肥高品质玻璃钢雕塑规格尺寸贵州定制玻璃钢雕塑方法玻璃钢雕塑工艺品吧台安阳铜玻璃钢人物雕塑生产宁夏大型玻璃钢雕塑杭州玻璃钢人物雕塑加工价格广顺玻璃钢雕塑兴山玻璃钢造型雕塑甘肃大型玻璃钢雕塑哪家好余杭区玻璃钢雕塑公司儿童玻璃钢雕塑制作宁波现代人物玻璃钢雕塑七夕商场布置美陈白山玻璃钢雕塑价格上海耐高温玻璃钢雕塑性价比高玻璃钢桃子雕塑售价亳州特色玻璃钢雕塑优势乌鲁木齐气球商场美陈装饰梅州透光玻璃钢雕塑制作德阳商场美陈布置舟山方形玻璃钢花盆浅谈艺术壁饰在商场美陈的应用北京户内玻璃钢雕塑市场香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤司机系学生 315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人？张立群任西安交通大学校长杨倩无缘巴黎奥运 “重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身！外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒投喂者赔24万房客欠租失踪房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫：哈马斯三号人物被杀测试车高速逃费小米：已补缴老人退休金被冒领16年金额超20万

玻璃钢生产厂家 XML地图 TXT地图虚拟主机 SEO 网站制作网站优化