国内大模型评测数据集（MMCU）问世加速完善国产AI产业图谱

定数据评测案例的展示，其数据样本远远不足以及掺入了厂商的主观意愿，导致现有数据资料不足以展现各大厂商之间大模型技术能力之间的差异性，也使得用户很难真正了解各家技术能力的优势所在。在这样的背景之下，许多优秀的国产大模型被淹没在这种噪声当中，严重制约了国产大模型乃至人工智能产业的发展。因此，如何发现大模型的缺陷，以及如何更好地理解包括中文在内的人类语言文本？.....这一系列问题摆在了当下以ChatGLM、MOSS、文心一言、通义千问、商量、星火等众多具备中文能力的大模型厂商面前。

　　鉴于国外率先开启了大模型研究，针对英文大语言模型已经有较为完善的评测方式，如2021年由Dan Hendrycks等人发布的MMLU。然而针对中文大语言模型，却仍处于空白。需要指出的是，国外的很多机构研究发现，数据量与分布对于训练模型的配比方式非常重要，Common crawl这种大数据集语言分布是不均匀的，英文占了46%，中文只占了5%。这样配比导致后续的大模型进行参照训练时，会发现在中文语料缺失的情况下，中文的理解能力是欠缺的，国内研究机构和人工智能企业都在去增补这些中文语料来提升中文能力。

　　与此同时，对理解中文的大语言模型及时加以客观公正的评价，使其“越”来越强大，也成为了当务之急。因此，甲骨易推出“超越”MMCU数据集恰逢其时，通过综合评估模型在多个学科上的知识广度和深度，能够帮助研究者更精准地找出模型的缺陷，并对模型的能力进行打分。

　　“把大模型当成一个真正的人类”

　　在分享过程中，来自甲骨易AI研究院的研究员Felix坦言，要评价这些大语言模型的基础能力，实际上是一个非常难以解决的问题。甲骨易凭借多年数据服务行业探索的技术优势，率先推出的针对于中文预训练大模型的大规模多任务评测数据集以及相应的评测方法，旨在衡量中文大模型在处理众多任务上的准确度，主要覆盖医疗、法律、心理学和教育四大领域，题目形式涵盖单项选择和多项的选择题，共包含11900个问题。

　　“我们是把大模型当作一个真正的人类来看待，”Felix如是说，测试集之所以涉及语、数、物理、化学这些科目，因为人工智能必须像人类一样，具备对于世界的基础的认知；而医疗、法律、心理学专业领域则是将大模型视为专业人士进行考核。通过对多领域知识广度与深度的测试，甲骨易AI研究院可以帮助技术研发人员发现大语言模型在哪些领域有缺陷，或者说可能在其整体上都有缺陷。

　　沙龙上，中国科学院大学网络数据重点实验室的咸宁先生则针对MMCU测试集的使用情况进行分享，解释了测试数据集的分析原理，对几大模型的测试成果进行了展示与客观分析，并指出了超越MMCU测试数据集当下尚存在一些亟待解决的问题。

　　通过发布会召开前开展的大模型测试发现，在本应有明显优势的语文科目中，国产大模型的表现却差强人意。Felix指出，现在很多模型评估还是处于人工评估阶段，甲骨易推出“超越”MMCU数据集的初衷是希望实现对大模型进行大规模的评估。当下的评测结果可能存在随机误差，但未来还将持续优化评测方式并扩充评测领域。

　　携手共建，未来可期

　　自ChatGPT的惊艳亮相，人类生活的方方面面已发生了巨变。大模型仍有许多难关亟待解决，借助超越MMCU评测数据集，一举打破市面上所有的大语言模型只能基于英文数据集去进行测试的现状，中文大语言模型将有望构建起一个完善的评测的体系，通过发现提升大语言的缺陷提升大语言模型对于中文的理解能力，更好地服务于全球的中文用户。

　　“大模型的训练以及大规模评估需要大量算力。”甲骨易AI研究院最后表示，愿与业界更多机构联手，一道携手推