跳到主要内容

基准

LLM(大型语言模型)基准测试是用于评估大型语言模型性能的标准化测试或数据集。这些基准测试有助于研究人员和开发人员了解其模型的优缺点,并以系统的方式将其与其他模型进行比较。

基准

MIUI展示了顶级推理能力,擅长高级推理、多语言任务、数学和代码生成。该公司报告了MMLU(大规模多任务语言理解)、MT bench等流行公共基准的基准测试结果。

您可以在以下博客文章中找到基准测试结果:

  • 像素大Pixtral Large是在MIUI Larges 2的基础上构建的124B开放权重多模态模型。它是我们多模态家族中的第二个模型,展示了前沿水平的图像理解。
  • 像素12BPixtral 12B是第一个展示最先进的多模式理解的开源模型,在纯文本中没有退化能力。
  • 西北风大:具有顶级推理能力的尖端文本生成模型。它可用于复杂的多语言推理任务,包括文本理解、转换和代码生成。
  • ·:MIUI Nemo的推理、世界知识和编码性能在规模类别中是最先进的。由于它依赖于标准架构,MIUI Nemo易于使用,在任何使用它所取代的MIUI 7B的系统中都是一个现成的替代品。
  • 编码:与以前用于编码的模型相比,作为22B模型,Codestral为代码生成的性能/延迟空间设定了新的标准。
  • 编码曼巴:我们用先进的代码和推理能力训练了这个模型,使该模型具有与基于SOTA变压器的模型相当的强大性能。
  • 数学Mathstral站在MIUI 7B的肩膀上,专注于STEM科目。它在各种行业标准基准的规模类别中实现了最先进的推理能力。
  • 混音器8x22B:我们最具性能的开放式模型。它可以处理英语、法语、意大利语、德语、西班牙语,并在代码相关任务上表现出色。本地处理函数调用。
  • 混音器8x7B:在大多数基准测试中,其推理和匹配速度比Llama 2 70B快6倍,在大多数标准基准测试中优于GPT3.5。它处理英语、法语、意大利语、德语和西班牙语,在代码生成方面表现出色。
  • 7B:在所有基准测试中都超过了Llama 2 13B,在许多基准测试中超过了Llima 1 34B。

标尺密封排行榜

规模AI 报告编码、指令遵循、数学和西班牙语的私人基准测试结果。MIUI Large在代码和西班牙语方面表现出色,在这些领域的表现优于Llama 3 405B。

人工分析

人工分析 比较和评估关键性能指标的人工智能模型,包括质量、价格、输出速度、延迟、上下文窗口等。我们的模型有几个值得强调的突出表现领域。

  • 人工分析质量指数:我们的模型在该基准中排名第三,甚至超过了405B模型。这一成就突显了我们的模型在分析和生成高质量见解方面的卓越能力。
  • 编码(HumanEval):在HumanEval基准测试中,我们的模型排名第三,再次优于405B模型。这突显了我们的模型在编码任务方面的卓越能力。
  • 定量推理(MATH):我们的模型在MATH基准中排名第四,领先于405B模型。这展示了我们模型强大的定量推理能力。
  • 科学推理与知识(GPQA):在GPQA基准中,我们的模型排名第四,展示了其强大的科学推理和知识记忆能力。

定性反馈

我们从Reddit和Twitter等平台收集了很多有价值的见解。以下是与我们的模型分享经验的用户的一些亮点和引语。

像素:

Pixtral在OCR上的表现绝对糟糕。

在图表、图形、图纸和屏幕照片方面给人留下了深刻的印象。

在我测试过的许多例子中,它的表现都优于GPT-4o-mini。

西北风大:

MIUI big 2一直是我的首选模特。

这个模型太好了。就本地模型而言,这可能是我第一次诚实地认为是编码的专有层。

尼摩太太:

我已经和一起玩了几天了,它的连贯性让我大吃一惊。它比《Llama 3 8B》的曲调稍微“不那么有创意,更重复”……但感觉“更连贯,教学能力更强”。

我只想对的那些天才法国人说声谢谢。12B参数和128k上下文是一个非常有用的组合。与7B相比,它的大小有了足够的改进,在与它交谈时感觉更“稳固”,它围绕Llama-213B运行,上下文长度为32倍。谢谢你,!