现在市面上的大模型越来越多,选择多了也可能成为一种幸福的烦恼。
如何选择一个好模型?
在机器学习中,通常会使用一些评估指标来选择模型,例如,用精度、召回率、F1等指标来评估一个分类模型的性能;使用IOU,AUC等指标评估目标检测和分割模型的性能。
同理,大模型也有评估指标。
质量:大模型的指令跟随以及推理能力,例如,通用推理能力,或者具有某一方面的编码、数学推理能力。
性能:大模型的反应速度和记忆能力,例如,每秒输入、输出token数、上下文长度。
价格:大模型API调用计费,例如,每1M tokens多少刀。
我们当然希望能有一个模型各项指标都第一,但这是不现实的,就像分布式系统中CAP三个属性最多只能同时满足两个一样,大模型的评估指标之间,通常也存在相互制约关系,
例如,如果提升了上下文长度,那必然会导致反应延迟以及更多计算存储资源的消耗。
例如,如果想让其具备某一领域的特长,就可能会损失一定的通用推理能力。
例如,如果通过增加模型参数来增强模型推理能力,那么推理成本就会增加,就会上调API调用价格。
所以,在实践中,最常见的做法将所有大模型都摆到明面上,通过量化指标展示各自优缺点,然后让用户结合自己的需求来进行选择。
今天给大家介绍一个大模型统计网站。
它通过可视化方法将市面上常见的大模型的性能指标进行了量化分析、统筹比较。
例如,昨天OpenAI进行了产品升级,GPT3.5成为历史,取而代之的是GPT-4o mini,官方数据显示GPT-4o mini具有超快的响应速度,同时兼顾推理能力和极低的API调用成本。
接下来,通过该网站的统计数据看看是不是这么回事。
通过数据可见,其推理速度第一,API计费仅次于开源的llama 3,更重要的是并没有因此牺牲太多的推理能力。
如果想兼顾模型质量、推理速度和价格,就要将所有模型放到同一个坐标系下,坐标系下横轴是推理速度,纵轴是模型质量,点的大小代表价格。最理想的当然是靠近右上角且小点的模型。
兼顾模型质量、上下文长度和价格。
兼顾推理速度和价格,越靠近左上角的模型质量越好。
不同大小输入token下的输出速度对比。
该网站还对不同组织旗下的大模型进行了汇总。