美团发布UNO-Bench多模态模型基准测试平台,LongCat统一赋能

美团发布LongCat UNO-Bench,这是一个统一的多模态模型基准测试平台,该平台的推出旨在提供一个标准化的测试环境,便于评估不同多模态模型的性能表现,通过UNO-Bench,模型开发者可以方便地测试和比较他们的模型在各种应用场景下的表现,从而推动多模态模型技术的不断进步,此举有助于促进人工智能领域的发展,提升模型的实用性和性能。

美团longcat团队发布了uno-bench,这是一个用于评估多模态大语言模型统一能力的综合性基准测试。

美团发布UNO-Bench多模态模型基准测试平台,LongCat统一赋能

该基准致力于系统化衡量模型在单模态与全模态理解方面的表现,覆盖44种任务类型以及5种不同的模态组合,并通过实验揭示了全模态性能与单模态能力之间的组合规律。

美团 LongCat 发布 UNO-Bench,统一的多模态模型基准测试

据悉,UNO-Bench包含1250个经过人工精心筛选的全模态样本(跨模态可解性高达98%)和2480个增强型单模态样本。其中,人工构建的数据集更贴近真实应用场景,尤其适用于中文环境;而自动压缩版本则提升了90%的运行效率,在保持与原始数据一致性的前提下,在18项公开基准上实现了98%的结果一致性。除了传统选择题外,团队还提出了一种新颖的多步骤开放式问题形式,以评估模型在复杂推理任务中的表现。这一形式结合了一个通用评分模型,支持对6类题型进行自动化评估,准确率高达95%。

美团 LongCat 发布 UNO-Bench,统一的多模态模型基准测试

目前,UNO-Bench主要聚焦于中文场景,团队正积极寻求合作,推动英语及多语言版本的开发。UNO-Bench数据集已发布于Hugging Face平台,相关代码、论文及项目详情均已开源。

https://www.php.cn/link/455c8959885c1b38871319571e9ab72c
https://www.php.cn/link/36a213dec58f9ae20b81cd14d3358981
https://www.php.cn/link/db17bc578c383f5bb0cb9be70c42331c

网友留言(0 条)

发表评论