豆包大模型披露评测成绩,较上一代“云雀”提升19%
2024-06-10
40133
华尔街见闻获悉,在火山引擎的一份产品资料中,豆包模型团队公布了一期内部测试结果:在 MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上,Doubao-pro-4k 的总分为76.8分,相比上一代模型云雀Skylark2 的64.5分提升了19%,也优于同期测试的其他国产模型。
此次评测在今年5月完成,主要包括豆包通用模型-pro、云雀Skylark2 在内的九款国产大语言模型。除了云雀Skylark2 以外,其他模型均为各家厂商最新发布的高级版本,通过API调用进行测试。
据悉,豆包模型在5月15日刚刚推出,尚未加入到第三方机构测试中。预计未来一到两个月内,很多第三方评测机构将会陆续披露该模型的评测结果。(全天候科技)
声明:本网所登载内容出于更直观传递信息之目的。该内容版权归原作者所有,并不代表本网赞同其观点和对其真实性负责。若有来源错误或者侵犯您的合法权益,请及时通过邮箱rwzbs@126.com与我们联系,我们会及时反馈并进行处理。
本页链接:http://todaychina.zgshjdw.com/a360902-show/news-29075.html