通过API调用进行测试kaiyun全站APP登录官网(kaiyun)登录官方网站

近日,豆包大模子在火山引擎原能源大会上负责发布。以超廉价钱掀翻大模子降价潮的同期,豆包的模子才能也激勉行业怜惜。

在火山引擎的一份居品尊府中,豆包模子团队公布了一期里面测试效果:在 MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上,Doubao-pro-4k 的总分为76.8分,比拟上一代模子云雀Skylark2 的64.5分提高了19%,也优于同期测试的其他国产模子。

这次评测在本年5月完成,主要包括豆包通用模子-pro、云雀Skylark2 在内的九款国产大言语模子。除了云雀Skylark2 除外,其他模子均为各家厂商最新发布的高等版块,通过API调用进行测试。

图:豆包模子团队里面测试效果

评测效果浮现,在评估代码才能的两个评测集 HumanEval 和 MBPP 上,豆包比拟上一代模子提高了50%傍边;在专科学问和提醒罢职的评测集上,豆包辞别获取33%和24%的性能提高,同期亦然得分最高的国产模子。

此外,豆包模子在数学才能、言语默契才能,以及概括评测集 CMMLU 和 CEval 的评测上也有可以的阐扬,得分排在前三。概括11个公开评测集上的测试收获,豆包通用模子-pro的总分为76.8分。凭证OpenAI公布的测试收获,GPT-4在这些评测集上的总分为80.1分,比拟国产模子仍有一定率先上风。

据悉,豆包模子在5月15日刚刚推出,尚未加入到第三方机构测试中。展望将来一到两个月内,许多第三方评测机构将会连续浮现该模子的评测效果。与模子同名的AI对话助手“豆包”,官方公布的月活用户数如故达到2600万,用户可以解放体验测试。

此前,智源策动院公布了隐藏环球91个言语模子的评测证实。在偏重历练汉文才能的主不雅评测中,云雀Skylark2 排行第一,汉文才能朝上 GPT-4。

图:智源策动院言语模子评测效果(模子为4月20日之前的版块)kaiyun全站APP登录官网(kaiyun)登录官方网站

  声明:新浪网独家稿件,未经授权辞谢转载。 -->