通过API调用进行测试kaiyun全站APP登录官网(kaiyun)登录官方网站

近日，豆包大模子在火山引擎原能源大会上负责发布。以超廉价钱掀翻大模子降价潮的同期，豆包的模子才能也激勉行业怜惜。

在火山引擎的一份居品尊府中，豆包模子团队公布了一期里面测试效果：在 MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上，Doubao-pro-4k 的总分为76.8分，比拟上一代模子云雀Skylark2 的64.5分提高了19%，也优于同期测试的其他国产模子。

这次评测在本年5月完成，主要包括豆包通用模子-pro、云雀Skylark2 在内的九款国产大言语模子。除了云雀Skylark2 除外，其他模子均为各家厂商最新发布的高等版块，通过API调用进行测试。

图：豆包模子团队里面测试效果

评测效果浮现，在评估代码才能的两个评测集 HumanEval 和 MBPP 上，豆包比拟上一代模子提高了50%傍边；在专科学问和提醒罢职的评测集上，豆包辞别获取33%和24%的性能提高，同期亦然得分最高的国产模子。

此外，豆包模子在数学才能、言语默契才能，以及概括评测集 CMMLU 和 CEval 的评测上也有可以的阐扬，得分排在前三。概括11个公开评测集上的测试收获，豆包通用模子-pro的总分为76.8分。凭证OpenAI公布的测试收获，GPT-4在这些评测集上的总分为80.1分，比拟国产模子仍有一定率先上风。

据悉，豆包模子在5月15日刚刚推出，尚未加入到第三方机构测试中。展望将来一到两个月内，许多第三方评测机构将会连续浮现该模子的评测效果。与模子同名的AI对话助手“豆包”，官方公布的月活用户数如故达到2600万，用户可以解放体验测试。

此前，智源策动院公布了隐藏环球91个言语模子的评测证实。在偏重历练汉文才能的主不雅评测中，云雀Skylark2 排行第一，汉文才能朝上 GPT-4。

图：智源策动院言语模子评测效果（模子为4月20日之前的版块）kaiyun全站APP登录官网(kaiyun)登录官方网站

　　声明：新浪网独家稿件，未经授权辞谢转载。 -->

上一篇：Arm将在本年晚些时候推出下一代高性能超大核架构IOS

下一篇：本届大会以“翻新链与产业链共生IOS

通过API调用进行测试kaiyun全站APP登录官网(kaiyun)登录官方网站

区域发展