王者,模型,国产,模型,竞技场,评测头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

20款国产大模型角逐“最强王者”

...海人工智能实验室联合魔搭社区推出中国大语言模型评测竞技场Compass Arena，首度集齐国内主流大模型全阵容，阿里通义千问、百度文心一言、腾讯混元、字节跳动豆包、书生·浦语等20款国产大模型出战，角逐中国大模型“最强...……更多

2024-06-02 05:34:00王者,模型,国产,模型,竞技场,评测

GPT-4o mini登顶大模型竞技场，奥特曼：两个月内微调

...刚，GPT-4o mini版迎来“高光时刻”——登顶了lmsys大模型竞技场，和满血版并列第一，还把Claude 3.5甩在了身后。不同于一般的数据集测评，大模型竞技场是用户自己出题、用脚投票的结果，无法通过“刷题”来走捷径，因此更为...……更多

2024-07-25 09:31:00奥特,奥特曼,竞技场,模型,两个,竞技

起猛了，GPT-4o被谷歌新模型击败，ChatGPT官号：大

...2000人匿名投票，Gemini 1.5 Pro（0801）代表谷歌首次夺得lmsys竞技场第一。（中文任务也第一）而且这次还是双冠王，除了总榜（唯一分数上1300），在视觉排行榜上也是第一。Gemini团队的关键人物Simon Tokumine发文庆祝称：(这一新模...……更多

2024-08-05 09:36:00一口,模型,一口气,模型,竞技场,竞技

AI界新晋王者被曝抄袭、作弊、做假，脸都丢光了

（id:SouthReviews）原标题 | 他们抄袭，作弊，做假，却宣称超越作者 | 南风窗记者朱秋雨编辑 | 向由排版 | 菲菲AI大模型大战在2023年爆发后，AI创业者不免感到有些心灰意冷——不管自己的团队如何加班加点，好让产品迭代面世...……更多

2023-12-20 00:10:00王者,抄袭,模型,万物,公司,数据

智源评测体系发布国内外“百模”评估结果出炉

5月17日，智源研究院举办大模型评测发布会，正式推出智源评测体系，发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。本次智源评测，分别从主观、客观两个维度考察了语言模型的简单理...……更多

2024-05-17 17:26:00评测,评估,体系,结果,模型,评测

AI大模型也高考？成绩单出来了，星火综合第一

...湘晨报、量子位等多家权威媒体对近10款国产人工智能大模型进行了高考作文、数学、物理三个科目的评测，并公布了成绩。我们来一起回顾一下：首先进行的是高考作文的评测。在搜狐科技的评测中，三位资深语文教师作为...……更多

2024-06-12 09:29:00星火,成绩单,模型,成绩,高考,综合

字节扣子模型广场，给AI大模型搭了一座擂台

...移动App工场。在小雷看来，字节扣子创造性推出的“模型竞技场”其实也是受到A/B测试方法论的启发，让开发者可以更高效地开发Bot，同时帮助所有大模型更快进化，字节扣子正在邀请更多大模型对其开放 API，加入到其评测范...……更多

2024-06-14 11:40:00模型,扣子,字节,擂台,一座,广场

豆包大模型：让国产大模型具备更强“生产力”

...巡展”首站落地成都。巡展首站活动中透露了字节豆包大模型的最新进展——截至今年7月，豆包大模型日均Tokens使用量已突破5000亿次，平均每个企业客户Tokens日均使用量较5月15日模型发布时增长22倍。国产大模型越来越受到认...……更多

2024-07-29 05:41:00模型,豆包,生产力,国产,生产,模型

阿里云发布通义千问2.5，性能赶超GPT-4 Turbo

...最强大模型。历经一年多追赶，国产大模型终于进入核心竞技场，可与国外一流大模型一较高下。奋力追赶一年，成就最强中文大模型大模型技术爆发一年多，行业竞争态势激烈而又多变。通义千问走了一条最“卷”的路，2023...……更多

2024-05-09 12:00:00通义,阿里,性能,通义,模型,阿里

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonn

...人工智能实验室（GAIR Lab）推出的OlympicArena[1] （奥林匹克竞技场）满足了这个需求。奥林匹克学科竞赛不仅是对人类（碳基智能）思维敏捷性、知识掌握和逻辑推理的极限挑战，更是AI（“硅基智能”）锻炼的绝佳练兵场，是衡...……更多

2024-06-25 09:45:00奥林,奥林匹克,竞赛,模型,推理,能力

国内首个官方“大模型标准符合性评测”公布

...委员会人工智能分委会全体会议期间，国内首个官方“大模型标准符合性评测”结果公布，腾讯混元大模型、阿里通义千问等大模型成为首批通过评测的四款国产大模型的其中之二。据介绍，“大模型标准符合性评测”由中国电...……更多

2023-12-23 15:09:00符合性,模型,评测,标准,官方,模型

AI大模型“国标”首批测试结果公布，人工智能成市场新焦点

12月22日，国内首个官方“大模型标准符合性评测”结果公布，百度文心一言、腾讯混元大模型、360智脑、阿里云通义千问四款国产大模型首批通过测试。测试结果称，上述四款模型符合《人工智能大规模预训练模型第2部分：评...……更多

2023-12-26 14:16:00人工智能,国标,人工,模型,结果,智能

“AI考生”闯关高考，谁是最会做题大模型？

...报记者赵广立2024年全国高考的“硝烟”刚刚散去，“大模型考生”就被抓回来重新“做题”了。市面上涌现出的大模型产品让人眼花缭乱，围绕“大模型技术哪家强”的讨论不绝于耳，各色名目的大模型评测应运而生。作为国...……更多

2024-06-26 07:26:00考生,模型,高考,模型,评测,高考

零一万物Yi-1.5来了，国产开源大模型排行榜再次刷新

...机器之心编辑部在 OpenAI 发布会的前一天，来自中国的大模型公司零一万物，让开源大模型社区活跃了起来：Yi 大模型家族新成员「Yi-1.5」模型正式开源。在项目主页可以看到，Yi-1.5 包括一系列预训练和微调模型，分为 6B、9B、3...……更多

2024-05-14 09:56:00万物,模型,国产,再次,排行榜,模型

刷榜跑分？AI评测不应走偏路线

本文转自：新华每日电讯“百模大战”以来，AI大模型的部分榜单上出现了一个奇怪现象：长期盘踞在榜单前列的，经常是一些名不见经传的国产大模型，它们竟然以接近满分的优势碾压了ChatGPT、Gemini和其他知名的AI大模型。之...……更多

2024-03-22 02:41:00评测,路线,模型,考官,题库,考生

智谱AI推出第三代基座大模型可在手机上部署

...系技术成果转化企业智谱AI推出了全自研的第三代基座大模型ChatGLM3，继此前推出千亿基座的对话模型ChatGLM和ChatGLM2之后再次实现突破。评测显示，在44个中英文公开数据集测试中，ChatGLM3在国内同尺寸模型中排名首位。ChatGLM3语...……更多

2023-10-28 08:25:00三代,基座,可在,模型,手机,模型

360智脑7b参数模型采用3.4万亿tokens训练

...12日消息，360公司日前在GitHub上开源了360智脑7B（70亿参数模型）。360智脑大模型采用3.4万亿Tokens的语料库训练，以中文、英文、代码为主，开放4K、32K、360K三种不同文本长度。360表示，360K（约50万字）是当前国产开源模型文本长...……更多

2024-04-14 01:04:00模型,训练,参数,模型,文本,评测

智谱AI新一代基座大模型GLM-4在司南评测中跻身前列，位居

1月30日，上海人工智能实验室发布了大模型开源开放评测体系司南（OpenCompass 2.0），同时揭晓了2023年度大模型公开评测榜单，GPT-4 Turbo在各项评测中均获最佳表现，智谱AI新一代基座大模型GLM-4紧随其后，排名第二。上海人工智...……更多

2024-02-04 14:00:00司南,基座,前列,新一代,模型,评测

不同量级参数模型性能同样优秀夸克大模型再登行业评测榜首

【CNMO新闻】“大模型时代，夸克有巨大机会创造出革新性搜索产品。”11月22日，夸克大模型公布了其面向搜索、生产力工具和资产管理助手的大模型技术布局。数据显示，夸克千亿级参数大模型登顶C-Eval和CMMLU两大权威榜单，...……更多

2023-11-24 13:53:00夸克,模型,量级,榜首,评测,性能

谷歌开源系模型第二代免费开放！27B媲美Llama3 70B

...至还能与其两倍大的模型竞争。目前Gemma 2已入驻大模型竞技场（LMSYS Chatbot Arena），Gemma 2 27B排名与Llama3 70B相当：而Gemma 2 9B的排名甚至比肩Qwen 2 72B：该结果也让网友纷纷表示难以置信。此外，VentureBeat表示，两种……更多

2024-07-01 09:21:00二代,模型,开放,模型,性能,网友

中国信通院发布大模型安全基准测试报告 360智脑综合排名第一

...本文转自：中国新闻网近日，中国信息通信研究院发布大模型安全基准测试AI Safety Bench 2024年Q1的首轮测评报告(下称“测评报告”)，结果显示，三六零集团自研的认知通用大模型360智脑综合排名第一。大模型安全基准测试AI Safety...……更多

2024-04-10 20:16:00信通,基准,中国,模型,测试,报告

openaigpt-4o登顶竞技场排行榜

...工WilliamFedus周一在社交平台X证实，近期在LMSYS聊天机器人竞技场(ChatbotArena)上表现优异的神秘聊天机器人“gpt-chatbot”，正是他们刚刚发布的全新人工智能模型GPT-4o。Fedus还透露，GPT-4o在测试中登顶了竞技场排行榜，取得了有史以...……更多

2024-05-15 13:37:00竞技场,排行榜,竞技,模型,竞技场,竞技