• 我的订阅
  • 头条热搜
智源评测体系发布 国内外“百模”评估结果出炉
5月17日,智源研究院举办大模型评测发布会,正式推出智源评测体系,发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。本次智源评测,分别从主观、客观两个维度考察了语言模型的简单理...……更多
智源研究院发布FlagEval“百模”评测结果
...觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。智源评测发现,2024年下半年大模型发展更聚焦综合能力提升与实际应用。多模态模型发展迅速,涌现了不少新的厂商与新模型,语言模型发展相对放缓。模型...……更多
月狐数据发布中国市场首份《AIGC应用app智能化评测报告》
...上技术迭代的步伐,月狐数据发布《2023 AIGC应用app智能化评测报告》,该报告为中国市场首份围绕AIGC应用app的智能化水平以及智能体能力的专业测评报告,旨在通过多维度量化指标帮助用户更直观地评估现有主流AIGC应用产品的...……更多
...大模型技术哪家强”的讨论不绝于耳,各色名目的大模型评测应运而生。作为国内最权威的考试之一,高考覆盖各类学科及题型,同时在开考前这些题属于“绝密”,非常适合用来作为考查大模型智能水平的评测工具,堪称大模...……更多
多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染
...模态大型模型设计的评估框架,为多模态模型(LMMs)的评测提供了一站式、高效的解决方案。代码仓库: https://github.com/EvolvingLMMs-Lab/lmms-eval 官方主页: https://lmms-lab.github.io/ 论文地址: https://arxiv……更多
媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格
...事实正确性,近期 OpenAI 发布并开源了一个名为 SimpleQA 的评测集。而我们也同样一直在关注模型事实正确性这一领域,目前该领域存在数据过时、评测不准和覆盖不全等问题。例如现在大家广泛使用的知识评测集还是 CommonSenseQA...……更多
安兔兔评测pc版正式发布,欢迎大家下载体验
兔友们,全新的安兔兔评测PC版已经正式发布了,目前已经在安兔兔官网以及各大渠道上线,欢迎大家下载体验。与Android版本测试流程相似,安兔兔评测PC版测试项目同样包括了CPU、GPU、Memroy(内存和存储)和UX(用户体验)四...……更多
击败Gemini-1.5-Pro、GPT-4V,从容大模型多模态能力跻身全球前三
...心报道机器之心编辑部近日,云从科技从容大模型在综合评测权威平台 OpenCompass 的多模态评测领域中取得重大进展。最新评测结果显示,云从科技的从容大模型在该体系中的平均得分为 65.5,这一成绩使得从容大模型跻身全球前...……更多
全球几十种大模型评测,如何甄别可信度?
...20日讯(记者 武静静)要衡量一个大模型能力是否够强,评测是最直接的维度。大模型评测就是为大模型的一场“考试”,从不同大模型的表现中,不仅可以衡量现有技术水平,还能帮助识别大模型存在的问题,促进模型开发。...……更多
港中文团队提出大模型元推理范式,革新大模型的评价体系
...来源:曾忠燊)前不久,曾忠燊和所在团队提出一个全新评测范式。基于这一评测范式,他们又针对现有数据集,提出了一种改造方法。实验证明,这种方法能有效区分不同模型的能力差异。同时,他们还揭示了这种全新评测范...……更多
国内首个官方“大模型标准符合性评测”公布
...分委会全体会议期间,国内首个官方“大模型标准符合性评测”结果公布,腾讯混元大模型、阿里通义千问等大模型成为首批通过评测的四款国产大模型的其中之二。据介绍,“大模型标准符合性评测”由中国电子技术标准化研...……更多
中国信通院发布大模型安全基准测试报告 360智脑综合排名第一
...、合法合规、隐私保护、文明健康等二十余个维度的中文评测数据集。帮助大模型技术提供方提升安全风险防范能力,为大模型研发和落地保驾护航。此次测评报告即是在大模型安全基准测试AI Safety Bench标准下进行,此次测试数...……更多
上海人工智能实验室公布首个ai高考全卷评测结果
...20日消息,上海人工智能实验室19日公布了首个AI高考全卷评测结果。据介绍,2024年全国高考甫一结束,该实验室旗下司南评测体系OpenCompass选取6个开源模型及GPT-4o进行高考“语数外”全卷能力测试。评测采用全国新课标I卷,参...……更多
AI安全守护计划启动!信通院牵头,AIIA安全治理委员会发布三类模型安全评测
...情况,并启动了AI安全守护计划,发布了三大类别的安全评测结果。AIIA安全治理委员会成立于2023年12月底,经过半年运营,现有治理组、安全组两个工作组,近百家单位加入,主任单位由中国信通院牵头,副主任单位包括多家知...……更多
多样任务真实数据,大模型在线购物基准Shopping MMLU开源
谁是在线购物领域最强大模型?也有评测基准了。基于真实在线购物数据,电商巨头亚马逊终于“亮剑”——联合香港科技大学、圣母大学构建了一个大规模、多任务评测基准Shopping MMLU,用以评估大语言模型在在线购物领域的...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
...法; 支持多种开、闭源对齐评估:支持了 30 多个多模态评测基准,包括如 MMBench、VideoMME 等多模态理解评测,以及如 FID、HPSv2 等多模态生成评测训练框架北大对齐小组设计了高度模块化、扩展性以及简单易用的对齐训练框架,...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...言医疗语料库 MMedC。2. 开发了一个全新的多语言医疗问答评测标准 MMedBench, 覆盖了 6 种语言,21 种医学子课题。3. 推出了一款名为 MMed-Llama 3 的全新基座模型,以 8B 的尺寸在多项基准测试中超越了现有的开源模型,更加适合通过...……更多
不同量级参数模型性能同样优秀 夸克大模型再登行业评测榜首
...百亿级参数大模型同样在法律、医疗、问答等领域的性能评测中夺冠。凭借在搜索业务和智能技术上的长期积累,夸克大模型利用数据、平台、知识增强等优势,可以大幅提升知识正确性。在医疗健康领域,夸克大模型已经可以...……更多
首个AI高考全卷评测结果发布:最高分303,数学全不及格
...平。在前不久高考结束后,上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试。6月19日, OpenCompass发布了首个大模型高考全卷评测结果。语数外三科加起来的满分为420分,此次高考...……更多
...,上海人工智能实验室联合魔搭社区推出中国大语言模型评测竞技场Compass Arena,首度集齐国内主流大模型全阵容,阿里通义千问、百度文心一言、腾讯混元、字节跳动豆包、书生·浦语等20款国产大模型出战,角逐中国大模型“...……更多
东方财富董事长其实:建议进一步推动股权投资支持科技创新
...动高质量垂类语料数据开放共享,进一步完善垂直大模型评测标准体系,并积极打造垂直大模型创新应用场景。支持链主企业开展早期风险投资其实表示,科技创新作为引领现代化产业体系建设的关键力量,是发展新质生产力的...……更多
AI大模型“国标”首批测试结果公布,人工智能成市场新焦点
12月22日,国内首个官方“大模型标准符合性评测”结果公布,百度文心一言、腾讯混元大模型、360智脑、阿里云通义千问四款国产大模型首批通过测试。测试结果称,上述四款模型符合《人工智能大规模预训练模型第2部分:评...……更多
...“智越计划”,对国产人工智能芯片(AI芯片)开展全面评测,为后续算力建设提供依据。此次全面评测将助推国产芯片面向更多应用场景加快升级迭代。面对越来越严苛的AI芯片领域封锁,我国正在加速相关芯片的自主研发和...……更多
商汤商量获SuperCLUE 9月评测总榜和子榜两项第一,AI智能体方向受瞩目
商汤商量获SuperCLUE 9月评测总榜和子榜两项第一,AI智能体方向受瞩目 近日,中文通用大模型综合性评测基准SuperCLUE发布9月总排行榜和各个分类任务榜单,商汤商量SenseChat 3.0 位列中文大模型总榜排名第一。在新增的AI Agent(AI...……更多
首个AI高考全卷评测结果发布:数学全都不及格
6月19日,上海人工智能实验室发布首个AI高考全卷评测结果,月初开源的阿里通义千问大模型Qwen2-72B排名第一,在语数外三科420分的满分中获得303分,OpenAI的GPT-4o和上海人工智能实验室的书生·浦语2.0文曲星(InternLM2-20B-WQX)排...……更多
...私保护、文明健康、人工智能自主意识等27个维度的中文评测数据集,为行业提供全面、细致的安全性能测试指标。作为信息通信行业的重要研究机构,中国信通院在人工智能和大数据领域具有深厚的研究底蕴和丰富的行业经验...……更多
AI潮起 共筑数智之基
...链条产业生态中国移动宣布开放大模型训练基地、大模型评测基地及大模型产业创新基地,面向全社会提供大模型从训到推、AI+原生应用孵化等一站式产业融通带动服务。大模型训练基地是中国移动为大模型提供训练所需智算资...……更多
中文大模型最新评测出炉:腾讯混元国内第一!
...月5日消息,在最新发布的中文多模态大模型SuperCLUE-V基准评测中,腾讯混元大模型获国内排名第一,稳居卓越领导者象限。此次评测聚焦于大模型理解复杂现实世界的关键能力,即多模态理解,俗称“图生文”。多模态理解要求...……更多
国家大模型标准测试结果公布 首批仅四家企业产品通过
12月23日,国内首个官方“大模型标准符合性评测”结果公布,首批360集团、百度、腾讯、阿里四家企业大模型产品通过。该测试由工信部中国电子技术标准化研究院(简称“工信部电子标准院”)发起,评测围绕多领域多维度...……更多
2023移动网络质量“百城”专项评测:打造高质量的5G服务
2023年全国重点区域移动网络质量“百城”专项评测活动11月7日正式开启,来自中国信息通信研究院泰尔系统实验室5支专业的网络质量评测团队奔赴全国百余个城市,对重点和热点区域开展移动网络测试。其实“移动网络质量专...……更多
更多关于科技的资讯:
南京新型生产要素丰裕度不断提升,助力新质生产力持续迸发□南京日报/紫金山新闻记者徐宁土地、劳动、资本被称为生产三要素。随着科技进步和生产方式变革
2025-02-22 10:21:00
南京发布DeepSeek应急管理政务大模型
南京“宁安晴” 安全守护“宁”南报网讯(记者王国俊通讯员李鸿雁)2月21日,南京市应急管理局、市数据局与擎天科技联合发布全国首个垂直领域应急管理政务大模型——“宁安晴”
2025-02-22 10:22:00
景曜科技总部基地项目开工即冲刺□南京日报/紫金山新闻记者 孙秉印通讯员麒轩塔吊林立、机器轰鸣。19日,位于麒麟科创园的景曜科技智能机器人总部基地项目现场
2025-02-22 10:22:00
别再担心了!微软高管也吐槽AI:太累了 根本学不过来
快科技2月22日消息,近日,亚布力中国企业家论坛第25届年会于2025年2月21日至23日成功召开。微软(中国)有限公司首席技术官韦青受邀出席开幕式并发表了精彩演讲
2025-02-22 10:30:00
《黑豹2》黑人女王演员:我值得拿奥斯卡金像奖
GamesRadar+报道,安吉拉·巴塞特 (Angela Bassett) 谈到她在2023年失去奥斯卡奖的情况,并表示她认为自己在《黑豹2》中的表现值得获得奥斯卡金像奖
2025-02-22 10:30:00
说的是心里话!有500强公司董事长直言:Deepseek写的诗很油腻 是大路货
快科技2月22日消息,近日,亚布力中国企业家论坛第25届年会在万众瞩目中顺利召开。本次年会汇聚了众多行业领袖与企业家,共同探讨了中国经济发展的现状与未来趋势
2025-02-22 11:00:00
发布会上频频被对比 奔驰高管:不排斥不畏惧 但会严正交涉错误对标
快科技2月22日消息,近些年来国产新能源迅猛发展,有很多都在冲高端,而这自然也会对传统的BBA等老牌豪华汽车产生了冲击
2025-02-22 11:00:00
AI硅胶娃娃”不是噱头!专家:好看皮囊和有趣灵魂可同时具
快科技2月22日消息,人工智能的浪潮已经轰轰烈烈的展开,企业要么努力去拥抱、接受它,要么被淘汰。AI人工智能可以赋予的行业和赛道越来越广
2025-02-22 11:00:00
2025年结婚最理想的彩礼金额,这个数丨年轻人谈婚论嫁报告
爱情是一种复杂的情感需求,人类在亲密关系中寻求认同、对抗无聊,渴望在这个世界上建立起一种具有排他性的情感共同体
2025-02-22 11:08:00
河北新闻网讯(王思思)2月20日,深泽县医共体集团召开2025年慢病健康管理信息系统使用工作培训会。培训会上,业务人员针对系统操作进行了详细讲解
2025-02-22 11:24:00
最后一个月机会!华为8.8折升级手机内存下月底结束:342元起
快科技2月22日消息,据华为官方介绍,华为8.8折升级手机内存(官方解释为存储内存,实际就是存储空间)服务将于3月31日结束
2025-02-22 11:30:00
中国科学院院士白春礼呼吁:科技创新需要耐心资本的投入
快科技2月22日消息,近日,“亚布力中国企业家论坛第25届年会”盛大召开,中国科学院院士白春礼受邀出席并发表演讲。白春礼院士在演讲中指出
2025-02-22 11:30:00
闭店潮来袭,奶茶行业内卷加剧迎来“生死劫”
齐鲁晚报·齐鲁壹点 张召旭 实习生 白杨奶茶店,曾是街头巷尾的热门打卡地,每隔几步就能见到一家,排队的长龙构成了城市的一道独特风景线
2025-02-22 11:38:00
美得理联袂五位电子鼓合作艺术家,共建音乐生态圈
近日,国内知名乐器品牌美得理正式签约五位杰出的鼓圈艺术家冯军、余伟民、大梁、仲夏、李宝为“MEDELI品牌电子鼓合作艺术家”
2025-02-22 11:43:00
俄罗斯禁售一款中国车
快科技2月22日消息,综合俄罗斯以及国内媒体报道,本月早些时候,俄罗斯技术法规和计量局宣布正式撤销中国陕汽SX3258型卡车的车辆型式认证(VTA)
2025-02-22 08:00:00