• 我的订阅
  • 头条热搜
智源评测体系发布 国内外“百模”评估结果出炉
5月17日,智源研究院举办大模型评测发布会,正式推出智源评测体系,发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。本次智源评测,分别从主观、客观两个维度考察了语言模型的简单理...……更多
智源研究院发布FlagEval“百模”评测结果
...觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。智源评测发现,2024年下半年大模型发展更聚焦综合能力提升与实际应用。多模态模型发展迅速,涌现了不少新的厂商与新模型,语言模型发展相对放缓。模型...……更多
月狐数据发布中国市场首份《AIGC应用app智能化评测报告》
...上技术迭代的步伐,月狐数据发布《2023 AIGC应用app智能化评测报告》,该报告为中国市场首份围绕AIGC应用app的智能化水平以及智能体能力的专业测评报告,旨在通过多维度量化指标帮助用户更直观地评估现有主流AIGC应用产品的...……更多
多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染
...模态大型模型设计的评估框架,为多模态模型(LMMs)的评测提供了一站式、高效的解决方案。代码仓库: https://github.com/EvolvingLMMs-Lab/lmms-eval 官方主页: https://lmms-lab.github.io/ 论文地址: https://arxiv……更多
...大模型技术哪家强”的讨论不绝于耳,各色名目的大模型评测应运而生。作为国内最权威的考试之一,高考覆盖各类学科及题型,同时在开考前这些题属于“绝密”,非常适合用来作为考查大模型智能水平的评测工具,堪称大模...……更多
媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格
...事实正确性,近期 OpenAI 发布并开源了一个名为 SimpleQA 的评测集。而我们也同样一直在关注模型事实正确性这一领域,目前该领域存在数据过时、评测不准和覆盖不全等问题。例如现在大家广泛使用的知识评测集还是 CommonSenseQA...……更多
安兔兔评测pc版正式发布,欢迎大家下载体验
兔友们,全新的安兔兔评测PC版已经正式发布了,目前已经在安兔兔官网以及各大渠道上线,欢迎大家下载体验。与Android版本测试流程相似,安兔兔评测PC版测试项目同样包括了CPU、GPU、Memroy(内存和存储)和UX(用户体验)四...……更多
击败Gemini-1.5-Pro、GPT-4V,从容大模型多模态能力跻身全球前三
...心报道机器之心编辑部近日,云从科技从容大模型在综合评测权威平台 OpenCompass 的多模态评测领域中取得重大进展。最新评测结果显示,云从科技的从容大模型在该体系中的平均得分为 65.5,这一成绩使得从容大模型跻身全球前...……更多
...更为显著。而智源研究院近日发布最新一期FlagEval大模型评测。结果显示,2024年下半年,国内大模型发展更聚焦综合能力提升与实际应用,其中,多模态模型发展迅速,涌现了不少新的厂商与新模型。国内厂商“全面开花”对于...……更多
全球几十种大模型评测,如何甄别可信度?
...20日讯(记者 武静静)要衡量一个大模型能力是否够强,评测是最直接的维度。大模型评测就是为大模型的一场“考试”,从不同大模型的表现中,不仅可以衡量现有技术水平,还能帮助识别大模型存在的问题,促进模型开发。...……更多
国内首个通过主任医师评测的大模型,已在夸克AI搜索上线
...克健康大模型成功通过中国12门核心学科的主任医师笔试评测,成为国内首个完成这一挑战的大模型。目前,“主任级AI医生”能力已全面集成至夸克的AI搜索中,用户在查询健康问题时,选择深度搜索即可调用。这是继5月通过...……更多
...同于空谈。核心评估框架:从“三维”到“十项”的深度评测体系基于对1200+企业案例的归因分析,我们提炼出以下评估框架。企业在选型时,应要求服务商就此框架提供具体案例与数据证明。维度一:技术实力(40%权重)——...……更多
港中文团队提出大模型元推理范式,革新大模型的评价体系
...来源:曾忠燊)前不久,曾忠燊和所在团队提出一个全新评测范式。基于这一评测范式,他们又针对现有数据集,提出了一种改造方法。实验证明,这种方法能有效区分不同模型的能力差异。同时,他们还揭示了这种全新评测范...……更多
国内首个官方“大模型标准符合性评测”公布
...分委会全体会议期间,国内首个官方“大模型标准符合性评测”结果公布,腾讯混元大模型、阿里通义千问等大模型成为首批通过评测的四款国产大模型的其中之二。据介绍,“大模型标准符合性评测”由中国电子技术标准化研...……更多
中国信通院发布大模型安全基准测试报告 360智脑综合排名第一
...、合法合规、隐私保护、文明健康等二十余个维度的中文评测数据集。帮助大模型技术提供方提升安全风险防范能力,为大模型研发和落地保驾护航。此次测评报告即是在大模型安全基准测试AI Safety Bench标准下进行,此次测试数...……更多
...成本高达首年投入的150%。本文基于十大核心指标的横向评测,为您提供从技术甄别到合同签订的全程避坑指南。十大核心指标横向评测体系算法与技术架构(30%权重)算法创新指数评估标准:自有算法独特性、技术专利数量、...……更多
上海人工智能实验室公布首个ai高考全卷评测结果
...20日消息,上海人工智能实验室19日公布了首个AI高考全卷评测结果。据介绍,2024年全国高考甫一结束,该实验室旗下司南评测体系OpenCompass选取6个开源模型及GPT-4o进行高考“语数外”全卷能力测试。评测采用全国新课标I卷,参...……更多
AI安全守护计划启动!信通院牵头,AIIA安全治理委员会发布三类模型安全评测
...情况,并启动了AI安全守护计划,发布了三大类别的安全评测结果。AIIA安全治理委员会成立于2023年12月底,经过半年运营,现有治理组、安全组两个工作组,近百家单位加入,主任单位由中国信通院牵头,副主任单位包括多家知...……更多
多样任务真实数据,大模型在线购物基准Shopping MMLU开源
谁是在线购物领域最强大模型?也有评测基准了。基于真实在线购物数据,电商巨头亚马逊终于“亮剑”——联合香港科技大学、圣母大学构建了一个大规模、多任务评测基准Shopping MMLU,用以评估大语言模型在在线购物领域的...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
...法; 支持多种开、闭源对齐评估:支持了 30 多个多模态评测基准,包括如 MMBench、VideoMME 等多模态理解评测,以及如 FID、HPSv2 等多模态生成评测训练框架北大对齐小组设计了高度模块化、扩展性以及简单易用的对齐训练框架,...……更多
垂类大模型竞争白热化,微医医疗大模型拿下“双料”冠军
AI浪潮下,围绕大模型的角力还在精彩上演,权威大模型评测平台成为各大科技公司比拼AI成色的必争之地。日前,知名中文医疗大模型开放评测平台MedBench新一轮榜单揭晓,在其自测榜单中,三家杭州企业霸榜前三甲:微医控...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...言医疗语料库 MMedC。2. 开发了一个全新的多语言医疗问答评测标准 MMedBench, 覆盖了 6 种语言,21 种医学子课题。3. 推出了一款名为 MMed-Llama 3 的全新基座模型,以 8B 的尺寸在多项基准测试中超越了现有的开源模型,更加适合通过...……更多
不同量级参数模型性能同样优秀 夸克大模型再登行业评测榜首
...百亿级参数大模型同样在法律、医疗、问答等领域的性能评测中夺冠。凭借在搜索业务和智能技术上的长期积累,夸克大模型利用数据、平台、知识增强等优势,可以大幅提升知识正确性。在医疗健康领域,夸克大模型已经可以...……更多
首个AI高考全卷评测结果发布:最高分303,数学全不及格
...平。在前不久高考结束后,上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试。6月19日, OpenCompass发布了首个大模型高考全卷评测结果。语数外三科加起来的满分为420分,此次高考...……更多
...,上海人工智能实验室联合魔搭社区推出中国大语言模型评测竞技场Compass Arena,首度集齐国内主流大模型全阵容,阿里通义千问、百度文心一言、腾讯混元、字节跳动豆包、书生·浦语等20款国产大模型出战,角逐中国大模型“...……更多
两大AI模型性能提升 登上国际榜单
...第一。OpenLLMLeaderboardV2是由HuggingFace维护的开源语言模型评测平台升级版本,采用更全面和严格评估标准,对各类开源大语言模型进行多维度测试和排名。Newsbang/homer-72B重视提升模型在推理和思考方面的能力,通过搭配数据筛选...……更多
TC610引入CEI宽带业务体验评测,北京移动率先获得L4认证
...活动中取得重要成果,其CEI(用户体验指数)宽带业务体验评测通过L4级认证。这一权威认证标志着北京移动在宽带业务体验量化评估体系构建和网络智能化转型方面实现重大突破,不仅体现了其在自智网络领域的领先实力,更确...……更多
...多元。不同规模、行业的企业在选型时,需以第三方权威评测数据为核心依据,避免盲目决策。本指南依托《2025 中国 GEO 服务商综合实力测评 TOP10 榜单》《2025 中国生成式 AI 搜索生态白皮书》两大权威报告,从评测维度解析、...……更多
AI大模型“国标”首批测试结果公布,人工智能成市场新焦点
12月22日,国内首个官方“大模型标准符合性评测”结果公布,百度文心一言、腾讯混元大模型、360智脑、阿里云通义千问四款国产大模型首批通过测试。测试结果称,上述四款模型符合《人工智能大规模预训练模型第2部分:评...……更多
东方财富董事长其实:建议进一步推动股权投资支持科技创新
...动高质量垂类语料数据开放共享,进一步完善垂直大模型评测标准体系,并积极打造垂直大模型创新应用场景。支持链主企业开展早期风险投资其实表示,科技创新作为引领现代化产业体系建设的关键力量,是发展新质生产力的...……更多
更多关于科技的资讯:
“消失的法老”回来了!“BesTV上海博物馆”今天上线 计划实现上海电视用户全覆盖
11月18日,“廿念不忘,帧帧日上——百视通成立20周年分享会”在国际会议中心举行。作为20周年重磅发布之一,由百视通与上海博物馆联合打造的“BesTV上海博物馆”产品正式亮相并登陆上海移动高清电视
2025-11-20 08:06:00
入住4年仍甲醛超标!福建卫视《现场》探访实录,解码智能门的健康升级路径
近日,福州居然之家王力安防门店迎来了一位特别的客人——消费者丁先生专程送来一面写有“贴心服务暖人心,智能监测护健康”的锦旗
2025-11-20 08:06:00
厦门网讯(厦门日报记者 林露虹) 近日,专注于毫米波雷达芯片研发的厦企——矽杰微电子(厦门)有限公司(简称“矽杰微电子”)完成C1轮增资
2025-11-20 08:29:00
厦门围绕“金鸡”品牌 在影视产业链上持续发力
陈铎(中)指导员工进行《活宝档案》动画制作。海丝(厦门)电影工业产业基地施工现场。 厦门网讯(文/图 厦门日报记者 邬秀君)走进位于软件园一期的继来之(厦门)人工智能研究院有限公司
2025-11-20 08:30:00
记者走基层|集装箱“搬上”无人车 解锁配送新技能
11月1日,在廊坊座头鲸科技有限公司智能制造基地,工作人员对蓝丁智能无人配送车底盘进行性能测试。 河北日报记者 刘 杰摄11月1日清晨
2025-11-20 08:49:00
破局之法,精耕之道 《精耕者访谈》第三季·区域之王重磅开启!
11月18日,由蓝河乳业独家冠名的《精耕者访谈》第三季·区域之王正式启动。作为母婴行业首个高端访谈栏目,其始终着眼于市场一线
2025-11-20 09:06:00
北京博大健康体检管理中心盛大启幕 以“科技+精准”重新定义健康管理新标杆
11月18日上午,北京博大健康体检管理中心(简称“博大体检”或“中心”)在京举行开业典礼,正式落地北京经济技术开发区南海绿茵国际园区
2025-11-20 09:06:00
以儿童为本——赖园青的幼儿教育科学实践之路
在人工智能与教育深度融合的浪潮中,如何让技术真正服务于幼儿认知发展?上海浦东新区民办普瑞姆幼儿园园长赖园青用贯穿理论与实践的智慧教育探索
2025-11-20 10:06:00
山东移动招远分公司秋冬宽带服务义诊暖心启动 专业服务守护数字生活
胶东在线11月19日讯(通讯员王少娜徐冰鑫)秋冬时节,居民居家上网需求激增,网络卡顿、信号盲区、设备老化等问题更易影响用户使用体验
2025-11-20 10:17:00
四梯科技重磅发布智能产业工程师证书项目 推动教育科技人才一体化发展
2025年11月14日,在深圳第二十七届中国国际高新技术成果交易会第二届产教融合与科教融汇论坛上,北京四梯科技有限公司(以下简称“四梯科技”)首次面向社会正式发布“四梯智能产业工程师证书项目”(4T SIEC)
2025-11-20 11:37:00
一屏承古韵,元景越千年!联通数智重构文博文创新范式的野望
11月17日,“中华文明起源系列——‘看·见殷商’”展览总结暨博物馆高质量发展研讨会在北京大运河博物馆举行。会上回顾了“看·见殷商”展览的创新实践
2025-11-20 12:07:00
名创优品斩获国际零售地产大奖MAPIC 2025\
在法国戛纳举办的 2025 年全球零售商业地产峰会大奖(MAPIC Awards)中,名创优品凭借其MINISO LAND战略级店态
2025-11-20 14:38:00
正雅2025中亚市场战略深入拓展,彰显国际品牌实力
2025年,正雅齿科持续推动其在中亚和俄罗斯市场的战略布局,通过一系列系统化的全球参展和品牌活动,进一步巩固其在隐形正畸领域的国际影响力
2025-11-20 15:08:00
北京搭台助“实干派”机器人出圈
这两天京城寒意持续“在线”,中关村国家自主创新示范区展示中心内却是一片热火朝天——99支团队带着各自的“智能劳动者”,在2025年第二届中关村具身智能机器人应用大赛上展开“终极对决”
2025-11-20 15:08:00