• 我的订阅
  • 头条热搜
智源研究院发布FlagEval“百模”评测结果
...觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。智源评测发现,2024年下半年大模型发展更聚焦综合能力提升与实际应用。多模态模型发展迅速,涌现了不少新的厂商与新模型,语言模型发展相对放缓。模型...……更多
智源评测体系发布 国内外“百模”评估结果出炉
...140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。本次智源评测,分别从主观、客观两个维度考察了语言模型的简单理解、知识运用、推理能力、数学能力、代码能力、任务解决、安全与价值观七大能力;针对...……更多
全球几十种大模型评测,如何甄别可信度?
...中使用这些数据,从而让模型对测试内容有所准备,导致评测结果不能真实反映模型的能力。更有甚者会针对特定评测数据集进行过度拟合,使得模型在这个特定的数据集上表现得非常好,但在实际应用中却无法达到同样的性能...……更多
...度和广度。此外,缺乏统一的评测标准,也让不同机构的评测结果缺乏可比性。林咏华在谈及这一问题时表示,“评测体系的开放性和科学性是关键,要实现统一标准,仍需克服多方利益博弈的障碍。”在林咏华看来,随着技术...……更多
AI安全守护计划启动!信通院牵头,AIIA安全治理委员会发布三类模型安全评测
...情况,并启动了AI安全守护计划,发布了三大类别的安全评测结果。AIIA安全治理委员会成立于2023年12月底,经过半年运营,现有治理组、安全组两个工作组,近百家单位加入,主任单位由中国信通院牵头,副主任单位包括多家知...……更多
港中文团队提出大模型元推理范式,革新大模型的评价体系
...计意义思考不足,起码会带来以下几个潜在危害:其一,评测结果能否真实反映大模型的能力?如果对此认识不足,往往会过分夸大模型的效果。其二,会让人以为指标的提升,等价于大模型能力的提升、以及等价于真实场景的...……更多
大模型权威报告:讯飞星火得分第一
...、物理、医学5个二级分类,题型上以单选和简答为主。评测结果中,讯飞星火78.50%的得分率排名第一。另外,讯飞星火在理科综合大类下80%的二级分类评测中得分率为第一,化学与生物较为突出。 逻辑思维也是“最聪明”大模...……更多
AI大模型“国标”首批测试结果公布,人工智能成市场新焦点
...达到国家相关标准。该测试由工信部中国电子技术标准化研究院发起,从大模型的通用性、智能性、安全性等多个维度开展,涵盖语言、语音、视觉等多模态领域,旨在建立大模型标准符合性名录,是基于官方大模型测试基准的...……更多
国内首个官方“大模型标准符合性评测”公布
...介绍,“大模型标准符合性评测”由中国电子技术标准化研究院发起,旨在建立中国大模型标准符合性名录,引领人工智能产业健康有序发展。该评测对外征集了学术界、产业界几十家头部单位意见,覆盖评估语言大模型通用性...……更多
国家大模型标准测试结果公布 首批仅四家企业产品通过
...业大模型产品通过。该测试由工信部中国电子技术标准化研究院(简称“工信部电子标准院”)发起,评测围绕多领域多维度模型评测框架与指标体系,从大模型的通用性、智能性、安全性等维度开展,涵盖语言、语音、视觉等...……更多
...技术生态、产业生态和开放性等多个维度进行评估,确保评测结果客观真实。此次评测结果将形成针对特定应用场景的综合报告和产品推荐目录,为政府、企业和研究机构建设智算中心提供芯片选型的重要参考和决策依据。在评...……更多
...。经过微调的对话模型进行了客观、自动化的能力评测,评测结果显示,总分上Tele-FLM完成了对GPT-3.5-Turbo的超越。在分项得分中,Tele-FLM在总共的11个分项中有十项达到或超过GPT-3.5-Turbo水平。仅今年,中国电信人工智能研究院便...……更多
中国信通院发布大模型安全基准测试报告 360智脑综合排名第一
本文转自:中国新闻网近日,中国信息通信研究院发布大模型安全基准测试AI Safety Bench 2024年Q1的首轮测评报告(下称“测评报告”),结果显示,三六零集团自研的认知通用大模型360智脑综合排名第一。大模型安全基准测试AI Safet...……更多
王小川新公司「百川智能」发布首个开源中英文大模型,开源免费可商用 | 最前线
...n-7B的综合评分达到了42.8分,而AGIEval评测基准则是由微软研究院发起,意在全面评估基础模型在人类认知和问题解决相关任务上的能力,包含了中国的高考、司法考试,以及美国的SAT、LSAT、GRE和GMAT等20个公开且严谨的官方入学...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
...统的安全交互与价值对齐,指导老师为北京大学人工智能研究院杨耀东助理教授。核心成员包括吉嘉铭、周嘉懿、邱天异、陈博远、王恺乐、洪东海、楼翰涛、王旭尧、陈文琦、张钊为、汪明志、钟伊凡等。团队就强化学习方法...……更多
AI界新晋王者被曝抄袭、作弊、做假,脸都丢光了
...型。Gemini/androidayuda据科技媒体《品玩》报道,北京智源研究院副院长林咏华曾透露,当下世界大模型评测C-Eval、MMLU以及CMMLU等几个测评集,已经被各路模型过度训练。一些测评榜单完全可以靠定向的训练数据拔高分数。而不少...……更多
...豹研究院发布《2023年中国大模型行研能力评测报告》。评测结果显示,商汤语言大模型“日日新·商量”以总分7.73(满分10分)斩获总榜第一,并在报告撰写能力、模型基础能力两个子榜位居第一。 ……更多
云从科技从容大模型荣登中国大模型第一梯队
...台OpenCompass的多模态评测领域中也取得了重大进展。最新评测结果显示,从容大模型在该体系中的平均得分为65.5,这一成绩使其跻身全球前三,超越了谷歌的Gemini-1.5-Pro和GPT-4v,仅次于GPT-4o(69.9)和Claude3.5-Sonnet(67.9)。在国内...……更多
重磅!TeleAI 完成首个全国产化万卡万参大模型训练
近日,中国电信人工智能研究院(TeleAI)成功完成国内首个基于全国产化万卡集群训练的万亿参数大模型(万卡万参),并正式对外开源首个基于全国产化万卡集群和国产深度学习框架训练的千亿参数大模型——星辰语义大模...……更多
...考语、数、外全卷能力测试。据OpenCompass于6月19日发布的评测结果,大模型的语文、英语考试水平还不错,但数学都不及格,最高分只有75分(满分150分)。参加OpenCompass此次高考测试的大模型,分别是来自阿里巴巴、零一万物、...……更多
“整活”保险业务,AI大模型哪家强?
...意度和服务质量。”中国信息协会常务理事、国研新经济研究院创始院长朱克力表示,大模型在知识问答方面的表现相对较好,因为其可以通过学习大量的数据和语料库来提供准确的答案。大模型不仅适合作为智能机器人用以服...……更多
大华问数智能体一体机通过中国信通院\\\
...办的2025数据智能大会在北京召开。会上,中国信息通信研究院(以下简称\"中国信通院\")发布了2025年上半年\"大模型驱动的智能数据分析工具\" 专项测试结果,大华问数智能体一体机顺利通过该权威评测认证。作为大模型智能...……更多
媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格
...特定需求的模型。目前 o1-preview 模型表现最为全面,但是评测结果展示了许多其他模型在特定垂直领域的强有力的表现(具体详见论文和榜单)。最后,欢迎广大研究者使用我们的评测集进行实验和研究。淘天集团算法技术 - 未...……更多
首个AI高考全卷评测结果发布:最高分303,数学全不及格
...能力测试。6月19日, OpenCompass发布了首个大模型高考全卷评测结果。语数外三科加起来的满分为420分,此次高考测试结果显示,阿里通义千问2-72B排名第一,为303分,OpenAI的GPT-4o排名第二,得分296分,上海人工智能实验室的书生...……更多
科大讯飞申请口语评测专利,口语评测结果更准确
...案间的相似度来确定评分的方式,本申请方案得到的口语评测结果更加准确。天眼查资料显示,科大讯飞股份有限公司,成立于1999年,位于合肥市,是一家以从事研究和试验发展为主的企业。企业注册资本231173.4185万人民币。通...……更多
两大AI模型性能提升 登上国际榜单
...体框架登上GAIA基准测试排行榜榜首;其旗下的天桥脑科学研究院(TCCI)与国际学术杂志《Science》合作推出全球AI驱动科学大奖,举办和支持包括“AI+精神健康”在内的各种高水平国际会议和夏校项目,助力培养跨学科青年AI人才等...……更多
多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染
...模态大型模型设计的评估框架,为多模态模型(LMMs)的评测提供了一站式、高效的解决方案。代码仓库: https://github.com/EvolvingLMMs-Lab/lmms-eval 官方主页: https://lmms-lab.github.io/ 论文地址: https://arxiv……更多
全球首个百亿级人类基因组基础模型Genos发布!
...高达98.3%,为临床诊断提供了全新的高效工具。综合多项评测结果,Genos在各项核心任务中的表现均全面超越了现有最佳水平(SOTA),证明了其卓越且全面的能力。共有、共为、共享,让前沿科技触手可及一个模型无论多么强大...……更多
2023移动网络质量“百城”专项评测:打造高质量的5G服务
...百城”专项评测活动11月7日正式开启,来自中国信息通信研究院泰尔系统实验室5支专业的网络质量评测团队奔赴全国百余个城市,对重点和热点区域开展移动网络测试。其实“移动网络质量专项评测活动”已经开展了4年了,中...……更多
昆仑万维发布开源13B高质量商用大模型 领先Llama2和Baichuan2
...亚辉一起出任天工智能联席CEO,并兼任昆仑万维2050全球研究院院长,负责前沿技术的研究。9月5日,昆仑万维天工大模型在腾讯优图实验室联合厦门大学开展的多模态大语言模型测评中,综合得分排名第一。9月25日,昆仑万维正...……更多
更多关于科技的资讯:
深耕三国文化,灵犀互娱《三国志·战略版》实践中式美学的全球表达
2025年初,国务院办公厅印发《关于推动文化高质量发展的若干经济政策》,明确提出“加快培育具有国际竞争力的文化出口重点企业
2025-11-24 11:25:00
“肽”领全球!菏泽中食都庆通过白俄罗斯验厂审核,东欧市场再添新动能
鲁网11月24日讯日前,Richtek Ltd(大连睿骐生物科技)携白俄罗斯客户代表团莅临菏泽鲁西新区陈集镇中食都庆(山东)生物技术有限公司
2025-11-24 11:43:00
河北新闻网讯(翟磊)“四季度以来,企业订单稳定,月产能最大可达150万片。目前开通了5条智能化生产线,不仅产能得到了提升
2025-11-24 11:58:00
让真实被听见:猛玛助力百校学生记录当代中国
2025年,是《南风窗》“调研中国”项目的二十周年,一百支大学生团队深入全国各地开展田野调查。猛玛作为项目在全国高校的无线麦克风合作伙伴
2025-11-24 11:47:00
从福掌柜包装焕新,看“中国守味人”的文化赋能与商业远见
近年来,中国餐饮行业从规模扩张迈向高质量发展的新阶段,餐饮供应链的品牌化成为大势所趋。在此背景之下,中粮餐饮旗下产品品牌福掌柜率先启动全线产品包装焕新
2025-11-24 11:57:00
“好房子科技展”亮相首钢园 华为全屋智能担当“隐形力量”
“好房子科技展”在首钢园正式开放海外网11月21日电 由住房和城乡建设部科技与产业化发展中心联合20余家单位共建的“好房子科技展”近日在北京首钢园8号馆正式开放
2025-11-24 09:53:00
2025年北京市职工数据安全管理员职业技能决赛成功举办
2025年11月23日上午,由北京市总工会、北京市人力资源和社会保障局主办,北京网络空间安全协会、北京市总工会职工服务中心
2025-11-24 10:17:00
灵光突破200万下载:首破百万用4天,再破百万仅2天
11月24日消息,通用AI助手灵光在上线6天总下载量突破200万:在首次破百万下载用时4天刷新纪录后,再破百万的时间压缩到了2天
2025-11-24 10:24:00
国内寿险行业头部企业——中国人寿保险股份有限公司(以下简称“中国人寿”,股票代码:601628.SH,2628.HK)始终坚持以人民为中心的价值取向
2025-11-24 11:00:00
摘要:本文系统探究了人工智能技术在影视美术创作及戏剧影视美术设计专业教学中的应用模式、核心价值与发展前景。通过对Midjourney
2025-11-24 07:00:00
医保制度的完善与发展不仅直接影响人民的健康福祉,还关乎国家医疗资源的合理配置与利用效率。然而,随着医保覆盖范围不断扩大
2025-11-24 07:00:00
厦门三展联动 显现整合资源拉动消费的集聚效应
境外客商参观2025厦门国际咖啡产业博览会。●ISPO亚洲运动用品与时尚展涵盖多领域户外装备展示,并设有行业分享论坛、新潮运动体验区
2025-11-24 07:53:00
厦门网讯(厦门日报记者 林露虹)独居老人在家中不慎跌倒,所幸家中安装的毫米波雷达设备迅速识别异常并触发警报,避免一场悲剧的发生……这一幕出现在今年热播剧《蛮好的人生》中
2025-11-24 07:54:00
厦门网讯(厦门日报记者 房舒)“你是温峥嵘,那我是谁?”近日,演员温峥嵘怒斥AI(人工智能)仿冒者的言论冲上热搜,揭开了AI技术被滥用的冰山一角
2025-11-23 08:11:00
网聚泉城丨政企协同“双轮驱动” 济南以数字技术重构电梯产业生态
鲁网11月23日讯(记者 张佳伟 实习生 寇晓菊)1天内完成立项、2天完成图纸审查、1个月实现场地平整、1年建成开园投产——广日电梯济南数字化产业园以“广日速度”刷新行业纪录
2025-11-23 15:19:00