• 我的订阅
  • 头条热搜
智源评测体系发布 国内外“百模”评估结果出炉
5月17日,智源研究院举办大模型评测发布会,正式推出智源评测体系,发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。本次智源评测,分别从主观、客观两个维度考察了语言模型的简单理...……更多
月狐数据发布中国市场首份《AIGC应用app智能化评测报告》
...上技术迭代的步伐,月狐数据发布《2023 AIGC应用app智能化评测报告》,该报告为中国市场首份围绕AIGC应用app的智能化水平以及智能体能力的专业测评报告,旨在通过多维度量化指标帮助用户更直观地评估现有主流AIGC应用产品的...……更多
...大模型技术哪家强”的讨论不绝于耳,各色名目的大模型评测应运而生。作为国内最权威的考试之一,高考覆盖各类学科及题型,同时在开考前这些题属于“绝密”,非常适合用来作为考查大模型智能水平的评测工具,堪称大模...……更多
击败Gemini-1.5-Pro、GPT-4V,从容大模型多模态能力跻身全球前三
...心报道机器之心编辑部近日,云从科技从容大模型在综合评测权威平台 OpenCompass 的多模态评测领域中取得重大进展。最新评测结果显示,云从科技的从容大模型在该体系中的平均得分为 65.5,这一成绩使得从容大模型跻身全球前...……更多
港中文团队提出大模型元推理范式,革新大模型的评价体系
...来源:曾忠燊)前不久,曾忠燊和所在团队提出一个全新评测范式。基于这一评测范式,他们又针对现有数据集,提出了一种改造方法。实验证明,这种方法能有效区分不同模型的能力差异。同时,他们还揭示了这种全新评测范...……更多
国内首个官方“大模型标准符合性评测”公布
...分委会全体会议期间,国内首个官方“大模型标准符合性评测”结果公布,腾讯混元大模型、阿里通义千问等大模型成为首批通过评测的四款国产大模型的其中之二。据介绍,“大模型标准符合性评测”由中国电子技术标准化研...……更多
中国信通院发布大模型安全基准测试报告 360智脑综合排名第一
...、合法合规、隐私保护、文明健康等二十余个维度的中文评测数据集。帮助大模型技术提供方提升安全风险防范能力,为大模型研发和落地保驾护航。此次测评报告即是在大模型安全基准测试AI Safety Bench标准下进行,此次测试数...……更多
上海人工智能实验室公布首个ai高考全卷评测结果
...20日消息,上海人工智能实验室19日公布了首个AI高考全卷评测结果。据介绍,2024年全国高考甫一结束,该实验室旗下司南评测体系OpenCompass选取6个开源模型及GPT-4o进行高考“语数外”全卷能力测试。评测采用全国新课标I卷,参...……更多
不同量级参数模型性能同样优秀 夸克大模型再登行业评测榜首
...百亿级参数大模型同样在法律、医疗、问答等领域的性能评测中夺冠。凭借在搜索业务和智能技术上的长期积累,夸克大模型利用数据、平台、知识增强等优势,可以大幅提升知识正确性。在医疗健康领域,夸克大模型已经可以...……更多
首个AI高考全卷评测结果发布:最高分303,数学全不及格
...平。在前不久高考结束后,上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试。6月19日, OpenCompass发布了首个大模型高考全卷评测结果。语数外三科加起来的满分为420分,此次高考...……更多
...,上海人工智能实验室联合魔搭社区推出中国大语言模型评测竞技场Compass Arena,首度集齐国内主流大模型全阵容,阿里通义千问、百度文心一言、腾讯混元、字节跳动豆包、书生·浦语等20款国产大模型出战,角逐中国大模型“...……更多
东方财富董事长其实:建议进一步推动股权投资支持科技创新
...动高质量垂类语料数据开放共享,进一步完善垂直大模型评测标准体系,并积极打造垂直大模型创新应用场景。支持链主企业开展早期风险投资其实表示,科技创新作为引领现代化产业体系建设的关键力量,是发展新质生产力的...……更多
AI大模型“国标”首批测试结果公布,人工智能成市场新焦点
12月22日,国内首个官方“大模型标准符合性评测”结果公布,百度文心一言、腾讯混元大模型、360智脑、阿里云通义千问四款国产大模型首批通过测试。测试结果称,上述四款模型符合《人工智能大规模预训练模型第2部分:评...……更多
...“智越计划”,对国产人工智能芯片(AI芯片)开展全面评测,为后续算力建设提供依据。此次全面评测将助推国产芯片面向更多应用场景加快升级迭代。面对越来越严苛的AI芯片领域封锁,我国正在加速相关芯片的自主研发和...……更多
商汤商量获SuperCLUE 9月评测总榜和子榜两项第一,AI智能体方向受瞩目
商汤商量获SuperCLUE 9月评测总榜和子榜两项第一,AI智能体方向受瞩目 近日,中文通用大模型综合性评测基准SuperCLUE发布9月总排行榜和各个分类任务榜单,商汤商量SenseChat 3.0 位列中文大模型总榜排名第一。在新增的AI Agent(AI...……更多
首个AI高考全卷评测结果发布:数学全都不及格
6月19日,上海人工智能实验室发布首个AI高考全卷评测结果,月初开源的阿里通义千问大模型Qwen2-72B排名第一,在语数外三科420分的满分中获得303分,OpenAI的GPT-4o和上海人工智能实验室的书生·浦语2.0文曲星(InternLM2-20B-WQX)排...……更多
...私保护、文明健康、人工智能自主意识等27个维度的中文评测数据集,为行业提供全面、细致的安全性能测试指标。作为信息通信行业的重要研究机构,中国信通院在人工智能和大数据领域具有深厚的研究底蕴和丰富的行业经验...……更多
AI潮起 共筑数智之基
...链条产业生态中国移动宣布开放大模型训练基地、大模型评测基地及大模型产业创新基地,面向全社会提供大模型从训到推、AI+原生应用孵化等一站式产业融通带动服务。大模型训练基地是中国移动为大模型提供训练所需智算资...……更多
国家大模型标准测试结果公布 首批仅四家企业产品通过
12月23日,国内首个官方“大模型标准符合性评测”结果公布,首批360集团、百度、腾讯、阿里四家企业大模型产品通过。该测试由工信部中国电子技术标准化研究院(简称“工信部电子标准院”)发起,评测围绕多领域多维度...……更多
科大讯飞刘庆峰:首先需要建立科学系统评测体系
...,快速追赶并努力超越ChatGPT,首先需要一套科学系统的评测体系。刘庆峰表示,已经有非常多的科研机构和企业单位都在开始进行大模型的研究和产业化探索。如果我们要让这种人工智能的技术真正地用于解决社会刚需,就要...……更多
2023移动网络质量“百城”专项评测:打造高质量的5G服务
2023年全国重点区域移动网络质量“百城”专项评测活动11月7日正式开启,来自中国信息通信研究院泰尔系统实验室5支专业的网络质量评测团队奔赴全国百余个城市,对重点和热点区域开展移动网络测试。其实“移动网络质量专...……更多
...脸识别安全合规专家观点及实践分享。发布“护脸计划”评测结果和评估规范解读成为本次大会焦点。会上,中国信通院云大所副所长闵栋公布了通过“人脸识别安全专项评测”“金融APP人脸识别安全能力评测”“人脸识别系统...……更多
智慧芽AI助手“芽仔”:你的智能研发专家,开启创新新范式
...型与其他大模型考试成绩图:智慧芽垂直领域大模型能力评测决定一个垂直领域大模型表现的,除了模型本身外,训练数据集同样起到关键性作用。而这恰恰是智慧芽的优势所在。智慧芽垂直领域大模型的预训练数据达到了千亿...……更多
清华发布2024年3月版《SuperBench大模型综合能力评测报告》
...究中心联合中关村实验室研制的SuperBench大模型综合能力评测框架,正式对外发布2024年3月版《SuperBench大模型综合能力评测报告》。评测共包含了14个海内外具有代表性的模型,结果显示:文心一言4.0表现亮眼。例如在人类对齐能...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
....com/tianyu-z/VCR (点击阅读原文即可直达,包含评用于模型评测和预训练的数据生成代码) Hugging Face 链接:huggingface.co/vcr-org VCR 数据集简介为了开发 VCR 任务,研究人员构建了一个由图像 - 文字生成 VCR 合成图像的流程。在该……更多
字节扣子模型广场,给AI大模型搭了一座擂台
...选择什么模型,市面上也没有类似于豆瓣电影评分这样的评测体系。举个例子,小雷这样的科技爱好者想在扣子上创建一个帮助编辑检查文章配图版权、错别字的Bot,但缺乏大模型开发经验的我并不知道扣子上的哪些模型、哪些...……更多
科学家建立新评价基准,助力评估大模型数据分析能力
...集。虽然这类数据的生成成本较低、人力需求不高,但是评测方法的开发却需要他们逐一校验,因为数据分析的结果并不仅仅依赖于执行的一致性。例如,在生成分类器的问题上,即便参考代码的执行结果和预测代码的结果不一...……更多
昆仑万维发布开源13B高质量商用大模型 领先Llama2和Baichuan2
...-Base模型、Skywork-13B-Math模型,它们在CEVAL, GSM8K等多个权威评测与基准测试上都展现了同等规模模型的最佳效果,其中文能力尤为出色,在中文科技、金融、政务等领域表现均高于其他开源模型。除模型开源外,Skywork-13B系列大模...……更多
容联云容信通过中国信通院“办公即时通信软件安全能力”评测
...院”)“铸基计划-办公即时通信软件安全能力”完备级评测。随着数字化转型的全面提速,场景复杂、边界模糊等问题给移动办公、远程办公带来了诸多网络、数据安全方面的隐患。容联云作为中国信通院铸基计划—办公即时...……更多
智谱AI新一代基座大模型GLM-4在司南评测中跻身前列,位居国内第一
1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass 2.0),同时揭晓了2023年度大模型公开评测榜单,GPT-4 Turbo在各项评测中均获最佳表现,智谱AI新一代基座大模型GLM-4紧随其后,排名第二。上海人工智...……更多
更多关于科技的资讯:
暑假看娃的学习机,被熊孩子“破解”成了游戏机
本文经授权转载自公众号智商税研究中心(id:gh_c55b3561ece1)原标题 | 暑假看娃的学习机,被熊孩子策反作者 |潘哥监制|大曼排版| 洋洋用来看娃的学习机
2024-07-07 20:04:00
最豪手动挡车型来了!帕加尼Huayra Epitome发布:全球仅此一台
快科技7月7日消息,据媒体报道,帕加尼最近发布了Huayra Epitome车型的官方图片。这是一款由帕加尼Grandi Complicazioni定制部门打造的限量版车型
2024-07-07 17:08:00
轴距加长!宝马进口轿跑2系即将国产:现款起售价27.29万元
快科技7月7日消息,据媒体报道,现款宝马2系四门轿跑车即将在8月份停产,而新款预计将于10月发布。未来,华晨宝马计划推出全新2系四门轿跑车长轴距版(底盘代号F78)
2024-07-07 17:38:00
内部人士:AMD差点收购NVIDIA 可惜黄了!黄仁勋坚持当CEO
谁能想到,AMD如今的市值是Intel的足足两倍,NVIDIA的市值则是AMD的十几倍。但是在二十年前,NVIDIA还是三巨头中最弱的那一个
2024-07-07 17:38:00
俄罗斯一卫星爆炸产生至少250个碎片!可能威胁中国空间站
快科技7月7日消息,可实时跟踪低地轨道航天器、为美太空军提供咨询服务的美国太空商业公司LeoLabs发布报告称,6月26日
2024-07-07 18:08:00
上万块钱买了一块RTX 4090:结果竟然是RTX 3080
快科技7月7日消息,显卡维修机构NorthwestRepair最近收到了一块特殊的RTX 4090,乍一看没什么问题,结果发现芯片是假的
2024-07-07 18:08:00
香港街头偶遇“剁椒鱼头”:开车的竟是王祖蓝
这几年,小微型纯电汽车在大街小巷越来越多,还得了一个雅号“剁椒鱼头”。有网友发视频称,在香港街头也意外遇到了一辆“剁椒鱼头”
2024-07-07 19:08:00
60亿光年外 有一颗璀璨的“宝石钻戒”
宇宙的神奇,永远没有尽头。最近,詹姆斯韦布望远镜拍到了约60亿光年外、巨爵座方向的类星体RX J1131-1231的引力透镜现象
2024-07-07 19:08:00
大爷洗鱼不慎水洒伤口险截肢 医生提醒:皮肤有破损勿接触海产品
快科技7月7日消息,据媒体报道,82岁的魏大爷(化名)清洗完黄鱼后,不小心将洗鱼水洒到了有伤口的左脚上。没想到,这两天他的左脚越来越肿痛
2024-07-07 19:08:00
Windows 11记事本喜迎升级:支持拼写检查、自动纠错
快科技7月7日消息,微软近日开始向Windows 11用户推送更新,为平淡无奇的记事本带来了两个非常实用的功能:拼写检查
2024-07-07 19:38:00
锐龙AI 7 PRO 360首次现身:诡异的3个Zen5+5个Zen5c
快科技7月7日消息,除了面向消费级笔记本的锐龙AI 300系列,AMD还在准备主打商务领域的锐龙AI 300 PRO系列
2024-07-07 20:08:00
吉林一号卫星拍洞庭湖决堤:溃口宽达226米、团洲垸被淹92.5%
受持续强降雨影响,7月5日16时,湖南岳阳华容县团洲垸洞庭湖一线堤坝发生管涌险情,随后紧急封堵失败,堤坝于17时48分许决堤
2024-07-07 20:38:00
玉林市举办国际香料产业与技术交流大会
本文转自:人民日报客户端庞革平7月5日,广西玉林国际香料产业与技术交流大会在玉林举行,玉林市国际香料与大健康产业研究院暨江南大学技术转移中心玉林分中心揭牌成立
2024-07-07 21:01:00
独家新观|打造“新质美好人居”生活,看高定家居如何拔得头筹
如果说打造“新质生产力”是各行各业的追求,那么打造“新质美好人居”,则是普通老百姓的共同夙愿。而一个“新质美好人居”的生活空间
2024-07-07 21:07:00
总统的脑袋都被热掉了!林肯蜡像被热化 秒变表情包
这几天,很多人基本都要靠空调保命,天气已经把任热迷糊了,但没想到高温竟然在美国玩了一出斩首行动,把一座林肯蜡像的头都热断了
2024-07-07 21:08:00