• 我的订阅
  • 头条热搜
字节开源全栈AI编程基准,不小心曝光豆包代码大模型
...95%数据集中于数据分析和机器学习,且仅对Python语言进行评测;xCodeEval虽覆盖多项任务,但基本局限于高级编程和数学领域;McEval和MDEval扩展了支持的编程语言,但应用领域仍局限于基础编程和高级编程,未涉及更广泛的场景。...……更多
智慧芽AI助手“芽仔”:你的智能研发专家,开启创新新范式
...型与其他大模型考试成绩图:智慧芽垂直领域大模型能力评测决定一个垂直领域大模型表现的,除了模型本身外,训练数据集同样起到关键性作用。而这恰恰是智慧芽的优势所在。智慧芽垂直领域大模型的预训练数据达到了千亿...……更多
AMD跑大模型终于Yes!MI300X对比NVIDIA H100/200毫不逊色
...出了与NVIDIA H100/200相媲美的实力。根据The Information发布的评测报告,AMD的Instinct MI300X GPU在AI推理基准测试中的表现与NVIDIA的H100 GPU相当,显示出AMD在高性能AI计算领域的进步。这份评测报告由MLCommons提供数据,在……更多
清华发布2024年3月版《SuperBench大模型综合能力评测报告》
...究中心联合中关村实验室研制的SuperBench大模型综合能力评测框架,正式对外发布2024年3月版《SuperBench大模型综合能力评测报告》。评测共包含了14个海内外具有代表性的模型,结果显示:文心一言4.0表现亮眼。例如在人类对齐能...……更多
字节扣子模型广场,给AI大模型搭了一座擂台
...选择什么模型,市面上也没有类似于豆瓣电影评分这样的评测体系。举个例子,小雷这样的科技爱好者想在扣子上创建一个帮助编辑检查文章配图版权、错别字的Bot,但缺乏大模型开发经验的我并不知道扣子上的哪些模型、哪些...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
....com/tianyu-z/VCR (点击阅读原文即可直达,包含评用于模型评测和预训练的数据生成代码) Hugging Face 链接:huggingface.co/vcr-org VCR 数据集简介为了开发 VCR 任务,研究人员构建了一个由图像 - 文字生成 VCR 合成图像的流程。在该……更多
OpenAI o1模型到博士水平了?复旦教授:没有真正推理能力,学到的还是概率相关性
...OpenAI表示, o1模型在推理能力上相比GPT-4o显著进步。综合评测显示,在绝大多数需要深入思考和复杂推理的任务中,新模型都展现出了明显优于GPT-4o的表现,并在多个细分测试上超过90%。在启用视觉感知能力的情况下,o1模型在M...……更多
科学家建立新评价基准,助力评估大模型数据分析能力
...集。虽然这类数据的生成成本较低、人力需求不高,但是评测方法的开发却需要他们逐一校验,因为数据分析的结果并不仅仅依赖于执行的一致性。例如,在生成分类器的问题上,即便参考代码的执行结果和预测代码的结果不一...……更多
昆仑万维发布开源13B高质量商用大模型 领先Llama2和Baichuan2
...-Base模型、Skywork-13B-Math模型,它们在CEVAL, GSM8K等多个权威评测与基准测试上都展现了同等规模模型的最佳效果,其中文能力尤为出色,在中文科技、金融、政务等领域表现均高于其他开源模型。除模型开源外,Skywork-13B系列大模...……更多
容联云容信通过中国信通院“办公即时通信软件安全能力”评测
...院”)“铸基计划-办公即时通信软件安全能力”完备级评测。随着数字化转型的全面提速,场景复杂、边界模糊等问题给移动办公、远程办公带来了诸多网络、数据安全方面的隐患。容联云作为中国信通院铸基计划—办公即时...……更多
清华郑纬民院士:AI for Science的出现,让高性能计算与AI的融合成为刚需|MEET2023
...一个分数、可变的问题规模、具有实际的人工智能意义、评测程序包含必要的多机通信;现在要获HPC领域的戈登贝尔奖,必须要有AI的算法,你没有AI的算法,否则奖都得不了。这是开玩笑的说法,但实际上也是一个趋势;AI for S...……更多
智谱AI新一代基座大模型GLM-4在司南评测中跻身前列,位居国内第一
1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass 2.0),同时揭晓了2023年度大模型公开评测榜单,GPT-4 Turbo在各项评测中均获最佳表现,智谱AI新一代基座大模型GLM-4紧随其后,排名第二。上海人工智...……更多
新能源车评测,懂车帝算是玩明白了
...新能源汽车的基础上,懂车帝正式推出了“6+2新能源汽车评测体系”。该体系共分续航、充电、辅助驾驶等6大维度和冬夏季极限评测2大场景,基于客观真实的实测数据,对新能源车进行综合评分,为消费者提供选买参考。...……更多
2022-12-15 18:40新能源,评测
“整活”保险业务,AI大模型哪家强?
...险行业?10月10日发布的《人工智能大模型保险行业应用评测报告》(以下简称《报告》)便揭晓了答案。根据《报告》,10个主流大模型在知识问答领域表现普遍较好,在智能核保、智能理赔、话术优化上表现不尽如人意,在营...……更多
《金融大模型应用评测指南》发布,系全国首个以金融业务能力...
...首个以金融业务能力为核心的团体标准《金融大模型应用评测指南》,上海库帕思科技有限公司发布多维度金融大模型评测数据集(2024版)。 《金融大模型应用评测指南》,以金融业务为核心,以金融机构模型应用为导向,从...……更多
选机指南:你的5G手机在ToP榜吗?
...中国移动2023年智能硬件质量报告快来围观No.15G手机综合评测TOP排行榜5G手机到底有多快?“手机下载APP,来不及看进度条就已经下完了;各个平台看视频,进度条随便拖,就跟已经缓存的视频一样。”这是现在5G手机用户的真实...……更多
拥有三块A6000的性能猛兽 惠普Z6 G5工作站评测
...配置:惠普Z6 G5核心硬件可根据用户需求进行定制,本次评测样机搭载36核72线程的Intel Xeon W9-3475X处理器,插入了8条32GB ECC DDR5内存,内存总容量高达256GB,显卡配满了3块NVIDIA RTX A6000专业独显,硬盘配置了2块2TB SSD和2块12T……更多
...民网北京10月23日电 (记者申佳平)《智能制造效能通用评测方法》标准编制工作组成立暨第一次工作组会议日前在京举行。来自机械工业仪器仪表综合技术经济研究所(以下简称仪综所)、中国信息通信研究院、中国电子技术...……更多
国产ai大模型首批评估名单公布
...表现优秀,获得4+评级。以阿里云通义灵码为例,信通院评测结果显示:在通用能力方面,通义灵码在代码转换、代码检查及修复、代码优化等方面表现突出;在专用场景方面,通义灵码提供网站开发、数据库开发、大数据开发...……更多
正式签约!合肥首家科创数字化融资平台中科星元平台成立
...下跑金融机构,仅需在平台上提交测评资料,随后5秒出评测结果,3秒匹配金融产品的高效融资服务;其次是成本低,费用透明无任何传统中介融资的种种附加费用,同时后台全流程清晰,融资进程一目了然。在该模式下,平台...……更多
云从科技从容大模型荣登中国大模型第一梯队
...可,也是中国AI技术实力的有力证明。 云从科技在综合评测权威平台OpenCompass的多模态评测领域中也取得了重大进展。最新评测结果显示,从容大模型在该体系中的平均得分为65.5,这一成绩使其跻身全球前三,超越了谷歌的Gem...……更多
...信通院与北京智源研究院、天津大学等联合发布了大模型评测体系3.0,暨“方升”大模型基准测试体系。据介绍,测试指标重点强化行业和场景导向的能力考查,提出了自适应动态测试方法,测试数据超过百万条,并首次推出面...……更多
AMD的GPU跑AI模型终于Yes了?PK英伟达H100不带怕的
...,专注计算硬件的科技媒体 The Information 发布了一份对比评测报告,声称是首个直接对比 AMD 和英伟达 AI 集群的基准评测。该报告的数据来自 MLCommons,这是一个由供应商主导的评测机构。他们构建了一套 MLPerf AI 训练和推理基准...……更多
百川智能发布baichuan3稳定语言模型
...布超千亿参数的大语言模型Baichuan3。在多个权威通用能力评测如CMMLU、GAOKAO和AGI-Eval中,Baichuan3都展现了出色的能力,尤其在中文任务上更是超越了GPT-4。而在数学和代码专项评测如MATH、HumanEval和MBPP中同样表现出色,证明了Baichua...……更多
小米SU7供应商嘉晨电子拟IPO 雷军背后入股|企业创新评测实验室
...月申请上市辅导验收,对于嘉晨电子的IPO之路,企业创新评测实验室将持续关注。“企业创新评测实验室”:由专注新兴产业与资本的权威媒体《科创板日报》发起,旨在研究公司科创实力,凭借企业科创力评估模型,从技术质...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...OpenAI,Mistral最近压力不小。端侧小模型端不出来,对比评测的结果又遭到质疑。上个月震撼登场的自家首款多模态大模型Pixtral 12B,也疑似遇到了成绩不如人的窘境。不过世间纷扰,留待时间之中去见分晓。毕竟Mistral AI当年也...……更多
做好数字化转型,“专精特新”企业需要用好“评测罗盘”
...的怎么样?01 想要飞过数字化的“沧海”,离不开这块“评测罗盘”尽管中国数字经济整体正处于高速发展阶段,但对于“专精特新”及更多普通中小企业来说,数字化转型进程仍难言乐观。 根据中国电子技术标准化研究院发...……更多
...型“高分低能”是怎么做到的?原因其实很简单,那就是评测中出现了数据污染和泄露。简单来说,榜单排名类似于有第三方“考官”出了一个题库,题库中大量考题针对性测评大模型各个方面的能力,而有的“考生”提前拿到...……更多
自动驾驶元年临近 知行汽车科技能否跟上技术迭代?|企业创新评测实验室
...研发支出实现技术的更新迭代值得持续关注。“企业创新评测实验室”:一级市场及科创板权威媒体科创板日报联合智慧芽发起,旨在研究公司科创实力,凭借企业科创力评估模型,从技术质量、专利布局、技术影响力、公司竞...……更多
AI界新晋王者被曝抄袭、作弊、做假,脸都丢光了
...比如,谷歌引以为傲的MMLU,是一个由伯克利大学主导的评测,囊括阅读理解、大学数学以及物理和社会科学等57项测验。但如果说,这些题目,是可以事先得知的呢?9月,中国人民大学与伊利诺伊大学香槟分校联合推出了一个...……更多
更多关于科技的资讯:
天津北方网讯:为保护湿地生态系统,促进科学管理和研究,增加社会参与意识,积极探索“两山”转化实践模式,12月16日七里海管委会将与津云新媒体
2024-12-11 00:43:00
丧命式自救后巨大鱼刺直扎男子心脏 医生:自救方法不可取
12月11日消息,据媒体报道,浙江的胡先生吃鱼时被鱼刺卡住了喉咙,他尝试猛吞蔬菜、狂喝水,一顿操作下来刺痛的感觉并无缓解
2024-12-11 00:44:00
罗振宇分享华为matex6,惊喜功能称强得飞起
12月10日消息,罗振宇在跨年演讲倒计时视频中正式官宣华为成为跨年演讲合作伙伴。与此同时,罗振宇正式拿到了心心念念的华为MateX6折叠屏
2024-12-11 01:14:00
广州电动自行车新规限速每小时15公里 专家建议外卖平台调整考核
快科技12月11日消息,《广州市电动自行车管理规定》(以下简称《规定》)将从2024年12月30日施行。其中,“限速每小时15公里”
2024-12-11 01:14:00
雷军的第二台车YU7 肯定会比SU7火
大新闻啊大新闻,就在昨晚,已经传了几个月谍照的米车二号,人称法拉米的小米 YU7 终于官宣亮相了。虽然根据小米的说法这台车要到明年的六七月份才会上市
2024-12-11 01:14:00
小米yu7ultra渲染图公布,搭载三元锂电池
昨日晚上,小米借着工信部信息披露的事件,突然宣布了新车小米YU7的到来,在网络上引发了热议,还一度登上了热搜。在新车正式公布后
2024-12-11 02:06:00
第一款静音无风扇的锐龙7 8840U迷你机发布:可惜是工业用
快科技12月10日消息,基于AMD锐龙平台的迷你机越来越丰富,工业PC厂商OnLogic带来了第一款没有风扇、完全静音的锐龙7 8840U迷你机“ML100G-42”
2024-12-11 02:44:00
全球首次:中国的磁阳极霍尔电推成功在轨应用
2024年11月11日,“吉林一号”高分05B卫星成功发射入轨,主要用于验证高分辨新研载荷成像能力、高速星地激光数传业务化能力
2024-12-11 03:14:00
首款电动车要过冬了 理想汽车拿出“三板斧”
对于今年上市交付的理想MEGA和理想旗下首搭磷酸铁锂电池的L6来说,算是首次过冬。而电动车在冬天就秉性大变成了“电动爹”
2024-12-11 03:14:00
活煮螃蟹等同虐待? 专家说 它们真的会痛
活蟹蒸着吃,是我们最常用的烹饪手段,也算是对新鲜食材的一种尊重。死蟹容易滋生细菌,存在安全隐患。然而,瑞典哥德堡大学的动物学家则表示
2024-12-11 03:14:00
“中国建造”奔向“中国智造”
本文转自:人民日报海外版中国建筑科技展近期在北京展出——“中国建造”奔向“中国智造”本报记者 廖睿灵《人民日报海外版》(2024年12月11日第 11 版)在中国建筑科技展“助力中国建造”展区一角
2024-12-11 05:17:00
本文转自:人民日报海外版周 景《人民日报海外版》(2024年12月11日第 08 版)在不久前举行的第十一届世界互联网大会上
2024-12-11 05:20:00
业态向“新” 活力释放(消费视窗·促进服务消费扩容升级)
本文转自:人民日报以数字、绿色等为特征的新型服务消费市场活跃 业态向“新” 活力释放(消费视窗·促进服务消费扩容升级)本报记者 齐志明 宋豪新 周 欢绿色
2024-12-11 06:04:00
本文转自:人民日报国家认监委发布小微企业质量管理体系认证提升行动方案 提升产品质量 增加优质供给(消费万花筒)本报记者 林丽鹂入冬以来
2024-12-11 06:04:00
达产后年均营业收入 有望超过8亿元杭州日报讯 近日,位于浙江余杭经济开发区(以下简称“余杭经开区”)的浙江瑞银电子有限公司(以下简称“瑞银电子”)先进数智化绿色制造基地迎来了投产试运营的重要时刻
2024-12-11 06:56:00