• 我的订阅
  • 头条热搜
字节开源全栈AI编程基准,不小心曝光豆包代码大模型
...95%数据集中于数据分析和机器学习,且仅对Python语言进行评测;xCodeEval虽覆盖多项任务,但基本局限于高级编程和数学领域;McEval和MDEval扩展了支持的编程语言,但应用领域仍局限于基础编程和高级编程,未涉及更广泛的场景。...……更多
智慧芽AI助手“芽仔”:你的智能研发专家,开启创新新范式
...型与其他大模型考试成绩图:智慧芽垂直领域大模型能力评测决定一个垂直领域大模型表现的,除了模型本身外,训练数据集同样起到关键性作用。而这恰恰是智慧芽的优势所在。智慧芽垂直领域大模型的预训练数据达到了千亿...……更多
AMD跑大模型终于Yes!MI300X对比NVIDIA H100/200毫不逊色
...出了与NVIDIA H100/200相媲美的实力。根据The Information发布的评测报告,AMD的Instinct MI300X GPU在AI推理基准测试中的表现与NVIDIA的H100 GPU相当,显示出AMD在高性能AI计算领域的进步。这份评测报告由MLCommons提供数据,在……更多
清华发布2024年3月版《SuperBench大模型综合能力评测报告》
...究中心联合中关村实验室研制的SuperBench大模型综合能力评测框架,正式对外发布2024年3月版《SuperBench大模型综合能力评测报告》。评测共包含了14个海内外具有代表性的模型,结果显示:文心一言4.0表现亮眼。例如在人类对齐能...……更多
字节扣子模型广场,给AI大模型搭了一座擂台
...选择什么模型,市面上也没有类似于豆瓣电影评分这样的评测体系。举个例子,小雷这样的科技爱好者想在扣子上创建一个帮助编辑检查文章配图版权、错别字的Bot,但缺乏大模型开发经验的我并不知道扣子上的哪些模型、哪些...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
....com/tianyu-z/VCR (点击阅读原文即可直达,包含评用于模型评测和预训练的数据生成代码) Hugging Face 链接:huggingface.co/vcr-org VCR 数据集简介为了开发 VCR 任务,研究人员构建了一个由图像 - 文字生成 VCR 合成图像的流程。在该……更多
OpenAI o1模型到博士水平了?复旦教授:没有真正推理能力,学到的还是概率相关性
...OpenAI表示, o1模型在推理能力上相比GPT-4o显著进步。综合评测显示,在绝大多数需要深入思考和复杂推理的任务中,新模型都展现出了明显优于GPT-4o的表现,并在多个细分测试上超过90%。在启用视觉感知能力的情况下,o1模型在M...……更多
科学家建立新评价基准,助力评估大模型数据分析能力
...集。虽然这类数据的生成成本较低、人力需求不高,但是评测方法的开发却需要他们逐一校验,因为数据分析的结果并不仅仅依赖于执行的一致性。例如,在生成分类器的问题上,即便参考代码的执行结果和预测代码的结果不一...……更多
昆仑万维发布开源13B高质量商用大模型 领先Llama2和Baichuan2
...-Base模型、Skywork-13B-Math模型,它们在CEVAL, GSM8K等多个权威评测与基准测试上都展现了同等规模模型的最佳效果,其中文能力尤为出色,在中文科技、金融、政务等领域表现均高于其他开源模型。除模型开源外,Skywork-13B系列大模...……更多
容联云容信通过中国信通院“办公即时通信软件安全能力”评测
...院”)“铸基计划-办公即时通信软件安全能力”完备级评测。随着数字化转型的全面提速,场景复杂、边界模糊等问题给移动办公、远程办公带来了诸多网络、数据安全方面的隐患。容联云作为中国信通院铸基计划—办公即时...……更多
清华郑纬民院士:AI for Science的出现,让高性能计算与AI的融合成为刚需|MEET2023
...一个分数、可变的问题规模、具有实际的人工智能意义、评测程序包含必要的多机通信;现在要获HPC领域的戈登贝尔奖,必须要有AI的算法,你没有AI的算法,否则奖都得不了。这是开玩笑的说法,但实际上也是一个趋势;AI for S...……更多
智谱AI新一代基座大模型GLM-4在司南评测中跻身前列,位居国内第一
1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass 2.0),同时揭晓了2023年度大模型公开评测榜单,GPT-4 Turbo在各项评测中均获最佳表现,智谱AI新一代基座大模型GLM-4紧随其后,排名第二。上海人工智...……更多
新能源车评测,懂车帝算是玩明白了
...新能源汽车的基础上,懂车帝正式推出了“6+2新能源汽车评测体系”。该体系共分续航、充电、辅助驾驶等6大维度和冬夏季极限评测2大场景,基于客观真实的实测数据,对新能源车进行综合评分,为消费者提供选买参考。...……更多
2022-12-15 18:40新能源,评测
“整活”保险业务,AI大模型哪家强?
...险行业?10月10日发布的《人工智能大模型保险行业应用评测报告》(以下简称《报告》)便揭晓了答案。根据《报告》,10个主流大模型在知识问答领域表现普遍较好,在智能核保、智能理赔、话术优化上表现不尽如人意,在营...……更多
《金融大模型应用评测指南》发布,系全国首个以金融业务能力...
...首个以金融业务能力为核心的团体标准《金融大模型应用评测指南》,上海库帕思科技有限公司发布多维度金融大模型评测数据集(2024版)。 《金融大模型应用评测指南》,以金融业务为核心,以金融机构模型应用为导向,从...……更多
选机指南:你的5G手机在ToP榜吗?
...中国移动2023年智能硬件质量报告快来围观No.15G手机综合评测TOP排行榜5G手机到底有多快?“手机下载APP,来不及看进度条就已经下完了;各个平台看视频,进度条随便拖,就跟已经缓存的视频一样。”这是现在5G手机用户的真实...……更多
拥有三块A6000的性能猛兽 惠普Z6 G5工作站评测
...配置:惠普Z6 G5核心硬件可根据用户需求进行定制,本次评测样机搭载36核72线程的Intel Xeon W9-3475X处理器,插入了8条32GB ECC DDR5内存,内存总容量高达256GB,显卡配满了3块NVIDIA RTX A6000专业独显,硬盘配置了2块2TB SSD和2块12T……更多
...民网北京10月23日电 (记者申佳平)《智能制造效能通用评测方法》标准编制工作组成立暨第一次工作组会议日前在京举行。来自机械工业仪器仪表综合技术经济研究所(以下简称仪综所)、中国信息通信研究院、中国电子技术...……更多
国产ai大模型首批评估名单公布
...表现优秀,获得4+评级。以阿里云通义灵码为例,信通院评测结果显示:在通用能力方面,通义灵码在代码转换、代码检查及修复、代码优化等方面表现突出;在专用场景方面,通义灵码提供网站开发、数据库开发、大数据开发...……更多
正式签约!合肥首家科创数字化融资平台中科星元平台成立
...下跑金融机构,仅需在平台上提交测评资料,随后5秒出评测结果,3秒匹配金融产品的高效融资服务;其次是成本低,费用透明无任何传统中介融资的种种附加费用,同时后台全流程清晰,融资进程一目了然。在该模式下,平台...……更多
云从科技从容大模型荣登中国大模型第一梯队
...可,也是中国AI技术实力的有力证明。 云从科技在综合评测权威平台OpenCompass的多模态评测领域中也取得了重大进展。最新评测结果显示,从容大模型在该体系中的平均得分为65.5,这一成绩使其跻身全球前三,超越了谷歌的Gem...……更多
...信通院与北京智源研究院、天津大学等联合发布了大模型评测体系3.0,暨“方升”大模型基准测试体系。据介绍,测试指标重点强化行业和场景导向的能力考查,提出了自适应动态测试方法,测试数据超过百万条,并首次推出面...……更多
AMD的GPU跑AI模型终于Yes了?PK英伟达H100不带怕的
...,专注计算硬件的科技媒体 The Information 发布了一份对比评测报告,声称是首个直接对比 AMD 和英伟达 AI 集群的基准评测。该报告的数据来自 MLCommons,这是一个由供应商主导的评测机构。他们构建了一套 MLPerf AI 训练和推理基准...……更多
百川智能发布baichuan3稳定语言模型
...布超千亿参数的大语言模型Baichuan3。在多个权威通用能力评测如CMMLU、GAOKAO和AGI-Eval中,Baichuan3都展现了出色的能力,尤其在中文任务上更是超越了GPT-4。而在数学和代码专项评测如MATH、HumanEval和MBPP中同样表现出色,证明了Baichua...……更多
小米SU7供应商嘉晨电子拟IPO 雷军背后入股|企业创新评测实验室
...月申请上市辅导验收,对于嘉晨电子的IPO之路,企业创新评测实验室将持续关注。“企业创新评测实验室”:由专注新兴产业与资本的权威媒体《科创板日报》发起,旨在研究公司科创实力,凭借企业科创力评估模型,从技术质...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...OpenAI,Mistral最近压力不小。端侧小模型端不出来,对比评测的结果又遭到质疑。上个月震撼登场的自家首款多模态大模型Pixtral 12B,也疑似遇到了成绩不如人的窘境。不过世间纷扰,留待时间之中去见分晓。毕竟Mistral AI当年也...……更多
做好数字化转型,“专精特新”企业需要用好“评测罗盘”
...的怎么样?01 想要飞过数字化的“沧海”,离不开这块“评测罗盘”尽管中国数字经济整体正处于高速发展阶段,但对于“专精特新”及更多普通中小企业来说,数字化转型进程仍难言乐观。 根据中国电子技术标准化研究院发...……更多
...型“高分低能”是怎么做到的?原因其实很简单,那就是评测中出现了数据污染和泄露。简单来说,榜单排名类似于有第三方“考官”出了一个题库,题库中大量考题针对性测评大模型各个方面的能力,而有的“考生”提前拿到...……更多
自动驾驶元年临近 知行汽车科技能否跟上技术迭代?|企业创新评测实验室
...研发支出实现技术的更新迭代值得持续关注。“企业创新评测实验室”:一级市场及科创板权威媒体科创板日报联合智慧芽发起,旨在研究公司科创实力,凭借企业科创力评估模型,从技术质量、专利布局、技术影响力、公司竞...……更多
AI界新晋王者被曝抄袭、作弊、做假,脸都丢光了
...比如,谷歌引以为傲的MMLU,是一个由伯克利大学主导的评测,囊括阅读理解、大学数学以及物理和社会科学等57项测验。但如果说,这些题目,是可以事先得知的呢?9月,中国人民大学与伊利诺伊大学香槟分校联合推出了一个...……更多
更多关于科技的资讯:
科医人发布全新第八代M22系列产品,为消费者带来更多品质选择
12月5日,科医人(Lumenis)在沪发布全新第八代M22Stellar聚星超光子仪器,为消费者带来更多品质选择。据了解
2024-12-07 17:41:00
中国电工技术学会与南京鼓楼区共建“电气人工智能示范区”
本文转自:人民网-江苏频道活动现场。鼓轩摄12月6日至8日,第一届电气人工智能大会在南京市鼓楼区举办,中国电工技术学会与鼓楼区政府共建的“中国电工技术学会电气人工智能示范区”揭牌
2024-12-07 21:13:00
2024广州设计周开幕 JIN ARTS携仿生机器人亮相
本文转自:人民网2024年12月6日至9日,年度主题为“一起”的广州设计周,在广州保利世贸博览馆、广州国际采购中心及南丰国际会展中心三馆同期举办
2024-12-07 17:23:00
叮,您有一份抖音商城双12直播日历待查收
12月6日-12月12日,精彩直播不停歇,好货好价放心买!福利送不停!抖音商城双12超值天团拉开年终狂欢序幕直击时尚前沿
2024-12-07 18:45:00
「年终狂欢季」正式开启,“爆单攻略”请查收!
年末节点,双12、元旦等节日接踵而至,消费者购买热情不减,消费心智成熟,是商家冲刺全年GMV的又一关键阶段。在这一重要节点
2024-12-07 18:46:00
看到胡椒就“伸手” 智能胡椒采摘机器人亮相冬交会
南海网12月7日消息(记者 王子遥)12月7日,在2024年第27届中国(海南)国际热带农产品冬季交易会海南大学展台内
2024-12-07 19:39:00
中国人开始买机器人养老了
原标题 | 中国人开始买机器人养老了作者 | 方远编辑 | 周褶褶排版 | 魏蔚 严毛敏独自居住在上海黄浦区一栋电梯公寓中
2024-12-07 14:59:00
《企业如何做好小程序的版本迭代》
在当今数字化时代,小程序已成为众多企业连接用户、拓展业务的重要工具。然而,小程序的成功并非一蹴而就,持续的版本迭代是保持其竞争力和适应性的关键
2024-12-07 12:50:00
《小程序收集用户反馈全攻略——企元数智为你支招》
一、引言企元数智作为专业的小程序开发服务提供商,在收集用户反馈方面有着独特的优势和方法。本文将详细介绍如何通过小程序高效收集用户反馈
2024-12-07 12:55:00
载人飞碟、吨级无人机集中亮相浙江交博会 展现低空经济产业新潮流
消费日报网讯(记者 牛夏风)低空经济作为战略性新兴产业,是培育新质生产力的重要领域。在第六届浙江国际智慧交通产业博览会(以下简称“博览会”)上
2024-12-07 13:03:00
波司登亮相企业家博鳌论坛 “时尚+科技”引领新质潮流
12月2日至4日,2024企业家博鳌论坛系列活动在海南博鳌举行,包括世界500强、中国500强和行业领军企业家在内的各界嘉宾汇聚一堂
2024-12-07 13:03:00
浙江交通集团交博会秀科技 展现智慧交通的魅力
消费日报网讯(记者 叶德宝 马佳丽)12月5日,第六届浙江国际智慧交通产业博览会在杭州国际博览中心盛大开幕,现场人声鼎沸
2024-12-07 13:04:00
三排九座 全新现代旗舰SUV帕里斯帝官图发布:比路虎还气派
快科技12月7日消息,现代官方发布了一组2026款帕里斯帝车型官图,此次为换代车型,针对外观和内饰进行了全面升级。新车采用了家族式最新的设计语言
2024-12-07 13:41:00
荆荆高铁明日正式开通运营!湖北省实现市市通高铁
快科技12月7日消息,据中国铁路官方介绍,12月8日荆门至荆州高铁(以下简称荆荆高铁)将开通运营,荆门西至荆州、汉口最快28分
2024-12-07 13:41:00
继全系列商用车刀片电池后,潍柴动力再次发布全系列工程机械刀片电池
鲁网12月7日讯(记者 王明玉)在能源低碳转型,释放绿色发展动能的大背景下,纯电工程机械市场渗透率逐步提升。数据显示,2024年1-10月
2024-12-07 14:26:00