• 我的订阅
  • 头条热搜
9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了
...模型的短板,此前行业也多次讨论过大模型的数学和复杂推理能力较差,即便是目前最好的大模型GPT-4也仍然有很大进步空间。最近的一次,第一财经曾在6月报道过,根据司南评测体系OpenCompass的高考全卷测试,包括GPT-4在内,7...……更多
商汤科技sensetime推出“云端边”全栈大模型体系
...的指导下,会持续探索大模型能力的KRE三层架构(知识-推理-执行),不断突破大模型能力边界。”“日日新SenseNova5.0”性能超越GPT-4 Turbo:文理双修能力大幅提升,新增多模态交互自去年4月首次发布,商汤“日日新SenseNova”大...……更多
2023内容科技应用典型案例:农业银行大模型ChatABC
...解决模型并行、数据并行等训练难题,提升AI大模型训练推理效率。应用:探索大模型知识融合新架构。构建异构知识库,支持全文检索、知识推理等各类知识检索场景需求。深度定制全文检索框架,支持文档类知识的高性能精...……更多
这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct
...著提升,而背后的成功离不开后训练阶段强化学习训练和推理阶段思考计算量的增大。基于此,有人认为,新的扩展律 —— 后训练扩展律(Post-Training Scaling Laws) 已经出现,并可能引发社区对于算力分配、后训练能力的重新思...……更多
周鸿祎:发展大模型要有AI信仰
...是人类第一次让电脑能够把人类所有的知识理解、存储、推理,对人类的语言有了完整的了解。语言为什么这么重要呢?因为我们人类和动物最大的差别,是我们用语言在描述这个世界,所以一旦机器理解了人类的语言,跟人类...……更多
首个AI高考全卷评测结果发布:最高分303,数学全不及格
...。在数学方面大模型还有很大的提升空间。数学关乎复杂推理相关能力,这是大模型普遍面临的难题,也是大模型在金融、工业等要求可靠的场景落地需要的关键能力。上海人工智能实验室领军科学家林达华此前在采访中对第一...……更多
AI智能体,构建智慧生活新图景
...使用的语言交流服务,AI智能体还能根据上下文进行智能推理和情感分析,并模仿人类行为进行相应的操作。比如,下达“帮我做一道菜”这项任务指令,“大模型厨师”只能输出一份食谱并指出需要哪些食材;“AI智能体厨师...……更多
2023IDEA大会:让大模型更好应对复杂问题
...本正经的胡说八道”怎么解?众所周之,大模型存在深度推理能力差、知识不可追溯、实时更新代价高等局限性,这也成为其在许多严肃领域落地的主要瓶颈。如何弥补大模型的这部分缺陷,是当下AI应用的重要课题。为此,IDEA...……更多
突发!谷歌发布史上最强大模型Gemini,打爆GPT-4
...们刚才所述,32个基准测试中拿下30个SOTA。其中,通用、推理、数学和编程等大方向的成绩如下表所示:△Gemini 在包括文本和编码在内的一系列基准测试中达到SOTA 在多模态方面,Gemini Ultra在新的MMMU基准测试中也获得了59.4%的SOT...……更多
阿里巴巴“AI驱动”战略提速 夸克发布自研大模型
...、智能检索的专业服务。性能方面,凭借语义理解、逻辑推理、内容生成等技术优势,夸克大模型在CMMLU权威榜单的最新评测结果中,取得优异成绩。同时,夸克大模型具备了对不良、虚假信息识别、回答和指引的出色能力。知...……更多
文 | 周鑫雨编辑 | 邓咏仪36氪获悉,AI推理部署解决方案厂商“清昴智能”近日完成了数千万元Pre-A+轮融资,启赋资本、达晨财智领投,老股东奇绩创坛跟投。此前,清昴智能已获得某世界500强科技巨头公司的千万元战略投资。...……更多
Meta版Sora深夜横空出世,小扎放出16秒高清大片!92页论文曝光技术细节,Llama 3架构立功
...验结果发现,Movie Gen Video模型能够理解物理世界——可以推理物体运动、主-客体交互、几何关系、相机运动、物理规律,以及各种概念的合理运动。在微调阶段,研究人员精选了一部分视频,对模型在美学、运动质量方面完成...……更多
“80后死亡率超5%”,别上假数据的当
...》表示:“生成式人工智能的主要功能,一是搜索,二是推理。前者通常要有基础数据,它才能搜到。而幻觉更可能出现在推理的环节。” 她指出,人类本身就会产生幻觉,而人工神经网络系统学习的是人类神经系统。“生成...……更多
智源评测体系发布 国内外“百模”评估结果出炉
...、客观两个维度考察了语言模型的简单理解、知识运用、推理能力、数学能力、代码能力、任务解决、安全与价值观七大能力;针对多模态模型则主要评估了多模态理解和生成能力。评测结果显示,在中文语境下,国内头部语言...……更多
能与人类谈判、游戏水平媲美真人,Meta 是如何构建新人工智能 CICERO 的?
...两个完全不同的人工智能研究领域并开发了新技术:战略推理(如 AlphaGo 和 Pluribus 等代理中使用的技术)和自然语言处理(如 GPT-3、BlenderBot 3、LaMDA 和 OPT-175B 等模型中使用的技术)。举个例子,CICERO 可以推断出,在游戏后期,...……更多
微软宣布Team Copilot发布,年内将推出初步预览版
...电脑,二是在信息日益增加的世界,电脑能不能帮助人类推理、规划以及更有效地运用所有的信息。纳德拉认为,现在这波AI浪潮能为微软找到实现这两大梦想的答案。随后,Nadella聚焦Copilot。纳德拉提到了包含随时可用本地API...……更多
ChatGPT o1满血版上线!实测中它竟然败给了国产AI?
...特曼用一个简单的柱状图给出了对比:可以看到o1在数学推理和编程领域的表现要明显优于o1-preview,提升幅度在50%左右,而在科研领域的测试里,o1相对于o1-preview的表现就提升有限了。图源:OpenAI考虑到o1模型不需要额外加钱就...……更多
谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
... 2此次提供的90亿(9B)和270亿(27B)参数的两个版本,其推理性能和效率均优于第一代,并具有显著的安全性改进。事实上,270亿参数版本可以与体积超过其两倍的模型进行同等级别的竞争,并且提供了此前只有专有模型才能实...……更多
浙大校友自研跨模态模型,打造具身智能的“通用语法”
...型、有效预测未来行为、以及在复杂交互场景中进行灵活推理等方面仍然面临挑战。图丨谷歌 PaLM-E[2](来源:arXiv) 由功能型到智能型的转变总的来说,由于技术水平的限制,关于具身智能的构想并未得到充分发展。直到近来...……更多
石油巨头牵手DeepSeek
...仑大模型的问答应用“行业大家”目前已新增DeepSeek深度推理能力。用户使用“行业大家”开展行业问答时,除了可以得到昆仑大模型生成的能源化工领域专业问答结果,还能自主选择切换至“深度思考”模式,体验知识推理、...……更多
无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成
...的长依赖任务中的多信息检索、时间重排序、计算、理解推理能力表现均不乐观。比如像Claude3-200k,GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex这种商业模型,平均只有40%的准确率。而像开源模型表现就更不理想了…ChatGLM2-6B、LongLL……更多
机器人,“链”上滨江
...相便在全球开源圈引发轰动,它可以通过自我修正和多步推理提升泛化能力,具备准确的视觉识别能力、专业的知识推理能力、清晰的文本表达能力,目前已实现在高泛化开放视觉理解中的技术突破与应用。“依托VLM-R1模型,我...……更多
腾讯Angel机器学习平台获世界互联网大会领先科技奖
...腾讯Angel 机器学习平台,突破了万亿级模型分布式训练和推理以及大规模应用部署等难题,率先实现大模型技术从底层硬件到关键软件技术的自主研发,在业务场景广泛应用,显著推动实体产业和数字经济发展,提升社会效率。...……更多
...超2.5倍,年均复合增速近40%。二是算力结构的显著变化,推理算力需求将超过训练算力需求,未来3年,推理算力年复合增速将达到训练算力的近4倍,到2028年,推理算力规模将超过训练算力规模。这一进程将给算网发展注入新的...……更多
专访微软AI CEO:没有 OpenAI,我们也能训练出世界上最好的模型
...将其聚合成概念表征,帮助我们在复杂的空间中更有效地推理,预测世界可能会如何发展,然后根据这些预测采取行动。无论你是在做一张桌子,还是在和朋友打棒球,你所经历的每一个环境都具有这些特征。因此,如果我们能...……更多
首个AI高考全卷评测结果发布:数学全都不及格
...三甲都擅长文科,语文和英语成绩优良,然而它们的数学推理能力有待提升,高考数学成绩都不及格。目前,数学是所有大模型的短板,得益于上海人工智能实验室在数学推理上的投入,“书生·浦语”2.0文曲星在高考中得到75...……更多
ASC24超算大赛启动会在京举行,大模型推理等成为赛题
...在上海大学举行的总决赛。据悉,今年的赛题包括大模型推理优化、渗流数值模拟,以及国际通行基准测试HPL和HPCG等。来自高性能计算和人工智能领域的中国科学院院士、中国工程院院士、专家学者及参赛师生代表等参加了启...……更多
通义千问再放大招:720亿大模型开源,全尺寸赶上LLaMA-2,还有移动端可用的18亿模型
...72B在C-Eval、CMMLU、GaokaoBench等基准得分超越GPT-4。而在数学推理方面,Qwen-72B在GSM8K、MATH测评中也领先其他开源模型;代码理解方面,Qwen-72B在HumanEval、MBPP等测评中的表现大幅提升,代码能力也有质的飞跃。△72B模型做数学题 ……更多
...来是人的能力。但是今天的Sora能理解了,可以做出一些推理和判断了,这是它的震撼所在。颠覆性创新会越来越多记者:有人将Sora视为走向通用人工智能的重要里程碑,您怎么看?高奇琦:所谓通用人工智能,简单地讲,就是...……更多
鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆
...凡的性能而获得了前所未有的关注。然而, LLM 的训练和推理成本高昂,人们一直在尝试通过各种优化方法来降低成本。本文来自上海算法创新研究院、北京大学等机构的研究者受人类大脑记忆层次结构的启发,他们通过为 LLM ...……更多
更多关于社会的资讯:
陪聊、助行、守护 养老机器人让照护更暖更智慧
谈及养老,在传统认知中,往往是护工的悉心照料、家人的床前相伴。但您或许想不到,如今在不少地方,养老机器人已悄然走进老年人的生活
2025-12-05 08:13:00
杭州男子买机票有5元差价 起诉获赔2665元
小强热线浙江教科.浙江电视台教科影视频道晚间21点至22点播出,大事小事有事您说话。 小强帮忙团:您的困难,我们一起想办法
2025-12-05 08:13:00
科研新突破!中国科学家破解植物再生密码
植物在其整个生命周期中能够持续不断地产生新的枝、叶、花与果实,这一切的生命律动,都源于一类核心的细胞群——植物干细胞。它们分布于茎顶端
2025-12-05 08:13:00
2026年杭州公园年卡即日起开始办理了。记者从杭州市公民卡公司了解到,今年公园年卡的费用与往年一样。首次办理费为50元/张/年
2025-12-05 08:13:00
由国家市场监管总局组织起草的《外卖平台服务管理基本要求》,在12月2日发布并实施。这个标准是针对外卖平台吗?它能够解决哪些问题
2025-12-05 08:13:00
厦门网讯(厦门日报记者 张玉榕 通讯员 詹坚宏 张玉辉 江昌铭 )一个在颈部潜伏十余年、大如成人拳头的甲状腺肿瘤,“扼住”了79岁吴奶奶的咽喉
2025-12-05 08:27:00
“向下扎根、向上生长”——青年主持人辛嘉宝的专业之路与传媒初心
当今,传播媒介日新月异,时代浪潮奔涌向前,一批有理想、有担当的青年传媒人正以专业与热忱书写新的答卷。其中,一个自信靓丽的身影频繁出现在中央媒体平台和国家级的舞台上——她既能在庄重的政务会议中沉稳执麦
2025-12-05 08:27:00
中国基础教育“优秀传统文化教育”现场会在济宁任城召开
鲁网济宁12月4日讯(记者 谢学刚 孔祥梅 )为深入推动中华优秀传统文化与教育教学的深度融合,探索中国特色教育发展路径
2025-12-05 08:42:00
长白时评评论员 四岳近日,网络上出现关于“四川射洪一事业编考生成绩第一,被卫健局判定不合格”的相关信息,引发社会关注
2025-12-05 11:18:00
用“爱”的密码,解锁“心”的世界——林州市世纪学校小学部
教师简介:申青,林州市世纪学校四年级(10)班数学教师兼班主任。“爱是教育的全部技巧”,这句箴言深深烙印在她的教育生涯中
2025-12-05 11:31:00
静安企业入选工信部“AI+” 实践样本 AI Agent数字员工赋能高效协同
近日,2025专精特新中小企业发展大会在重庆举行。静安区企业壹沓科技凭借全球领先的“小沓AIAgent数字员工平台”成功入选工信部2025年中小企业人工智能典型应用场景
2025-12-05 11:34:00
鲁网12月5日讯近日,客户王阿姨接到一个陌生电话,对方自称是“某金融服务公司”,能帮助她办理之前购买的某款重疾险的“全额退保”
2025-12-05 11:42:00
鲁网12月5日讯李先生为自己购买了一份住院医疗保险。在投保时,健康问卷中明确询问“过去五年内是否有住院记录”,李先生因三年前一次因“胃炎”住院的经历觉得不严重
2025-12-05 11:46:00
当民营企业家们的鬓角渐渐染霜,“孩子能不能接好班”成了饭桌上、会议室里最常被提起的话题。在民营企业扎堆的浙江,这个问题更是迫在眉睫
2025-12-05 11:47:00
汽车大V陈震被全网禁言,总粉丝超2400万
深夜,不少网友发现,车圈大V陈震突然被禁言。微博、抖音、快手、小红书平台显示,该用户因违反相关法律法规和政策,已被禁言
2025-12-05 11:48:00