• 我的订阅
  • 头条热搜
OpenCity大模型预测交通路况,零样本下表现出色,来自港大百度
...未来一小时内的交通状况。然而,它们在泛化到更长时间框架,如未来几小时或几天的能力明显有限。 这种限制主要是由于模型在有效处理实际城市场景中较长时间范围内发生的时间分布变化方面的泛化能力较差。随着预测时...……更多
超级推理模型正面对垒:谷歌版o1发布次日,OpenAI o1下一代o3登场
...发布新的推理模型之前,他更希望有一个联邦政府的测试框架,指导监控和减轻此类模型的风险。Altman说,在OpenAI发布o3之前,“应该有某种联邦测试框架,说明我们最感兴趣的是监控和缓解危害,类似于这里有一组测试,在你...……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
【新智元导读】谷歌DeepMind推出LLM自动评估模型FLAMe系列,FLAMe-RM-24B模型在RewardBench上表现卓越,以87.8%准确率领先GPT-4o。大语言模型都卷起来了,模型越做越大,token越来越多,输出越来越长。那么问题来了,如何有效地评估大...……更多
OpenAI o1太贵?那就自己做一个!纯提示方法让普通LLM进化出复杂推理能力
...d score. 深入细节动态CoT、反思和语言强化学习的组合框架创建了一个高度自适应和响应迅速的问题解决AI系统。这个过程从Dynamic CoT生成初始推理路径开始,然后通过Reflection机制对其进行评估和完善。在每个反思阶段之后,...……更多
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
...针对特定的输入进行生成,因此我们希望提供一个统一的框架能够处理不同或多种输入条件的 CAD 生成任务。而另一方面,尽管多模态大模型(MLLMs)展现了跨模态生成的潜力,但在 CAD 领域依然面临挑战。尤其是在如何高效表征...……更多
AMD的GPU跑AI模型终于Yes了?PK英伟达H100不带怕的
...们可以根据已有数据进行推断。AMD GPU 配置了 PyTorch 2.3.0 框架和 AMD 的 ROCm 6.1.2 软件库和 runtimes,它类似于英伟达的 CUDA 堆栈。在 MI300X 的张量核心上的峰值 FP16 性能为 1307.4 TFlops,但这是在服务器模式下运行的……更多
量化能让大模型“恢复记忆”,删掉的隐私版权内容全回来了
...种称作SURE(Saliency-Based Unlearning with a Large Learning Rate)的框架作为改进方案。该框架通过构建模块级显著性图来指导遗忘过程,选择性地对与遗忘数据最相关的组件使用较大的学习率,同时最小化对其它功能的影响。通过实验,...……更多
「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」
...立测试之间存在显著差异。无论是AI研究者,还是第三方评估者,都无法复现Matt Shumer所声称的结果。根据Artificial Analysis的数据,Reflection 70B在基准测试中的表现,竟然还不如原始版的Llama 3.1 70B。随后,开发者们甚至还发现,Refl...……更多
国际组织WDTA首次就大模型安全发布国际标准,蚂蚁集团、OpenAI、科大讯飞等参编
...。该标准为测试和验证生成式AI应用的安全性提供了一个框架,特别是那些使用大语言模型(LLM)构建的应用程序。它定义了人工智能应用程序架构每一层的测试和验证范围,包括基础模型选择、嵌入和矢量数据库、RAG或检索增...……更多
多模态模型免微调接入互联网,即插即用新框架,效果超闭源方案
...大学、浙江大学、香港大学联合提出即插即用的SearchLVLMs框架,可以无缝整合任意的多模态大模型。该框架在推理阶段对大模型进行互联网检索增强,使得大模型无需微调即可对实时信息进行准确的反馈。研究团队提出首个辅助...……更多
“3D视频版Sora”来了!
...Stability AI和东北大学学者组成,其中详细解读了该模型的框架结构、优化策略、测评结果等。Stability AI从2019年成立起,就致力于研发文字、图像、音频、视频等多个领域的开源模型,其在2022年跻身独角兽行列。虽然从去年以来...……更多
浪潮KaiwuDB论文被数据库国际顶会ICDE2024录用
...战。本篇论文提出了一种基于深度强化学习的查询优化新框架——FOSS。FOSS的行为类似一个诊疗查询计划的医生,它从传统优化器生成的原始计划开始优化,发现其中的性能问题,并通过一系列优化动作逐步改进计划中的次优节...……更多
商汤又“夺金”!SuperCLUE-V多模态大模型基准发布10月榜单
...表性的11个开源/闭源多模态理解大模型,聚焦多维度能力评估,包括基础能力和应用能力两个大方向,以开放式问题形式对多模态大模型进行评估,涵盖了8个一级维度30个二级维度。报告称SenseChat-Vision 5.5在基础能力-数理逻辑推...……更多
大模型不会推理,为什么也能有思路?有人把原理搞明白了
...模型所训练的数万亿个 token、令人印象深刻的记忆能力、评估基准的数据污染问题已得到充分证实,以及大模型推理依赖于 prompt 的性质,这种想法看起来似乎是合理的。然而,大多数研究在得出结论认为模型不是真正推理时,...……更多
下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用
【新智元导读】VQAScore是一个利用视觉问答模型来评估由文本提示生成的图像质量的新方法;GenAI-Bench是一个包含复杂文本提示的基准测试集,用于挑战和提升现有的图像生成模型。两个工具可以帮助研究人员自动评估AI模型的...……更多
质量超越o1,UCSD张怡颖教授团队开源生成式AI工作流自动优化器
...以自动优化 AI 工作流,支持 LangChain、DSPy、Python 等语言框架。Cognify 的核心思路是一种创新的分层工作流级优化方法。Cognify 可将生成式 AI 应用的生成质量提高多达 48%,并将执行成本降低多达 90%。Cognify 现已开源。开源地址:ht...……更多
Llama 4训练已开启!Meta科学家最新采访,揭秘Llama 3.1是如何炼成的
...么不使用MoE架构?后训练与RLHF流程是如何进行的?模型评估是如何进行的?我们什么时候可以见到Llama 4?Meta是否会发展agent?恰逢Llama 3.1刚刚发布,Meta科学家就现身播客节目Latent Space,秉持着开源分享的精神,对以上问题都作...……更多
AI安全守护计划启动!信通院牵头,AIIA安全治理委员会发布三类模型安全评测
...包括多家知名企业和高校。其中,治理组工作围绕AI治理框架、合规治理、赋能治理展开,安全组主要开展大模型安全、合规等研究及基准测试。今年6月,中国信通院依托该委员会发起“人工智能安全守护计划”,包括建立威胁...……更多
错误率从10%降至0.01%,领英全面分享LLM应用落地经验
...那么令人头疼。在短短几天内,我们就建立并运行了基本框架: 路由:决定查询是否在范围内,以及将其转发给哪个 AI 智能体。检索:面向 recall 的步骤,AI 智能体决定调用哪些服务以及如何调用(例如 LinkedIn 人物搜索、Bing A...……更多
OpenAI重拾规则系统,用「AI版机器人定律」守护大模型安全
...规则来判断这些命题的真值组合是否符合需求。基于这一框架,就可以使用这些分类规则来对完成结果进行准确地排名。为了将基于安全规则的排名与仅帮助式(helpful-only,是指仅考虑结果的有用性,不考虑安全性)奖励模型组...……更多
指令跟随大比拼!Meta发布多轮多语言基准Multi-IF:覆盖8种语言,超4500种任务
...于英语。在大语言模型(LLMs)不断发展的背景下,如何评估这些模型在多轮对话和多语言环境下的指令遵循(instruction following)能力,成为一个重要的研究方向。现有评估基准多集中于单轮对话和单语言任务,难以揭示复杂场...……更多
蚂蚁自研知识增强大模型服务框架KAG,可显著提升知识推理准确率
...谱与大模型结合最新研发成果 —— 知识增强大模型服务框架 KAG。梁磊介绍,专业领域增强大模型服务框架 KAG 通过图谱逻辑符号引导决策和检索,显著提升了垂直领域决策的精准性和逻辑严谨性;通过信息检索可补全知识图谱...……更多
崖州湾国家实验室联合发布首个种业大语言模型:100道题得分是本科生4.87倍
...速了育种知识的广泛传播和应用。值得一提的是,为全面评估“丰登”的专业性能,上述三方团队还组织育种专家设计了100道水稻育种专业问题及对应标准答案,涵盖品种选育过程、农艺性状描述、栽培技术推荐和历史推广区域...……更多
以图灵机为师:通过微调训练让大语言模型懂执行计算过程
...南京大学的研究者提出了一种面向 LLM 的可组装算术执行框架 (CAEF),使 LLM 能够通过模仿图灵机的方式来执行算术,从而理解计算逻辑。此外,CAEF 具有高度的可扩展性,允许组合已经学习到的运算符,以降低复杂运算符的学...……更多
4轮暴训,Llama 7B击败GPT-4!Meta等让LLM「分饰三角」自评自进化
...而提高模型的评判能力。这解决了自奖励(Self-Rewarding)框架的一个主要限制,即缺乏对模型评判能力的训练。为了使元奖励训练(Meta-Rewarding training)更加有效,实验还引入了一种新的长度控制技术,以缓解在使用AI反馈进行训...……更多
媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格
...验室团队提出了Chinese SimpleQA,这是第一个系统性地全面评估模型回答简短事实性问题能力的中文评测集,可以全面探测模型在各个领域的知识水平。具体来说,Chinese SimpleQA 主要有六个特点: 中文:专注于中文语言,并特地包...……更多
全自动组装家具! 斯坦福发布IKEA Video Manuals数据集:首次实现「组装指令」真实场景4D对齐
...,解决了空间智能研究中的一个主要瓶颈。这是首个全面评估模型在真实场景中对精细3D细节理解能力的基准。」 知名科技博主、前微软策略研究者Robert Scoble:「有了这项工作,机器人将能够自主组装IKEA家具,或者通过AI驱动...……更多
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
...关的图像序列,以及一组可配置的视觉干扰项,从而准确评估VLM如何在杂乱的上下文中仅提取与查询相关的信息。从原理上讲,这也是一项「大海捞针」的任务。另外,LoCoVQA的方法能够以任意图像理解数据集为基础,创建长上...……更多
位列第一梯队,腾讯混元再度领跑国内大模型
...网络,可为AI大模型带来10倍通信性能提升;训练和推理框架上,腾讯自研的机器学习平台训练速度是主流框架的2.6倍,大模型推理成本相比业界主流框架下降70%;算法上,腾讯混元大模型率先采用混合专家模型 (MoE) 结构,模型...……更多
给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理
...为了解决这些问题,需要一个更多样化和适应性强的评估框架 —— 一个能够生成多样化的问题变体并调整复杂性水平以更好地探索 LLM 的鲁棒性和推理能力的框架。这将有助于更深入地了解这些模型在数学推理任务中的优势和...……更多
更多关于科技的资讯:
于琛刚刚过去的这个“双十二”,除了各电商平台推出的促销活动,抖音出台严打“假揭黑真带货”等违规行为的多项举措,也成为人们热议的话题
2025-12-16 11:02:00
近日,全国首家“现代骑手学院”正式揭牌,该学院设在广州职业技术大学,为在职外卖骑手和快递员提供学历和技能“双提升”通道
2025-12-16 08:07:00
12月12日“双十二”购物节当天,西湖区黄龙国际中心K-lab广场人气高涨,“疯狂碰友日·西湖首发季”2025西湖区新消费活动在此启动
2025-12-16 08:30:00
为加快培养适应人工智能时代发展需求的高水平创新人才,10月底,《浙江省中小学人工智能通识教育指导意见》发布。此前,杭州将人工智能通识课程纳入中小学各学段地方课程
2025-12-16 08:31:00
从“标准答案”到“缤纷选生活”:这届年轻人如何重构生活脚本
“年轻人要敢于尝试”“要找一条安稳的轨道”“年轻就要及时享乐”“年轻人要提前做好规划”……你有没有感受过这样的瞬间?耳边建议不断
2025-12-16 08:32:00
厦门网讯(厦门日报记者 沈彦彦)近日,2025金梧桐中国餐厅指南·星级餐厅颁奖盛典举行,厦门餐饮军团表现亮眼,共斩获10项星级“金梧桐”
2025-12-16 08:36:00
PITAKA × Gordon Hunt | 品牌十周年艺术联展,以科技编织自然瞬间
2025年12月14日,PITAKA于品牌十周年之际,携手英国当代艺术家Gordon Hunt,在深圳华侨城OCAT正式启幕十周年艺术联展——「觉知伏流 GLINTS OF AWARENESS」
2025-12-16 09:02:00
糖蒜科技对网络直播带货行业的规范化发展实践探索
网络直播带货作为数字经济时代的新兴商业模式,近年来以年均300%的增速迅猛发展,2023年市场规模突破3.5万亿元,带动就业超2000万人次
2025-12-16 10:32:00
走进海信双工厂,看5G+AI改写智造速度
鲁网12月15日讯当冰箱能“记忆”食物的最佳状态,一台电视可以“感知”你的观看喜好,你是否好奇,这些智能家电如何从冰冷的零件蜕变为懂你的家庭伙伴
2025-12-16 09:18:00
12月12日,2025浙江省新消费创新大赛资源对接活动在杭州举行,会上揭晓了本届大赛的获奖项目。聚焦新技术、新需求、新场景
2025-12-16 08:00:00
“与其扎在低价内卷里互相消耗,不如瞄准高端赛道奋力突围!”上完这堂课,杭商同学有了自己的新思考
王水福说,高端路上很辛苦,但高端路上不拥堵。全球约80%的新商用飞机上都有“西子造”,每年为全球提供约65万个零部件。 “与其扎在低价内卷里互相消耗
2025-12-16 08:00:00
陈勇摘要:企业文化是企业战略管理的重要支撑力量,其价值观、行为+准则等核心要素深刻影响企业战略的制定、实施与调整。契合企业发展需求的企业文化
2025-12-16 06:57:00
李玲摘要:随着珠宝行业的竞争加剧,服务质量在消费者购买决策中占据越来越重要的地位。本文结合珠宝行业特点及服务营销理论,构建了一套全面系统的营销服务质量评价指标体系
2025-12-16 06:57:00
冯智 华蓥市人民医院在安静的夜晚,耳边却持续萦绕着嗡嗡声、蝉鸣声或嘶嘶声,这种“无中生有”的声音困扰着不少人,这就是耳鸣
2025-12-16 06:57:00
AI时代下的日新月异正加速向更多领域蔓延,支付便是其中之一。对着手机说两句话,在10秒不到的时间里完成咖啡点单,这是杭州白领小露最近每天都在尝试的“新玩意儿”
2025-12-16 07:29:00