• 我的订阅
  • 头条热搜
RAG真能提升LLM推理能力?人大最新研究:数据有噪声,RAG性能不升反降
...复杂的推理,降低问题求解所需的推理深度,但由于文档噪声的存在,其提升效果可能会受限。中国人民大学的研究表明,尽管RAG可以提升LLM的推理能力,但这种提升作用并不是无限的,并且会受到文档中噪声信息的影响。通过...……更多
突破时间序列组合推理难题!南加大发布一站式多步推理框架TS-Reasoner
...合成时间序列推理任务上表现良好,但在极端数据稀缺或噪声数据较多的环境下,其模型鲁棒性仍需进一步验证。最后,虽然TS-Reasoner能够通过自定义模块生成处理外部约束,但不同类型的外部知识(例如不同领域的领域知识)...……更多
大模型新趋势之MoE:现状、挑战及研究方向
...整、专家模型设计及协作、动态性适应数据变化、对数据噪声相对敏感等技术难题仍有待解决。二是MoE架构设计很复杂,涉及网络类型、专家数量选择等多个方面。目前FFN、LSTM、CNN、Attention和LoRA等多种网络架构已被用作专家模...……更多
扩散模型也能搞定社交信息推荐,港大数据智能实验室提出RecDiff
用扩散模型搞社交信息推荐,怎么解决数据噪声难题?现有的一些自监督学习方法效果还是有限。针对此,港大数据智能实验室提出了新项目RecDiff。RecDiff是一种全新的基于扩散模型的推荐框架,能够更好地捕捉用户的潜在偏好...……更多
给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理
苹果新论文:AI 大模型可能不会推理。AI 大模型(LLM)真的像我们理解的那样能「思考」或「推理」吗?最近,苹果的一篇论文探讨了这个问题,并且给出了一个倾向于「否」的答案。相关帖子被很多人围观。这篇题为「GSM-Symb...……更多
刚刚,Llama 3.2 来了!支持图像推理,还有可在手机上运行的版本
...开始,首先,添加图像适应器和编码器,然后在大规模有噪声的成对 (图像,文本) 数据上进行预训练。接下来,在中等规模的高质量域内和经过知识增强的 (图像,文本) 对数据上进行训练。在后训练阶段,再使用与文本模型类...……更多
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...异,近来Anthropic公司最新发布的Claude-3.5-Sonnet因在知识型推理、数学推理、编程任务及视觉推理等任务上设立新行业基准而引发广泛讨论:Claude-3.5-Sonnet 已经取代OpenAI的GPT4o成为世界上”最聪明的AI“(Most Intelligent AI)了……更多
o1带火的CoT到底行不行?新论文引发了论战
...To CoT or not to CoT?OpenAI ο1 的诞生极大地提升了人们对 LLM 推理能力和思维链(CoT)的兴趣。一时之间,似乎思维链很快就会成为所有 LLM 的标配,但思维链并非万能,就连 OpenAI 自己也提到 o1 在某些任务上的表现并不比 GPT-4o 强...……更多
LLM群体智能崛起,数学性能暴增11.6%!谷歌DeepMind四大机构联手新作
...认知,数学最考验元认知,原本是指,人类对自己思维、推理过程的直观认识。那么,大模型也具备「元认知」的能力吗?研究人员对此,提出了一种假设,并设想是否可以通过知识引导,进一步提高LLM的能力。 其实,此前的...……更多
免训练大模型知识编辑,吸收新数据更高效|EMNLP\\\'24
...的连续提示学习新方法,可以提高知识终身学习的编辑和推理效率。模型编辑旨在纠正大语言模型中过时或错误的知识,同时不需要昂贵的代价进行再训练。终身模型编辑是满足LLM持续编辑要求的最具挑战性的任务。之前的工作...……更多
百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法
...-7b等小模型达到参数量比其大数十倍、甚至上百倍模型的推理能力,使模型性能迎来惊人提升。自OpenAI的Q*项目曝光后,业内相关讨论始终层出不穷。据现有信息汇总,Q*项目被视作OpenAI在探索人工通用智能(Artificial General Intelli...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...码仓库 Trending Research 第一位。为了赋予机器人端到端的推理和操纵能力,本文创新性地将视觉编码器与高效的状态空间语言模型集成,构建了全新的 RoboMamba 多模态大模型,使其具备视觉常识任务和机器人相关任务的推理能力,...……更多
研究人员给了人工智能一个“内心独白”,结果大大提高了其性能
...工智能系统,让它在说话前先思考。内心独白提高了常识推理能力,并使其数学成绩翻了一番。一项新的研究表明,给人工智能系统一个“内心独白”会大大提高它们的推理能力。这种方法训练的人工智能系统,会在对提示做出...……更多
大模型步入推理Scaling时代,SambaNova如何挑战英伟达的霸主地位
...震。o1 能像人类一样「思考」复杂问题,拥有优秀的通用推理能力。在未经专门训练的情况下,o1 能够直接拿下数学奥赛金牌,甚至能在博士级别的科学问答环节上超越人类专家。在性能跃升之外,更重要的是,它揭示了大模型...……更多
阿里云全面升级GPU云服务:AI大模型推理性能可提升100%
...云推出全面升级的GPU云服务,通过全新优化GPU套件,多GPU推理服务性能可最大提升100%。针对调用GPU算力最常用的容器技术,阿里云推出ACK云原生AI套件,帮助开发者及企业更高效地开发和部署AI应用,加速大模型应用落地。随着A...……更多
智能体首达Kaggle Grandmaster,华为结构化推理补齐思维链短板
...中的表现,研究者们提出了各种提示策略来提升大模型的推理和规划能力,比如思维链、思维树和思维图谱。这些进步与工具集成一起,推动着通用 AI 智能体的发展,让它们现在已经能够用 LLM 输出的决策策略来解决序列决策问...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
...例如,OCRBench)的性能,但与低分辨率版本模型相比,在推理相关任务(例如,MMMU)上的准确率却会下降。此外,虽然开源的多模态大模型在视觉-语言任务上取得了非常亮眼的基准测试结果,但在纯文本任务上的性能却有显著...……更多
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
...语言模型 (LM) 在各种任务上取得了重大进展,但在训练和推理方面,性能和成本之间仍然需要权衡。对于许多学者和开发人员来说,高性能的 LM 是无法访问的,因为它们的构建和部署成本过高。改善成本 - 性能的一种方法是使...……更多
“弱智吧”成最佳中文AI语料库,究竟什么算优质数据?
...解和处理各种场景和任务。干净合理是指数据要干净、无噪声,数据应该尽量减少错误与不合理的内容,确保数据的正确性。及时性是指数据可以随着时间推移持续扩充与更新。他表示,在一些专业领域,往往也需要一些带有对...……更多
无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成
...的长依赖任务中的多信息检索、时间重排序、计算、理解推理能力表现均不乐观。比如像Claude3-200k,GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex这种商业模型,平均只有40%的准确率。而像开源模型表现就更不理想了…ChatGLM2-6B、LongLL……更多
CMU&清华:让LLM自己合成数据来学习,特定任务性能同样大幅提升
...成后和输出注释后分别进行了两轮基于规则的数据过滤。噪声过滤(Noise Filter):研究者手动整理了一份噪声术语列表,包括常见的问候语和噪声字符(例如,生成内容中的”\\\\”)。如果生成示例的输入或输出中出现了任何...……更多
零样本即可时空预测!港大、华南理工等发布时空大模型UrbanGPT | KDD 2024
...入额外的文本信息不仅不会影响模型的性能,也不会引入噪声,这进一步证明了利用大型语言模型来增强时空预测任务的有效性。表2:端到端有监督设置下的预测性能评估消融实验(1)时空上下文的重要性:STC。 当从指示文本...……更多
CMU清华教LLM练成数学高手,LeanSTaR训练模型边思考边证明,登顶新SOTA
...办?CMU清华团队提出了Lean-STaR训练框架,在语言模型进行推理的每一步中都植入CoT,提升了模型的定理证明能力,成为miniF2F上的新SOTA。如果想训练LLM证明定理的能力,你会怎么做?既然模型可以通过海量语料学会生成文本,那...……更多
谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
... 2此次提供的90亿(9B)和270亿(27B)参数的两个版本,其推理性能和效率均优于第一代,并具有显著的安全性改进。事实上,270亿参数版本可以与体积超过其两倍的模型进行同等级别的竞争,并且提供了此前只有专有模型才能实...……更多
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
...较长的小说了。更重要的是,LLM真的能在这个长度上进行推理吗?近日,有两篇独立研究分别表明:长上下文水分很大!LLM实际上并不能「理解」内容。读小说挑战首先是来自UMass、AI2和普林斯顿的研究人员,推出了一项针对性...……更多
微软研究院推出orca2llm
...然后生成、回忆-原因-生成、提取-生成和直接回答等各种推理技术,同时还能为不同的任务选择不同的解决方案策略。Orca2模型相比较Llama2和WizardLM等大型语言模型,在痛苦理解、常识推理、多步推理、数学问题解决、阅读理解...……更多
自动化、可复现,基于大语言模型群体智能的多维评估基准
...投票是不切实际的。此外,由于人类查询和投票过程存在噪声以及个人主观因素,评估结果往往难以复现。最近,研究者们还探索了其他的自动评估方案,通过选择一个(或几个)“最强” 模型(通常是 GPT-4)作为评委来评估...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
...微调,(4) LLM 的上下文扩展,以及 (5) 长监督微调。对于推理,MM-SP 解决了 KV 缓存内存使用率的挑战, 这在处理非常长的序列时会成为瓶颈。通过使用 LongVILA 增加视频帧数,实验结果表明该研究在 VideoMME 和长视频字幕任务上的...……更多
AI大模型有望再扩1000倍!剑桥耶鲁康奈尔:PNN是变革关键
...如数字前向模型无法涵盖实际PNN硬件中的所有物理现象(噪声、偏移、制造和材料缺陷等),而且连续物理世界的离散化过程需要更精细的网格来提高精度,这可能会导致计算需求的指数级增长。此外,该方法的效率上限受到计...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
新智元报道编辑:乔杨【新智元导读】LLM的数学推理能力缺陷得到了很多研究的关注,但最近浙大、中科院等机构的学者们提出,先进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种...……更多
更多关于科技的资讯:
又到了每年山东跪拜刷屏的日子 网友:礼仪之邦
1月29日消息,据媒体报道,今天是大年初一,又到了每年山东硬核拜年刷屏的日子,大家排队下跪磕头。网友表示,不愧是礼仪之邦
2025-01-29 12:37:00
余承东用华为Mate XT给大家拜年:祝大家屏屏见喜 强得飞起
快科技1月29日消息,今天是大年初一,余承东用华为三折叠屏Mate XT非凡大师给大家拜年,祝大家一开迎春,二开纳福,三开大展鸿图
2025-01-29 13:37:00
春晚机器人下场时脚步直哆嗦:春晚最靓的仔
快科技1月29日消息,在央视蛇年春晚中,创意融合舞蹈节目《秧BOT》引起了广泛的关注。这些机器人下场时拿手绢脚步直哆嗦
2025-01-29 14:07:00
金晨给被砸中的小孩儿道歉:本想扔给观众的吉祥物正中你后脑勺
1月29日消息,今天,微博话题“金晨你怎么可以捅这么大的篓子”冲上热搜榜。据报道,在昨天的央视春晚舞台上,演员金晨把手里的蛇年吉祥物扔了出去
2025-01-29 14:07:00
B站蛇年春晚直播观看人数超1亿!30岁以下观众超八成
快科技1月29日消息,B站是央视蛇年春晚独家弹幕视频合作平台,今日已经公布了除夕当晚的相关数据。除夕当晚,B站春晚直播间观看人数创历史新高
2025-01-29 15:37:00
马丽甲状腺冲上热搜第一 网友喊话:丽姐注意身体
1月29日消息,微博话题“马丽甲状腺”冲上热搜榜第一名。据报道,在2025年央视蛇年春晚舞台上,沈腾、马丽演绎小品《金龟婿》
2025-01-29 16:07:00
今年春晚上小米SU7 Ultra车模又被“薅”走了:只剩底座
快科技1月29日消息,昨晚的春晚开始之前,小米集团董事长特别助理、战略市场部副总经理徐洁云透露,去年春晚现场首次登台的小米SU7车模散场后被“带走”
2025-01-29 16:07:00
春晚小品呼唤小爱同学!小米:全球小爱同学被唤醒超亿次
快科技1月29日消息,在今年的春晚上,小品《小明一家》节目上呼叫了小爱同学,主角小明的爷爷提出有问题找同学,小明爸爸问找什么同学
2025-01-29 16:37:00
270亿次!2025年央视春晚传播数据再创新高:破多项纪录
快科技1月29日消息,据官方数据,截至1月29日2时,央视春晚全媒体累计触达168亿人次,比去年增长了18.31%,其中移动端受众规模3
2025-01-29 17:07:00
温暖无数观众!春晚王菲唱的歌原来改了一个字
1月29日消息,据媒体报道,时隔七年,王菲带着一首《世界赠与我的》第五次登上春晚舞台,温暖了无数观众。这首歌由袁晶作词
2025-01-29 17:37:00
春晚机器人失误是故意设计的彩蛋:未来或能替人上班
1月29日消息,据媒体报道,在央视春晚上,宇树科技人形机器人H1登上舞台与人类演员共同呈现了名为《秧Bot》的节目。它们动作流畅
2025-01-29 17:37:00
“DeepSeek甚至绕过了CUDA”!论文细节再引热议 工程师灵魂提问:英伟达护城河还在吗
英伟达刚刚从DeepSeek-R1引发的4万亿元暴跌中缓过劲来,又面临新的压力?硬件媒体Tom‘s Hardware带来开年最新热议
2025-01-29 18:07:00
豆瓣9.1口碑神剧!《家有儿女2》明日上线B站
快科技1月29日消息,上周,童年神剧《家有儿女》第一季正式上线B站,会员可免费观看全集。根据B站官方预告,《家有儿女》第二季也将在明天正式上线
2025-01-29 18:07:00
高通骁龙X2新系列CPU现身!比Elite更加高端
快科技1月29日消息,高通的第二代骁龙笔记本电脑芯片正在开发中,且相关SKU已出现在发货清单上。据Olrak_29透露
2025-01-29 20:07:00
力挺!Intel前CEO已在新公司用DeepSeek代替OpenAI
快科技1月29日消息,英特尔前CEO帕特·基辛格(Pat Gelsinger)日前在社交平台发文,高度赞赏了开源AI推理模型DeepSeek
2025-01-29 20:37:00