• 我的订阅
  • 头条热搜
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
新智元报道编辑:alan【新智元导读】当今的LLM已经号称能够支持百万级别的上下文长度,这对于模型的能力来说,意义重大。但近日的两项独立研究表明,它们可能只是在吹牛,LLM实际上并不能理解这么长的内容。大数字一向...……更多
真香!智谱大模型,有了首个免费的API
...个姐妹,那么爱丽丝的兄弟有多少个姐妹呢?」问题时,正确率非常低。我们让 GLM-4-Flash 试了试,回答正确。改变了主角性别和亲属关系之后,GLM-4-Flash 同样可以理解,再次回答对了。测试 3:对于多人真假话判断问题,GLM-4-Fla...……更多
多模态模型免微调接入互联网,即插即用新框架,效果超闭源方案
...模型在该网页/片段下尝试回答该样本,根据模型回答的正确率进行打分。基于这样的伪标注方法,研究人员构造了~80w样本用于训练。最后一步,人为验证。构造测试集时,研究者对第3步得到的视觉问答样本进行了人为筛选,确...……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
...长度为2048个token的英语数据上进行训练,可能在多语言或长上下文上表现不佳。在未来的版本中,作者计划包括对更多具有更长上下文的多语言数据集的训练。最后,这项工作一直以有监督的多任务方式训练FLAMe模型。探索RLHF和...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...时间、地名、人名的错误,人类在简单难度下的中文平均正确率约为 98.58%,在困难难度下的中文平均正确率约为 91.84%。而去掉这些因为时间、地名、人名的错误,人类在简单难度的中文下几乎接近满分,而中文困难难度下正确...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
现在,长上下文视觉语言模型(VLM)有了新的全栈解决方案 ——LongVILA,它集系统、模型训练与数据集开发于一体。现阶段,将模型的多模态理解与长上下文能力相结合是非常重要的,支持更多模态的基础模型可以接受更灵活...……更多
自我纠错如何使OpenAI o1推理能力大大加强?北大MIT团队理论解释
...效果的影响。主要结论如下:多数情况下,自我纠错后的正确率高于原正确率(图4) 正确率提升与自我评估的准确率高度相关(图4(c):),甚至呈线性关系(图5(a))。 采用不同的评价方式效果依次提升:仅使用对/错评价 &...……更多
无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成
...数据集:LooGLE,专门用于测试和评估大语言模型(LLMs)长上下文理解能力。该数据集既能够评估LLMs对长文本的处理和检索能力,又可以评估其对文本长程依赖的建模和理解能力。结果不评不知道,一评估发现这些模型在复杂的...……更多
不是RNN的锅!清华团队深入分析长上下文建模中的状态崩溃,Mamba作者点赞
【新智元导读】RNN模型在长上下文中表现不佳?近日,来自清华的研究团队对此进行了深入的实验分析,结果表明:不是RNN的锅。与Transformer相比,RNN模型的一大优势是应对长序列的能力。比如Mamba,内部状态大小始终保持不变...……更多
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
...种日常活动。评测结果表示,人类专家水平显著优于目前长上下文多模态模型中最厉害的Gemini Pro 1.5(85.0%对37.3%)。在多模态能力上,大模型们还任重而道远。HourVideo如何炼成? 之所以提出HourVideo,是因为研究人员发现目前长...……更多
GPT-4o不会数r,被外国小哥原地逼疯! 谷歌论文揭秘Transformer「数不到n」
...上说,除非显著增加架构的规模,否则Transformer将无法在长上下文中进行任意精确的计数。这表明在计数任务中,我们可能需要借助于不具有相同限制的工具,例如代码解释器等。 ……更多
王小川公布最新大模型,号称全球最长上下文,是GPT-4的14倍|钛媒体焦点
...Baichuan2-192K是目前全球最长的上下文窗口,也是目前支持长上下文窗口最优秀大模型Claude2(支持100K上下文窗口,实测约8万字)的4.4倍,更是GPT-4(支持32K上下文窗口,实测约 2.5万字)的14倍(1400%)。这不仅在上下文窗口长度上...……更多
腾讯推出 Hunyuan-Large 开源大模型
...据增强训练,Hunyuan-Large能够学习到更丰富的表示,处理长上下文输入,并更好地泛化到未见数据KV缓存压缩:采用分组查询注意力(GQA)和跨层注意力(CLA)策略,显著减少了KV缓存的内存占用和计算开销,提高了推理吞吐专家...……更多
AI“明星”选手巅峰对决!记者实测最新谷歌Gemini与GPT-4o
...GPT-4进行了一场能力评测。▍文本测试:谷歌Gemini 1.5 Pro正确率和速度完胜GPT-4o和GPT-4OpenAI发布GPT-4已过去一年多,据介绍,此次推出新旗舰模型GPT-4o的推理能力有明显的提升,速度快了,价格也下降了。谷歌Gemini系列以其标志性...……更多
马斯克 xAI 推出 Grok-1.5 大语言模型
...anEval 基准测试中得分为 74.1%。IT之家附测试对比表如下:长上下文理解方面,Grok-1.5 能够在其上下文窗口内处理多达 128k tokens 的长上下文。这使得 Grok 的内存容量增加到之前上下文长度的 16 倍,从而能够理解更长文档中的信息...……更多
OpenAI开启调查:GPT-4o及4o-mini模型性能下降
...名为LONGPROC的基准测试工具,该工具专为评估模型在处理长上下文中的复杂信息并生成相应回复的能力而设计。实验结果略显意外:包括GPT-4o在内的众多顶尖模型,虽然在常规长上下文回忆基准测试中表现优异,但在应对复杂的...……更多
Meta祭出三篇最详尽Llama微调指南!千字长文,0基础小白必备
...动的LLM文本生成」。RAG于2020年推出,它使用动态提示上下文,通过用户问题检索并注入LLM提示,以引导其使用检索到的内容,而不是预训练的知识。Chat LangChain是由RAG支持的、在Lang Chain文档上流行的Q/A聊天机器人。上下文学习...……更多
大幅减缓幻觉 百融云创大模型精度测评结果出炉
...高了大模型的准确性和可靠性,还使其能够更好地理解上下文,并将检索到的知识融入到生成过程中,从而生成更加贴合实际需求的文本。但RAG也并非完美无缺。互联网上的信息五花八门,存在着大量的干扰内容,甚至假新闻,...……更多
开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1
...个新的前沿”。Mistral Large 2尤其擅长代码和数学推理,上下文窗口128k,支持数十种自然语言以及80+编程语言。特别在MMLU上,其预训练版本更是达到了84.0%的准确率。消息一出,Mistral AI联创兼首席科学家第一时间转发,直接cue Lla...……更多
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...专家模型架构。这一模型系列中最小的Phi-3.5-mini-instruct在长上下文代码理解任务以明显优势击败Llama-3.1-8B-instruct和Mistral-7B-instruct,而其参数规模还不到Llama-3.1-8B-instruct的一半。微软本次发布的3款模型的名字中……更多
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...),MixCon(无 MoE)训练过程损失更低(如图 6 所示)。 长上下文评估利用问答基准测试评估 MixCon 处理长上下文能力,使用 L - Eval 中最长上下文数据集的五个数据集,以少样本格式(每个实验用三个例子)进行实验。在 Narrativ...……更多
中国财税GPT迎来最准确的大模型:小竹财税AI问世
...AI于2023年底正式问世。这款财税领域的GPT以财税理论回答正确率高达92%的惊人成绩,率先占领了业内第一梯队。同时,小竹财税成功获得1000万元天使轮融资。据了解,小竹财税(安徽小竹信息技术有限公司)成立于2021年11月,...……更多
人工智能已经可以解决复杂的数学问题了,还有哪些工作无法被取代
...。Minerva的表现因科目而异:在某些科目如代数上,它的正确率略高于一半,而在其他科目如几何上则略低于一半。作者们担心的一个问题是Minerva正确回答问题只是因为它已经在训练数据中看到了这些问题或类似的问题。这个问...……更多
给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理
...。该观点还指出,人类在解决数学问题时通常有明确的上下文,而 LLM 在处理数学问题时可能没有这样的上下文。因此,如果通过适当的提示工程,向模型明确这是一个数学考试的环境,那么它们在添加多余子句时导致的性能下...……更多
古早费曼论文手写公式也能转LaTeX,马斯克Grok功能上线就火了
...的成绩。之后,xAI 迅速推出 Grok 1.5,新一代模型实现了长上下文理解和高级推理能力。8 月,Grok 2 上线,在常识、数学竞赛问题 (MATH)、研究生水平科学知识 (GPQA) 等领域与其他前沿模型相媲美。如今,在 xAI 不断完善下,大家终...……更多
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...,模型不仅要识别和提取文本,还要理解其在图像中的上下文、与视觉元素的关系以及与当前问题的相关性。CoT有助于回答MMMU-Pro问题吗?在MMMU-Pro基准测试中,研究人员估了思维链(Chain of Thought,简称CoT)提示在提升智能体性...……更多
上交大推出“可进化游戏引擎”!虚拟世界演化无需预设
...(Naive Evaluation):评估引擎的正确性,包含两个指标。正确率(Acc):即生成的代码是否正确地实现了应有的功能。执行率(Exe):即生成的代码是否能通过编译,不论正确与否。Exe对于用户的体验感非常重要,很多情况下,...……更多
AI“大姨”现场刁难智能客服!直击一群AI打PK赛,真能落地的那种
...满足现在用户需求的智能客服。能理解用户问题、结合上下文给出解决办法,并且有情商、说人话、能面对各种复杂情景。而且上手门槛很低。 比如参赛选手云蝠智能,他们的主打业务是电话客服,在文本客服方面的积累不多...……更多
重要突破!西湖大学团队和浙二医院共同实现脑机接口中文解码
...数平均仅为29%,部分参与者通过脑电解码得到的句子完全正确率达到了30%。相对高效的解码性能得益于三个独立音节元素解码器的优秀表现和智能语言模型的完美配合。特别的是在分类21个声母方面,声母解码器的准确率超过了4...……更多
Kimi爆火背后:访问量仅次于文心一言和阿里通义,国内外大模型都在卷上下文
...一款面向C端的大模型产品。早前,该公司宣布在大模型长上下文窗口技术上取得新的突破,Kimi已支持200万字超长无损上下文,并开启产品内测,该能力在不到半年内提升9倍。市场的火爆,导致Kimi服务器一度瘫痪,无法回复用...……更多
更多关于科技的资讯:
从小入手 微处破局 激发创新大效能
为进一步推动基层数字化改革,浙江省常山县烟草专卖局(以下简称常山烟草)全面践行创新发展理念,从小入手,于微处破局,持续打造基层“智治”新优势
2025-02-08 13:09:00
驶向未来 无人驾驶技术的产学应用
春节期间,媒体报道了首钢矿业公司水厂铁矿印子峪采场18名矿车司机,转岗为无人驾驶矿车运维人员的事迹。水厂铁矿现场接管员白银生表示
2025-02-08 13:10:00
浙江诸暨:数字先行破难题 减负增质促高效
为了进一步提升工作效率,优化客户服务质量,诸暨市烟草专卖局深入挖掘数据价值、识别问题本质,通过开发数字化工具,来满足客户服务需求
2025-02-08 13:10:00
新品预告 | 赖茅焕新起航,有心意又有新意
不知不觉新春已过,回望过去,新春佳节不仅是我们家人团聚、共享天伦之乐的时刻,更是我们展望未来的重要节点。2025年,万象更新
2025-02-08 13:12:00
实干争春看贵州|凯里玻璃企业机器不停转、生产不停工
2月8日7时40分,位于黔东南州炉碧经济开发区的贵州黔玻永太新材料公司的玻璃生产车间内,机器轰鸣,一台台机械臂自动精准来回抓取刚出炉的玻璃原片
2025-02-08 13:17:00
山东移动聊城分公司:开展“智启新程,蛇舞未来”惊喜化服务
随着蛇年新春的到来,山东移动聊城分公司开展“智启新程,蛇舞未来”惊喜化服务。温馨布置,共庆新春佳节。在茌平中心街营业厅以新春为灵感
2025-02-08 13:19:00
力争“一季度”开门红 琼海投入400万元加大对数码产品补贴力度
南海网2月8日消息(记者苏桂除)“从1月底3C类数码产品开始实施补贴政策以来,我们的门店销量大幅上涨,消费者都反馈政府补贴政策很好
2025-02-08 13:25:00
2月10日抢报名!潍坊市民艺术夜校课程上新,82门课程可选!
白天是生活,晚上是热爱,潍坊市民艺术夜校年后上新啦!2025年春季课程重磅来袭,还有线上直播活动,为粉丝送出惊喜福利,快来报名参与
2025-02-08 13:43:00
这家国潮首店落户和平! 扫码阅读手机版
作为地处核心商圈的商业项目,天津和平大悦城自2023年开始,通过引入顶级IP,打造美学场景,引进国潮首店,不断打破边界迭代升级
2025-02-08 13:48:00
2024重庆市专精特新企业家主题宣传|龚岗:创新研发,推陈出新,突破关键技术提升企业核心竞争力
涪特智能装备(重庆)有限公司总经理龚岗龚岗,涪特智能装备(重庆)有限公司总经理。他以卓越的领导力、深厚的行业经验和出色的创新能力
2025-02-08 14:18:00
万店掌携手DeepSeek大模型:重塑连锁门店智能巡店新标杆
近日,万店掌已陆续在进行DeepSeek大模型的对接,即将在其巡店软件、客流分析、企业培训等核心产品上完成接入。基于万店掌已服务的四千多个连锁品牌的标准化管理
2025-02-08 14:45:00
活存量、拓增量、破边界,解密威海春节消费“活力密码”
齐鲁晚报·齐鲁壹点 李孟霏 潘佳蓬刚刚过去的蛇年春节,威海消费市场活力十足。据威海市商务局数据,春节期间重点监测的14家商贸企业累计销售额达6
2025-02-08 14:59:00
‌欧洲经济研究院中国香港办事处 设立博士后科研流动站
在全球化经济蓬勃发展的今天,欧洲经济研究院中国香港办事处的成立无疑为亚洲乃至全球的学术与经济研究注入了新的活力。该办事处不仅承载着促进中欧经济交流与合作的使命
2025-02-08 15:01:00
商行联盟网络安全小水滴 | 第一百零二期:那些容易忽视的会议安全小细节!
会议室作为一个企业运筹帷幄的核心地带承载着各类创新思维的火花碰撞与项目决策的深度交融然而会议内容一旦发生泄露无疑将对企业的运营造成影响其潜在风险更是不容小觑会议中哪些环节容易造成
2025-02-08 15:02:00
松下电器即将倒闭,盘点那些消失了的日本大牌,日本怎么啦?
日本国民品牌松下重磅官宣!将解散家电子公司松下电器,集中力量发展人工智能数据中心等领域。曾经风靡全球的松下电视机,很快将成为又一滴时代的眼泪
2025-02-08 15:27:00