• 我的订阅
  • 头条热搜
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
新智元报道编辑:alan【新智元导读】当今的LLM已经号称能够支持百万级别的上下文长度,这对于模型的能力来说,意义重大。但近日的两项独立研究表明,它们可能只是在吹牛,LLM实际上并不能理解这么长的内容。大数字一向...……更多
真香!智谱大模型,有了首个免费的API
...个姐妹,那么爱丽丝的兄弟有多少个姐妹呢?」问题时,正确率非常低。我们让 GLM-4-Flash 试了试,回答正确。改变了主角性别和亲属关系之后,GLM-4-Flash 同样可以理解,再次回答对了。测试 3:对于多人真假话判断问题,GLM-4-Fla...……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
...长度为2048个token的英语数据上进行训练,可能在多语言或长上下文上表现不佳。在未来的版本中,作者计划包括对更多具有更长上下文的多语言数据集的训练。最后,这项工作一直以有监督的多任务方式训练FLAMe模型。探索RLHF和...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...时间、地名、人名的错误,人类在简单难度下的中文平均正确率约为 98.58%,在困难难度下的中文平均正确率约为 91.84%。而去掉这些因为时间、地名、人名的错误,人类在简单难度的中文下几乎接近满分,而中文困难难度下正确...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
现在,长上下文视觉语言模型(VLM)有了新的全栈解决方案 ——LongVILA,它集系统、模型训练与数据集开发于一体。现阶段,将模型的多模态理解与长上下文能力相结合是非常重要的,支持更多模态的基础模型可以接受更灵活...……更多
无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成
...数据集:LooGLE,专门用于测试和评估大语言模型(LLMs)长上下文理解能力。该数据集既能够评估LLMs对长文本的处理和检索能力,又可以评估其对文本长程依赖的建模和理解能力。结果不评不知道,一评估发现这些模型在复杂的...……更多
王小川公布最新大模型,号称全球最长上下文,是GPT-4的14倍|钛媒体焦点
...Baichuan2-192K是目前全球最长的上下文窗口,也是目前支持长上下文窗口最优秀大模型Claude2(支持100K上下文窗口,实测约8万字)的4.4倍,更是GPT-4(支持32K上下文窗口,实测约 2.5万字)的14倍(1400%)。这不仅在上下文窗口长度上...……更多
马斯克 xAI 推出 Grok-1.5 大语言模型
...anEval 基准测试中得分为 74.1%。IT之家附测试对比表如下:长上下文理解方面,Grok-1.5 能够在其上下文窗口内处理多达 128k tokens 的长上下文。这使得 Grok 的内存容量增加到之前上下文长度的 16 倍,从而能够理解更长文档中的信息...……更多
AI“明星”选手巅峰对决!记者实测最新谷歌Gemini与GPT-4o
...GPT-4进行了一场能力评测。▍文本测试:谷歌Gemini 1.5 Pro正确率和速度完胜GPT-4o和GPT-4OpenAI发布GPT-4已过去一年多,据介绍,此次推出新旗舰模型GPT-4o的推理能力有明显的提升,速度快了,价格也下降了。谷歌Gemini系列以其标志性...……更多
Meta祭出三篇最详尽Llama微调指南!千字长文,0基础小白必备
...动的LLM文本生成」。RAG于2020年推出,它使用动态提示上下文,通过用户问题检索并注入LLM提示,以引导其使用检索到的内容,而不是预训练的知识。Chat LangChain是由RAG支持的、在Lang Chain文档上流行的Q/A聊天机器人。上下文学习...……更多
大幅减缓幻觉 百融云创大模型精度测评结果出炉
...高了大模型的准确性和可靠性,还使其能够更好地理解上下文,并将检索到的知识融入到生成过程中,从而生成更加贴合实际需求的文本。但RAG也并非完美无缺。互联网上的信息五花八门,存在着大量的干扰内容,甚至假新闻,...……更多
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...专家模型架构。这一模型系列中最小的Phi-3.5-mini-instruct在长上下文代码理解任务以明显优势击败Llama-3.1-8B-instruct和Mistral-7B-instruct,而其参数规模还不到Llama-3.1-8B-instruct的一半。微软本次发布的3款模型的名字中……更多
开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1
...个新的前沿”。Mistral Large 2尤其擅长代码和数学推理,上下文窗口128k,支持数十种自然语言以及80+编程语言。特别在MMLU上,其预训练版本更是达到了84.0%的准确率。消息一出,Mistral AI联创兼首席科学家第一时间转发,直接cue Lla...……更多
中国财税GPT迎来最准确的大模型:小竹财税AI问世
...AI于2023年底正式问世。这款财税领域的GPT以财税理论回答正确率高达92%的惊人成绩,率先占领了业内第一梯队。同时,小竹财税成功获得1000万元天使轮融资。据了解,小竹财税(安徽小竹信息技术有限公司)成立于2021年11月,...……更多
上交大推出“可进化游戏引擎”!虚拟世界演化无需预设
...(Naive Evaluation):评估引擎的正确性,包含两个指标。正确率(Acc):即生成的代码是否正确地实现了应有的功能。执行率(Exe):即生成的代码是否能通过编译,不论正确与否。Exe对于用户的体验感非常重要,很多情况下,...……更多
重要突破!西湖大学团队和浙二医院共同实现脑机接口中文解码
...数平均仅为29%,部分参与者通过脑电解码得到的句子完全正确率达到了30%。相对高效的解码性能得益于三个独立音节元素解码器的优秀表现和智能语言模型的完美配合。特别的是在分类21个声母方面,声母解码器的准确率超过了4...……更多
Kimi爆火背后:访问量仅次于文心一言和阿里通义,国内外大模型都在卷上下文
...一款面向C端的大模型产品。早前,该公司宣布在大模型长上下文窗口技术上取得新的突破,Kimi已支持200万字超长无损上下文,并开启产品内测,该能力在不到半年内提升9倍。市场的火爆,导致Kimi服务器一度瘫痪,无法回复用...……更多
OpenAI发布最新技术研究,AI“黑盒”不再是难题!
...数字可能出现在版本号、股票代码、基金表现、汇率等上下文中,这些场景下的数字大小并不总是具有直接的比较意义。如果训练数据中存在关于数字比较的偏差或不足,模型可能无法学习到正确的比较规则。另一方面,可能由...……更多
林达华谈大模型发展之路:未来会有更高效的模型结构出现
大模型的上下文长度快速增长,超长上下文解锁新应用,但推理计算代价高昂,上下文本身对于信息不会进行压缩,不能直接捕捉其中的深层知识和规律。上海人工智能实验室领军科学家林达华。过去一年,人工智能领域风起...……更多
infini-attention:谷歌大内存机制
...compressivememory)整合到线性注意力机制中,用来处理无限长上下文。压缩记忆允许模型在处理新输入时保留和重用之前的上下文信息。它通过固定数量的参数来存储和回忆信息,而不是随着输入序列长度的增加而增加参数量,能...……更多
Kimi引爆人工智能新风口,龙头连续20CM涨停!哪些公司可
...还会有新成果亮相。开启大模型应用新篇章事实上,无损长上下文是通往通用人工智能的基础技术,它也是业界一直以来的研究重点。从历史上看,模型架构的演进,本质上都是在提升有效的、无损的上下文长度。此次Kimi智能...……更多
用过GPT-4 Turbo以后,我们再也回不去了
...的 GPT。根据官方说法,这一波 GPT 的升级包括:更长的上下文长度:128k,相当于 300 页文本。 更高的智能程度,更好的 JSON / 函数调用。 更高的速度:每分钟两倍 token。 知识更新:目前的截止日期为 2023 年 4 月。 定制化:GPT3 1...……更多
AI赋能游戏:问答机器人的设计与实现
...所有这些向量建立索引,从而查询出与用户提问相关的上下文,最后创建一个带上下文的大语言模型提示语,让模型回答用户的查询。我们可以对比有无检索模型对回答的差别:大语言模型同样是ChatGPT3.5,提问“赵云要怎么培...……更多
《红楼梦》里有大量东北方言?实测AI大模型“长文阅读”
...简单。今年2月,谷歌发布的Gemini 1.5Pro模型曾一度创下最长上下文窗口的纪录。根据官方数据,谷歌Gemini1.5 Pro将上下文窗口容量提到了100万token(极限为1000万token)。这意味着机器可以一下子处理22小时的录音、超过十倍的完整...……更多
智谱AI发布基座大模型GLM-4,发起大模型开源基金
...长度内,GLM-4模型均可做到几乎100%的精度召回,并未出现长上下文全局信息因为失焦而导致的精度下降。在多模态能力方面,文生图和多模态理解得到增强。此外,GLM-4的All Tools能力(即Agent智能体能力)全新发布,GLM-4可自主根...……更多
...,通用人工智能创业公司Moonshot(月之暗面)宣布在大模型长上下文窗口技术上取得新的突破,其自研的Kimi智能助手(KimiChat)从2023年10月的20万汉字上下文能力,增长至200万字超长无损上下文。“近期非常火的AI语言模型反复发酵,...……更多
马斯克新动向!365亿元
...前,Grok的最新版本为3月底发布的Grok 1.5,该版本实现了长上下文理解和高级推理能力,可以处理128K token的长上下文窗口。xAI官方博客表示:“对于构建能够理解世界的AGI(通用人工智能)来说,提高我们的多模态理解和生成能...……更多
从AI搜索到语音陪练,腾讯元宝全面评测来了!大模型C端玩家谁更胜一筹?
...答问题的准确率和速度。记者观察到,尽管元宝和GPT-4o的正确率相同,正确率都是75%,但两者的答题风格各有千秋。GPT-4o以简洁、直接和结构化的方式呈现答案,使用数学公式清晰地展示计算过程,迅速传达结果;而腾讯元宝则...……更多
本周AI不得了!OpenAI的Sora“模拟世界”、Gemini 1.5“10M上下文”、Mistral的开源新贵同日出现
...示质量令人着迷。总结:谷歌可能找到了某种新方法,将长上下文的架构理念与他们的 TPU 计算堆栈相结合,并取得了很好的效果。据 Gemini 长语境的负责人之一Pranav Shyam说,这个想法几个月前才刚刚萌芽。如果以小版本(v1.5)...……更多
趣丸科技副总裁兼CTO谢睿:多模态智能激发应用新场景 | 新质生产力·AI Partner大会
...两大技术手段。特定人群文本识别:采用单文本检测+上下文识别的方案。其中,单文本识别我们自研了通用的关键词匹配分析框架,支持多种匹配方式、支持自定义过滤条件、支持特殊标记等;上下文识别采用大模型进行复杂...……更多
更多关于科技的资讯:
双11重磅福利:88VIP点外卖5折,淘宝闪购1000万份免单等你抢!
淘宝闪购推出双11重磅福利:88VIP点外卖天天享五折,免单红包数量超1000万份!10月15日至11月14日,88VIP用户进入闪购频道
2025-10-12 05:27:00
这家宁企让足球邂逅时尚
本报记者 周京震 陆春花8月17日晚,“苏超”第9轮,南京迎战盐城。聚光灯下,南京队员战衣上那簇崭新的标识格外醒目——华瑞时尚
2025-10-12 05:27:00
这支“中国笔”,国内首款!
在常州经开区潞城街道江苏德尔福医疗器械有限公司的洁净工厂内工作人员正在忙碌地装配新型“电子笔”今年该企业三个型号的预充式电子笔式注射器获得国内首张医疗器械注册证标志着该类产品正式
2025-10-12 05:27:00
山东移动5G-A护航济南地铁4号线,打通地下通信“快车道”
近日,济南轨道交通4号线彭家庄站、程家庄站、唐冶站、唐冶南站(以上站名均为工程名)已完成移动5G-A通信覆盖,标志着这条串联城市东西的“黄金线路”在通信保障上迈出关键一步
2025-10-12 08:45:00
人保财险青岛分公司:科技赋能推动农险“双精准”再升级
齐鲁晚报·齐鲁壹点记者 尚青龙近日,青岛平度的肉牛也有了自己的“数字身份证”。人保财险青岛分公司借鉴内蒙古先进经验,引入内蒙古沃付国际物联网有限公司自主研发的人工智能畜牧业数字化管理平台
2025-10-12 11:53:00
一线保障人员“时刻在岗”,烟台联通守护高铁5G网络畅通运行
国庆中秋假期期间,面对持续攀升的客运高峰,烟台联通网络保障团队坚守岗位,全力投入高铁沿线5G网络实时保障工作,通过精细化运维与快速响应
2025-10-12 11:53:00
第十九届中国(临朐)家居门窗博览会12日开幕
齐鲁晚报·齐鲁壹点 王佳潼10月11日,第十九届中国(临朐)家居门窗博览会媒体见面会在临朐召开。记者在会上获悉,第十九届中国(临朐)家居门窗博览会定于2025年10月12日至15日在临朐国际会展中心举办
2025-10-12 11:55:00
济南热力以低空智巡护航聊热入济
近日,“聊热入济”长距离供热项目施工现场传来新进展——济南能源集团所属热力集团部署的无人机智慧巡检系统,正沿这条 “供热长龙” 精准巡航
2025-10-12 15:50:00
山东移动聊城分公司圆满完成高唐一中百年校庆通信保障任务
百年薪火传,同心向未来。10月2日,聊城市高唐县第一中学建校100周年庆祝大会在高唐县隆重举行。海内外校友、各界嘉宾及在校师生欢聚一堂
2025-10-12 16:23:00
冲刺四季度 打好收官战丨湖北佳恒:以“智”提“质” 产值已超去年全年
十堰广电讯(全媒体记者 何旭 通讯员 胡新)科技创新锻造核心竞争力,湖北佳恒科技以智能化改造与自主研发双轮并进,推动企业高质量发展
2025-10-12 19:27:00
西电连续三次入选教育部“人工智能+高等教育”应用场景典型案例
近日,教育部公布第三批30个“人工智能+高等教育”应用场景典型案例遴选结果。学校《“西电智评”——数智赋能学生评价的探索与实践》案例成功入选
2025-10-12 13:56:00
见证首次无动力帆船环越南极,飞利浦鹅卵石Pro剃须刀以科技实力硬核护航,净护随行
2025年10月10日,人类首次帆船环航南极之旅于上海白莲泾旅游码头启航。由国家海洋公益形象大使、中国航海科普大使、中国环球航海第一人
2025-10-12 13:35:00
“电力工程号A星”今日出征
2025年10月12日,长光卫星技术股份有限公司在吉林省航天信息产业园举行“电力工程号A星”的出征仪式。公司及合作单位的领导和职工代表参加活动
2025-10-12 11:56:00
刷新多项世界纪录!我国新型单光子探测器量产落地
大皖新闻讯 日前,安徽省量子信息工程技术研究中心发布消息称,我国实现了全球首款四通道超低噪声半导体单光子探测器的量产落地(以下简称“深度制冷单光子探测器”)
2025-10-12 10:52:00
深入实施“人工智能+”行动丨浪潮智能终端“超高清+AI”解锁场景新玩法
漫步浩瀚太空,秒回侏罗纪时代,与科幻机甲同框……济南方特东方神画“九州神韵”的XR拍摄专区,小学生李安安兴奋地“穿越”在异时空中
2025-10-11 10:21:00