• 我的订阅
  • 头条热搜
OpenAI o1 模型 PlanBench 规划能力实测:准确率 97.8%
...。OpenAI o1 模型成绩在 Blocksworld 任务中,OpenAI 的 o1 模型准确率达到 97.8%,大大超过了之前的最佳语言模型 LLaMA 3.1 405B(准确率为 62.6%)。在更具挑战性的“Mystery Blocksworld”加密版本中,传统模型几乎全部失败,而……更多
推理性能直逼o1,DeepSeek再次出手,重点:即将开源
...的推理过程。如上图中的红色实线所示,模型所能达到的准确率与所给定的推理长度呈正相关。且相比于传统的多次采样 + 投票(Majority Voting),模型思维链长度增加展现出了更高的效率。最惊艳的是,发布即上线:所有用户均...……更多
o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回
...。相比于传统模型的优势更是碾压级别,在超难任务上的准确率比Llama3.1-405B高了11倍。要知道之前,OpenAI自己人也发了一张图,显示preview论性能比不过满血版,论经济性又不如mini,处于一个十分尴尬的地位。作者在推文中表示...……更多
AI“明星”选手巅峰对决!记者实测最新谷歌Gemini与GPT-4o
近日,OpenAI用一场26分钟的线上直播展示了GPT-4o带来的惊艳交互能力,将新一轮AI争霸带入了“Her 时代”。GPT-4o的“o”代表“omni”,一词意为“全能”,该模型能够实现无缝的文本、视频和音频输入,并生成相应模态的输出,...……更多
开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1
...编程语言。特别在MMLU上,其预训练版本更是达到了84.0%的准确率。消息一出,Mistral AI联创兼首席科学家第一时间转发,直接cue Llama 3.1 405B的那种:Perplexity CEO Aravind Srinivas也开麦了:开源追赶闭源的趋势很明显,未来闭源模型只..……更多
LLM仍然不能规划,刷屏的OpenAI o1远未达到饱和
...模型中,LLaMA 3.1 405B 在常规 Blocksworld 测试中表现最佳,准确率达到 62.6%。然而模型在 Mystery Blocksworld 的表现却远远落后——没有一个 LLM 在测试集上达到 5%,并且在一个领域上的性能并不能清楚地预测另一个领域的性能。这种结...……更多
零一万物大模型Yi-34B夺得全球开源评测“双料冠军”,已在阿里云魔搭开源
...本可下降多达50%。目前,零一万物Infra能力实现故障预测准确率超过90%,故障提前发现率达到99.9%,不需要人工参与的故障自愈率超95%。零一万物组建了由前Google大数据和知识图谱专家领衔的数据团队,建设了高效、自动、可评...……更多
阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解
...问题,OmniSearch的表现显著优于GPT-4V结合启发式mRAG方法,准确率提升了近88%。 多模态知识需求:OmniSearch能够有效地结合图像和文本进行检索,其在需要额外视觉知识的复杂问题上的表现远超现有模型,准确率提高了35%以上。 ...……更多
蚂蚁自研知识增强大模型服务框架KAG,可显著提升知识推理准确率
...AI 原生 App “支小宝” 采用这套框架,在政务问答场景的准确率提升到了 91%,医疗问答垂直的指标解读准确率可达 90% 以上。梁磊还透露,KAG 框架会进一步向社区开放,并在开源框架 OpenSPG (https://github.com/OpenSPG/openspg) 中原生支..……更多
百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法
...推理能力:在GSM8K数据集上,Q*帮助Llama-2-7b提升至80.8%的准确率,超越了ChatGPT;在MATH数据集上,Q*帮助DeepSeek-Math-7b提升至55.4%的准确率,超越了Gemini Ultra;在MBPP数据集上,Q*帮助CodeQwen1.5-7b-Chat提……更多
携手鼎捷 老板电器以AI大模型赋能企业管理决策
...验收标准:1、无人工干预下,连续3个月全国M+1平均预测准确率达成76%,连续3个月全国M+0平均准确率达成82%;2、需求预测、补货计划、供应计划模块客户需求功能在线化,且达到正常使用条件。 “鼎捷雅典娜预测透镜”数智驱...……更多
大模型是否有推理能力?DeepMind数月前的论文让AI社区吵起来了
...消失。结果还表明,随着数据集大小的增加,模型的最终准确率会提高(在模型大小之间保持一致)。同样,作者观察到架构大小增加的总体趋势是无论数据集大小如何,整体性能都会提高。通过下表 2 可以得出以下几点:动作...……更多
国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了
...。在 MATH 数据集上,Q * 帮助 DeepSeek-Math-7b 提升至 55.4% 的准确率,超越了 Gemini Ultra。Q * 算法论文地址:https://arxiv.org/abs/2406.14283可以看出,昆仑万维的技术已经达到了业界的领先水平,在竞争激烈的生成式 ……更多
菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM
...推理问题。刚刚发布时,人类在HellaSwag上能达到超过95%的准确率,SOTA分数却始终难以超过48%。但这种情况并没有持续很久。各个维度的分数持续猛涨,2023年3月,GPT-4在HellaSwag上的各项得分就逼近,甚至超过了人类水平。 https://...……更多
中国AI专利最多的5个公司!华为第5,平安第3,腾讯第1
...些复杂的分析和千人千面的方案都是AI秒级生成的,解析准确率高达98%。AI赋能的效果已初步显现。平安家医业务中,患者对在线问诊的五星好评率达到98%,电子病历甲级率高达99.8%,用药合规准确率是100%。 NO.4 国家电网人工智...……更多
古早费曼论文手写公式也能转LaTeX,马斯克Grok功能上线就火了
...有难度。而 Grok 可以把它们转化成如此工整的结果,而且准确率令人惊叹。图源:https://x.com/luismbat/status/1850925670408544355这个帖子吸引了众多研究人员的关注,整个帖子的浏览量已经突破 100 万。还有人晒出了自己用 Grok 识别出的...……更多
...项目面积大、位置偏远、银行网点和人员不足、人工观察准确率不高等客观情况,银行在贷前资产价值评估或者贷后定期风险监管环节存在痛点,进而导致介入力度受限。而空天数据,尤其是卫星遥感数据具有地理覆盖面广、客...……更多
春节流量给支付宝留下了什么?
...是能做的。”陈亮认为,当下AI技术的挑战主要在于提高准确率。以往依赖复杂且可行性不高的模板来调用功能,不仅难以保持高准确率,而且维护困难,导致项目难以持续,大模型技术的引入给LUI提供了更多的可能。基于大模...……更多
AI大模型赋能交通:化身“数字运维专家”,融入车管电子书
...大模型技术的电子书对于库内知识的召回率达100%,回答准确率达95%,敏感词拦截率超99.9%,可以帮助群众在车管业务知识库中找到最优业务指引。该系统自2023年11月面向全体市民开放上线以来,电子书总浏览量超1千万,推出车...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
...的 LongVILA 模型在 1400 帧的大海捞针实验中实现了 99.5% 的准确率,相当于 274k 个 token 的上下文长度。此外, MM-SP 系统可以有效地将上下文长度扩展到 200 万个 token 而无需梯度检查点,与环形序列并行(ring sequence parallel……更多
将大模型训练成保险产品专家?中国太保将推进11个岗位的数字劳动力建设
...核数字劳动力上线,利用大模型实现了流程高度自动化,准确率高达89%。“中国太保通过深化与华为、科大讯飞等科技型战略合作伙伴的合作,建设保险行业首个自主可控的支撑千亿级大模型的全信创基础设施,最高可支持1750...……更多
数势携手百川发布大模型联合解决方案,推动中国大模型价值落地
...标准方案存在效果瓶颈和性能风险,譬如企业级数据查询准确率低、多表关联查询方式导致性能不可控、面对海量数据时导致的高额表结构学习成本,以及单纯靠大模型生成SQL无法解决高级反复的分析问题等问题。举例来说,当...……更多
2024WAIC热议大模型助力产业新趋势,可信应用成焦点
...型实现千亿级别参数的视觉语言识别,报告、药物等识别准确率高达 90%,中英文医疗水平测试超越 GPT-4,在 PromptCBLUE 中实现 A 榜第一,B榜第二。另外,百灵医疗可信一体机的算力支持实现国产化的训推一体,交付周期降低90%;...……更多
北京推动“生物多样性之都”建设 率先建成生态综合感知模型库
...识别植物5800种、动物330种、鸟类1200余种、昆虫80多种,准确率达85%以上,有效解决生物监测数据“不全面、不准确、不及时”等难题,显著提升了首都野生动植物和病虫害智慧感知监测能力。5月21日,北京市生态保护新闻发布...……更多
CybotStar——大模型一站式应用开发平台
...实际需求的答案。在第三方测评机构的测评中,CybotStar的准确率和精准性取得了行业领先的成绩。一个强大的企业级知识库,将使得大模型更好地支持企业决策、优化流程和服务客户等。智能体:基于CybotStar平台构建的智能体,...……更多
...与没有“动作域获取”影响的情况下执行相同任务相比,准确率分别提高了59%和89%。研究人员希望在可预见的未来为“动作域获取”找到其他家务用途。能够解决问题“语言引导的抽象”框架也让机器人能够像人一样更好地理解...……更多
真·AI程序员,阿里云「通义灵码」全面进化,全流程开发仅用几分钟
...知、检索增强式生成(RAG)和自适应生成能力,研发问答准确率超过 90%。据统计,通义灵码为已有用户贡献的代码比例已经接近 30%。与此同时,随着通义大模型在语义理解、代码生成、开发工作流等方面全面进化,通义灵码的...……更多
百度文心大模型4.0技术进展
...确知识,最后把这些找到的知识组装进Prompt送入大模型,准确率好,效率也高;另一方面,对大模型的输出进行反思,从生成结果中拆解出知识点,然后再利用搜索引擎、知识图谱、数据库,以及大模型本身进行确认,进而对有...……更多
科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%
...语言模型在预测神经科学结果方面超越了人类专家,平均准确率达到81%,而人类专家仅为63%;模型通过整合大量文献数据,展现出了惊人的前瞻性预测能力,预示着未来科研工作中人机协作的巨大潜力。在现代化工具的帮助下,...……更多
...客服场景已运行5个月,实测数据显示,大模型意图理解准确率达91%,已接近于人,相较于传统AI的68%有较大提升。不仅如此,天镜能同时在多个文档的文字、图表等多模态文本中找到并融合答案,充分理解后将其组织为人更容易...……更多
更多关于科技的资讯:
健康之旅,“媒”好同行!爱康集团烟威区域媒体开放日圆满结束
为构建与公众的沟通桥梁,让烟威人民更好地了解爱康的医疗品质及优质体检服务,9月25日下午爱康集团烟威区域媒体开放日活动于爱康莱山区分院成功举办
2025-10-01 20:51:00
人工智能不仅能分析人脸情绪,还能读取脑电波信号,为人定制香氛;恐龙变为AI数字虚拟形象,成为人们的“萌宠”——这不是科幻电影
2025-09-30 08:09:00
从线上学习到山水修行:简知文旅×简橙教育共同打造银发文旅的深度与温度
近日,长江三峡见证了一场别开生面的银发游学盛事。"三峡简橙号·年度盛典"游学项目在历时七天的精彩行程后圆满落下帷幕。该项目由简知科技旗下两大知名品牌"简知文旅"与"简橙教育"联合策划执行
2025-09-30 08:17:00
聊城智汇 链接全球丨锚定国际市场,力得汽车科技加速布局海外
齐鲁晚报·齐鲁壹点 国晓宁 崔宇晴走进山东力得汽车科技股份有限公司的生产车间,机器轰鸣声不绝于耳,一条条先进的生产线正有序运转
2025-09-30 09:20:00
国庆黄金周变身“家电焕新周”,三联家电门店人气爆棚
随着国庆与中秋双节同庆的长假来临,消费市场迎来了一年之中最炙手可热的“黄金销售季”。与以往不同的是,这个假期在旅游、探亲等传统主题之外
2025-09-30 09:22:00
壹点观察 | 蔚来城商业广场十一开业,德州商业格局再迎新变化
在商业竞争日益激烈的今天,一座全新的商业综合体——蔚来城商业广场,即将于十一正式开门迎客。它的到来,为德州商业市场增添了新的变化
2025-09-30 09:24:00
鲁网9月29日讯(记者 杨勇)秋分时节,聊城市莘县升鑫金属制品有限公司的生产车间内,员工工作紧张有序,各种机器设备高效运转
2025-09-30 10:04:00
Aritco与Dezeen联合举办设计论坛 共探\
苏州2024年9月16日 -- 近日,瑞典家用电梯品牌Aritco瑞特科与全球知名设计媒体Dezeen设志在苏州联合举办了一场主题为"摒弃风格
2025-09-30 10:18:00
小微企业在传统银行承兑汇票(简称“银承”)业务办理中常常面临诸多难题。企业需要多次往返银行网点,提交大量纸质材料,流程烦琐
2025-09-30 10:45:00
中国数据研究中心:中之杰荣膺月饼行业智造先锋奖榜首
9月28日,中国数据研究中心正式发布《2025中国月饼行业白皮书》及“2025中国月饼行业智造先锋奖”十强品牌榜单,吉林中之杰食品科技发展有限公司凭借其位于长春的智能新厂
2025-09-30 11:15:00
鲁网9月30日讯近日,省科技厅公布了2025年度科技型中小企业创新能力提升工程(先投后股类)项目名单,全市共4家企业入选
2025-09-30 11:16:00
浪潮海晏荣获2025年“数据要素×”大赛山东分赛决赛三等奖
近日,由国家数据局、山东省人民政府联合指导,山东省大数据局等21家单位联合主办的2025年“数据要素×”大赛山东分赛决赛获奖名单正式公布
2025-09-30 11:21:00
据人民日报报道,近期国家网信办指导多地网信部门,对微博、快手、小红书、今日头条等多家平台进行约谈,责令限期整改热搜热榜存在的问题
2025-09-30 12:33:00
朱琳:品牌要让Z世代体验“设计师”般的快感
齐鲁晚报·齐鲁壹点 记者 牟静萍 实习生 葛同同 当下,Z世代正在以其独特的消费观念、多元的兴趣取向和对精神体验的重视
2025-09-30 12:46:00
大皖新闻讯 算力作为数字经济时代的核心生产力,已成为城市竞争的关键赛道。“十四五”期间,芜湖紧抓“东数西算”国家战略机遇
2025-09-30 13:57:00