• 我的订阅
  • 头条热搜
OpenAI o1 模型 PlanBench 规划能力实测:准确率 97.8%
...。OpenAI o1 模型成绩在 Blocksworld 任务中,OpenAI 的 o1 模型准确率达到 97.8%,大大超过了之前的最佳语言模型 LLaMA 3.1 405B(准确率为 62.6%)。在更具挑战性的“Mystery Blocksworld”加密版本中,传统模型几乎全部失败,而……更多
o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回
...。相比于传统模型的优势更是碾压级别,在超难任务上的准确率比Llama3.1-405B高了11倍。要知道之前,OpenAI自己人也发了一张图,显示preview论性能比不过满血版,论经济性又不如mini,处于一个十分尴尬的地位。作者在推文中表示...……更多
AI“明星”选手巅峰对决!记者实测最新谷歌Gemini与GPT-4o
近日,OpenAI用一场26分钟的线上直播展示了GPT-4o带来的惊艳交互能力,将新一轮AI争霸带入了“Her 时代”。GPT-4o的“o”代表“omni”,一词意为“全能”,该模型能够实现无缝的文本、视频和音频输入,并生成相应模态的输出,...……更多
开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1
...编程语言。特别在MMLU上,其预训练版本更是达到了84.0%的准确率。消息一出,Mistral AI联创兼首席科学家第一时间转发,直接cue Llama 3.1 405B的那种:Perplexity CEO Aravind Srinivas也开麦了:开源追赶闭源的趋势很明显,未来闭源模型只..……更多
LLM仍然不能规划,刷屏的OpenAI o1远未达到饱和
...模型中,LLaMA 3.1 405B 在常规 Blocksworld 测试中表现最佳,准确率达到 62.6%。然而模型在 Mystery Blocksworld 的表现却远远落后——没有一个 LLM 在测试集上达到 5%,并且在一个领域上的性能并不能清楚地预测另一个领域的性能。这种结...……更多
零一万物大模型Yi-34B夺得全球开源评测“双料冠军”,已在阿里云魔搭开源
...本可下降多达50%。目前,零一万物Infra能力实现故障预测准确率超过90%,故障提前发现率达到99.9%,不需要人工参与的故障自愈率超95%。零一万物组建了由前Google大数据和知识图谱专家领衔的数据团队,建设了高效、自动、可评...……更多
蚂蚁自研知识增强大模型服务框架KAG,可显著提升知识推理准确率
...AI 原生 App “支小宝” 采用这套框架,在政务问答场景的准确率提升到了 91%,医疗问答垂直的指标解读准确率可达 90% 以上。梁磊还透露,KAG 框架会进一步向社区开放,并在开源框架 OpenSPG (https://github.com/OpenSPG/openspg) 中原生支..……更多
百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法
...推理能力:在GSM8K数据集上,Q*帮助Llama-2-7b提升至80.8%的准确率,超越了ChatGPT;在MATH数据集上,Q*帮助DeepSeek-Math-7b提升至55.4%的准确率,超越了Gemini Ultra;在MBPP数据集上,Q*帮助CodeQwen1.5-7b-Chat提……更多
携手鼎捷 老板电器以AI大模型赋能企业管理决策
...验收标准:1、无人工干预下,连续3个月全国M+1平均预测准确率达成76%,连续3个月全国M+0平均准确率达成82%;2、需求预测、补货计划、供应计划模块客户需求功能在线化,且达到正常使用条件。 “鼎捷雅典娜预测透镜”数智驱...……更多
菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM
...推理问题。刚刚发布时,人类在HellaSwag上能达到超过95%的准确率,SOTA分数却始终难以超过48%。但这种情况并没有持续很久。各个维度的分数持续猛涨,2023年3月,GPT-4在HellaSwag上的各项得分就逼近,甚至超过了人类水平。 https://...……更多
中国AI专利最多的5个公司!华为第5,平安第3,腾讯第1
...些复杂的分析和千人千面的方案都是AI秒级生成的,解析准确率高达98%。AI赋能的效果已初步显现。平安家医业务中,患者对在线问诊的五星好评率达到98%,电子病历甲级率高达99.8%,用药合规准确率是100%。 NO.4 国家电网人工智...……更多
...项目面积大、位置偏远、银行网点和人员不足、人工观察准确率不高等客观情况,银行在贷前资产价值评估或者贷后定期风险监管环节存在痛点,进而导致介入力度受限。而空天数据,尤其是卫星遥感数据具有地理覆盖面广、客...……更多
春节流量给支付宝留下了什么?
...是能做的。”陈亮认为,当下AI技术的挑战主要在于提高准确率。以往依赖复杂且可行性不高的模板来调用功能,不仅难以保持高准确率,而且维护困难,导致项目难以持续,大模型技术的引入给LUI提供了更多的可能。基于大模...……更多
AI大模型赋能交通:化身“数字运维专家”,融入车管电子书
...大模型技术的电子书对于库内知识的召回率达100%,回答准确率达95%,敏感词拦截率超99.9%,可以帮助群众在车管业务知识库中找到最优业务指引。该系统自2023年11月面向全体市民开放上线以来,电子书总浏览量超1千万,推出车...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
...的 LongVILA 模型在 1400 帧的大海捞针实验中实现了 99.5% 的准确率,相当于 274k 个 token 的上下文长度。此外, MM-SP 系统可以有效地将上下文长度扩展到 200 万个 token 而无需梯度检查点,与环形序列并行(ring sequence parallel……更多
将大模型训练成保险产品专家?中国太保将推进11个岗位的数字劳动力建设
...核数字劳动力上线,利用大模型实现了流程高度自动化,准确率高达89%。“中国太保通过深化与华为、科大讯飞等科技型战略合作伙伴的合作,建设保险行业首个自主可控的支撑千亿级大模型的全信创基础设施,最高可支持1750...……更多
数势携手百川发布大模型联合解决方案,推动中国大模型价值落地
...标准方案存在效果瓶颈和性能风险,譬如企业级数据查询准确率低、多表关联查询方式导致性能不可控、面对海量数据时导致的高额表结构学习成本,以及单纯靠大模型生成SQL无法解决高级反复的分析问题等问题。举例来说,当...……更多
2024WAIC热议大模型助力产业新趋势,可信应用成焦点
...型实现千亿级别参数的视觉语言识别,报告、药物等识别准确率高达 90%,中英文医疗水平测试超越 GPT-4,在 PromptCBLUE 中实现 A 榜第一,B榜第二。另外,百灵医疗可信一体机的算力支持实现国产化的训推一体,交付周期降低90%;...……更多
北京推动“生物多样性之都”建设 率先建成生态综合感知模型库
...识别植物5800种、动物330种、鸟类1200余种、昆虫80多种,准确率达85%以上,有效解决生物监测数据“不全面、不准确、不及时”等难题,显著提升了首都野生动植物和病虫害智慧感知监测能力。5月21日,北京市生态保护新闻发布...……更多
CybotStar——大模型一站式应用开发平台
...实际需求的答案。在第三方测评机构的测评中,CybotStar的准确率和精准性取得了行业领先的成绩。一个强大的企业级知识库,将使得大模型更好地支持企业决策、优化流程和服务客户等。智能体:基于CybotStar平台构建的智能体,...……更多
...与没有“动作域获取”影响的情况下执行相同任务相比,准确率分别提高了59%和89%。研究人员希望在可预见的未来为“动作域获取”找到其他家务用途。能够解决问题“语言引导的抽象”框架也让机器人能够像人一样更好地理解...……更多
真·AI程序员,阿里云「通义灵码」全面进化,全流程开发仅用几分钟
...知、检索增强式生成(RAG)和自适应生成能力,研发问答准确率超过 90%。据统计,通义灵码为已有用户贡献的代码比例已经接近 30%。与此同时,随着通义大模型在语义理解、代码生成、开发工作流等方面全面进化,通义灵码的...……更多
百度文心大模型4.0技术进展
...确知识,最后把这些找到的知识组装进Prompt送入大模型,准确率好,效率也高;另一方面,对大模型的输出进行反思,从生成结果中拆解出知识点,然后再利用搜索引擎、知识图谱、数据库,以及大模型本身进行确认,进而对有...……更多
...客服场景已运行5个月,实测数据显示,大模型意图理解准确率达91%,已接近于人,相较于传统AI的68%有较大提升。不仅如此,天镜能同时在多个文档的文字、图表等多模态文本中找到并融合答案,充分理解后将其组织为人更容易...……更多
我在百度大模型应用升级里,找到了企业增收提效的最佳路径
...面,甄知将传统被动式的搜索知识转变为主动获取知识,准确率高达90%。 喻友平现场演示了基于甄知平台构建的参会小助手,其可以以自然语言方式交互,为用户解答会议相关地点、报名等问题,提供产品最新升级知识信息点...……更多
大模型能省钱了:国内首个“AI评标师”已上岗
...审系统通过运用AI技术进行采购场景创新,使得智能评审准确率大幅提升。据了解,国家能源集团的智能无人评审系统实现了非招标采购全类别(物资、工程和服务)、全评审方式(询价通知单、最低价、综合评估法)全覆盖。...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...学场景。 所有数据和代码、模型均已开源。MMedBench 上的准确率,图 d 展⽰了在 MMedC 上进⼀步预训练使模型性能相⽐于基线显著提升。大规模多语医疗语料(MMedC)构建在构建数据集方面,研究团队收集了一份多语言医疗语料库...……更多
讯飞星火首发智能体平台,敏捷触达大模型应用企业落地最后一公里
...模型消耗的运算资源非常大。为了解决大模型应用效率和准确率问题,刘庆峰谈道,基于讯飞星火V3.5对长文本的理解、学习、回答能力,科大讯飞进行了重要的模型剪枝和蒸馏,从而推出业界性能最优的130亿参数的大模型,在...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...理能力,并证实了我们的训练策略的有效性。除了更高的准确率外,我们的模型实现的推理速度比 LLaMA-AdapterV2 和 ManipLLM 快 7 倍,这可以归因于 Mamba 语言模型的内容感知推理能力和效率。图 4. RoboVQA 上与机器人相关的推理对比...……更多
钉钉自己挤上牌桌
...比不同模型和工作流程得出结果的性能:仅用GPT-3.5模型准确率为48%,仅用GPT-4模型准确率为67%,GPT-3.5+Agent效果高于GPT-4模型的表现,GPT-4+Agent的效果则远高于GPT-4模型。 AI Agent市场的快速发展也超出很多人的预估。MarketsandMa……更多
更多关于科技的资讯:
厦门网讯(厦门日报记者 楚燕 通讯员 陈雯 李欣)在患者脑中植入电极片,设备就能实时解码患者意图,通过穿戴式设备帮助患者实现抬手
2025-12-24 08:04:00
太晓红摘要:金融科技的崛起对传统商业银行的经营影响极为深远,通过重塑其成本结构、拓展收入边界、优化资产质量,显著提升了传统商业银行的盈利能力
2025-12-24 06:39:00
杭州日报讯 近日,工信部发布50个全国中小企业数字化转型细分行业实践样本。公布的名单中,杭州作为首批中小企业数字化转型试点城市
2025-12-24 07:12:00
方毅、李晓军等分享实战经验杭州日报讯 大数据时代,大学生的创业之路如何启程?12月19日,在“共梦想·创未来”杭州大学生创业者赋能活动中
2025-12-24 07:12:00
中新经纬12月22日电 据国家市场监督管理总局网站消息,为严格落实获证生产企业质量安全主体责任,充分发挥CCC认证管理制度“事前发力
2025-12-23 08:07:00
日前,杭州市人民政府办公厅印发《关于支持类脑智能未来产业创新发展的若干措施》,提出了一系列措施支持类脑智能产业研发创新
2025-12-23 08:15:00
坚定信心 勇挑大梁·产业新亮点丨河北特色产业集群共享智造故事(八):产品设计共享给白沟箱包带来什么
产品设计共享给白沟箱包带来什么——河北特色产业集群共享智造故事(八)11月27日,白沟箱包数字化转型赋能中心工作人员(左二)向商户展示通过共享设计平台生成的效果图
2025-12-23 08:24:00
中旅酒店品牌焕新:以客户为中心诠释中国待客之道
当前,中国旅游市场正经历从高速增长向高质量发展的深刻转型。随着"体验经济"时代的全面到来,消费者的需求已超越简单的住宿与观光
2025-12-23 08:56:00
RGB-Mini LED、激光电视双料加冕,海信电视斩获音视频领域最高奖项
12月19日,中国电子视像行业协会在北京隆重举办了第二十一届中国音视频产业大会。会上对音视频产业取得的重大创新科技成果进行表彰
2025-12-23 08:56:00
中新经纬12月23日电 23日凌晨,快手方面对中新经纬表示,22日22时左右,平台遭到黑灰产攻击,目前已紧急处理修复中
2025-12-23 09:32:00
走进杭州西溪湿地,水道是这里的路网,船只是来往的车辆。船行鸟不惊、人过鱼不散,勾勒出一幅人与自然和谐共生的生动图景。林深处
2025-12-23 09:47:00
把资产交还给公众的人——专访闽籍网络大咖、阿里集团前副总裁卢维兴
近日,港股上市公司鼎石资本(00804.HK)发布公告,阿里集团前副总裁、阿里拍卖及阿里资产前总经理卢维兴出任联席主席
2025-12-23 09:55:00
全直营等八大服务优势加持 一嗨租车以高质量服务体系建设现代出行新生态
在国家深入实施扩大内需战略与绿色低碳转型的时代背景下,现代服务业正迎来高质量发展的关键时期。作为国民经济支柱产业之一,汽车租赁行业不仅是连接汽车制造与大众消费的关键纽带
2025-12-23 10:27:00
河北新闻网讯(田红伟)近日,邢台交建集团华赢公交公司依托自有运营数据与智能调度系统,与高德地图深化跨界合作,通过双方技术优势互补
2025-12-23 10:32:00
纽扣家庭教育获评国家级高新技术企业,以科技创新引领家庭教育
近日,纽扣家庭教育集团正式通过国家级高新技术企业认定,这一由科技部、财政部、税务总局共同监督管理的国家资质,标志着集团在核心自主知识产权
2025-12-23 10:47:00