• 我的订阅
  • 头条热搜
OpenAI o1 模型 PlanBench 规划能力实测:准确率 97.8%
...。OpenAI o1 模型成绩在 Blocksworld 任务中,OpenAI 的 o1 模型准确率达到 97.8%,大大超过了之前的最佳语言模型 LLaMA 3.1 405B(准确率为 62.6%)。在更具挑战性的“Mystery Blocksworld”加密版本中,传统模型几乎全部失败,而……更多
推理性能直逼o1,DeepSeek再次出手,重点:即将开源
...的推理过程。如上图中的红色实线所示,模型所能达到的准确率与所给定的推理长度呈正相关。且相比于传统的多次采样 + 投票(Majority Voting),模型思维链长度增加展现出了更高的效率。最惊艳的是,发布即上线:所有用户均...……更多
o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回
...。相比于传统模型的优势更是碾压级别,在超难任务上的准确率比Llama3.1-405B高了11倍。要知道之前,OpenAI自己人也发了一张图,显示preview论性能比不过满血版,论经济性又不如mini,处于一个十分尴尬的地位。作者在推文中表示...……更多
AI“明星”选手巅峰对决!记者实测最新谷歌Gemini与GPT-4o
近日,OpenAI用一场26分钟的线上直播展示了GPT-4o带来的惊艳交互能力,将新一轮AI争霸带入了“Her 时代”。GPT-4o的“o”代表“omni”,一词意为“全能”,该模型能够实现无缝的文本、视频和音频输入,并生成相应模态的输出,...……更多
开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1
...编程语言。特别在MMLU上,其预训练版本更是达到了84.0%的准确率。消息一出,Mistral AI联创兼首席科学家第一时间转发,直接cue Llama 3.1 405B的那种:Perplexity CEO Aravind Srinivas也开麦了:开源追赶闭源的趋势很明显,未来闭源模型只..……更多
LLM仍然不能规划,刷屏的OpenAI o1远未达到饱和
...模型中,LLaMA 3.1 405B 在常规 Blocksworld 测试中表现最佳,准确率达到 62.6%。然而模型在 Mystery Blocksworld 的表现却远远落后——没有一个 LLM 在测试集上达到 5%,并且在一个领域上的性能并不能清楚地预测另一个领域的性能。这种结...……更多
零一万物大模型Yi-34B夺得全球开源评测“双料冠军”,已在阿里云魔搭开源
...本可下降多达50%。目前,零一万物Infra能力实现故障预测准确率超过90%,故障提前发现率达到99.9%,不需要人工参与的故障自愈率超95%。零一万物组建了由前Google大数据和知识图谱专家领衔的数据团队,建设了高效、自动、可评...……更多
文心一言发布百度市值蒸发200亿,外界称缺乏亮点,应用前景难超ChatGPT
...出来高时效的信息和内容,从而大幅度提升事实性问题的准确率。此外,李彦宏表示文心一言能够连续三次内容创作生成,这是基于庞大数据规模而发生的“智能涌现”。据介绍,文心一言大模型的训练数据包括万亿级网页数据...……更多
蚂蚁自研知识增强大模型服务框架KAG,可显著提升知识推理准确率
...AI 原生 App “支小宝” 采用这套框架,在政务问答场景的准确率提升到了 91%,医疗问答垂直的指标解读准确率可达 90% 以上。梁磊还透露,KAG 框架会进一步向社区开放,并在开源框架 OpenSPG (https://github.com/OpenSPG/openspg) 中原生支..……更多
百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法
...推理能力:在GSM8K数据集上,Q*帮助Llama-2-7b提升至80.8%的准确率,超越了ChatGPT;在MATH数据集上,Q*帮助DeepSeek-Math-7b提升至55.4%的准确率,超越了Gemini Ultra;在MBPP数据集上,Q*帮助CodeQwen1.5-7b-Chat提……更多
携手鼎捷 老板电器以AI大模型赋能企业管理决策
...验收标准:1、无人工干预下,连续3个月全国M+1平均预测准确率达成76%,连续3个月全国M+0平均准确率达成82%;2、需求预测、补货计划、供应计划模块客户需求功能在线化,且达到正常使用条件。 “鼎捷雅典娜预测透镜”数智驱...……更多
大模型是否有推理能力?DeepMind数月前的论文让AI社区吵起来了
...消失。结果还表明,随着数据集大小的增加,模型的最终准确率会提高(在模型大小之间保持一致)。同样,作者观察到架构大小增加的总体趋势是无论数据集大小如何,整体性能都会提高。通过下表 2 可以得出以下几点:动作...……更多
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”
...据集ImageNet上,该模型仅基于公开数据便达到了90.1%的Top-1准确率。这是除谷歌与微软之外,唯一准确率超过90.0%的模型,值得一提的是,谷歌与微软均未公开模型及额外数据集。“书生2.5”同时也是世界上开源模型中ImageNet准确...……更多
菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM
...推理问题。刚刚发布时,人类在HellaSwag上能达到超过95%的准确率,SOTA分数却始终难以超过48%。但这种情况并没有持续很久。各个维度的分数持续猛涨,2023年3月,GPT-4在HellaSwag上的各项得分就逼近,甚至超过了人类水平。 https://...……更多
中国AI专利最多的5个公司!华为第5,平安第3,腾讯第1
...些复杂的分析和千人千面的方案都是AI秒级生成的,解析准确率高达98%。AI赋能的效果已初步显现。平安家医业务中,患者对在线问诊的五星好评率达到98%,电子病历甲级率高达99.8%,用药合规准确率是100%。 NO.4 国家电网人工智...……更多
...项目面积大、位置偏远、银行网点和人员不足、人工观察准确率不高等客观情况,银行在贷前资产价值评估或者贷后定期风险监管环节存在痛点,进而导致介入力度受限。而空天数据,尤其是卫星遥感数据具有地理覆盖面广、客...……更多
古早费曼论文手写公式也能转LaTeX,马斯克Grok功能上线就火了
...有难度。而 Grok 可以把它们转化成如此工整的结果,而且准确率令人惊叹。图源:https://x.com/luismbat/status/1850925670408544355这个帖子吸引了众多研究人员的关注,整个帖子的浏览量已经突破 100 万。还有人晒出了自己用 Grok 识别出的...……更多
春节流量给支付宝留下了什么?
...是能做的。”陈亮认为,当下AI技术的挑战主要在于提高准确率。以往依赖复杂且可行性不高的模板来调用功能,不仅难以保持高准确率,而且维护困难,导致项目难以持续,大模型技术的引入给LUI提供了更多的可能。基于大模...……更多
AI大模型赋能交通:化身“数字运维专家”,融入车管电子书
...大模型技术的电子书对于库内知识的召回率达100%,回答准确率达95%,敏感词拦截率超99.9%,可以帮助群众在车管业务知识库中找到最优业务指引。该系统自2023年11月面向全体市民开放上线以来,电子书总浏览量超1千万,推出车...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
...的 LongVILA 模型在 1400 帧的大海捞针实验中实现了 99.5% 的准确率,相当于 274k 个 token 的上下文长度。此外, MM-SP 系统可以有效地将上下文长度扩展到 200 万个 token 而无需梯度检查点,与环形序列并行(ring sequence parallel……更多
将大模型训练成保险产品专家?中国太保将推进11个岗位的数字劳动力建设
...核数字劳动力上线,利用大模型实现了流程高度自动化,准确率高达89%。“中国太保通过深化与华为、科大讯飞等科技型战略合作伙伴的合作,建设保险行业首个自主可控的支撑千亿级大模型的全信创基础设施,最高可支持1750...……更多
数势携手百川发布大模型联合解决方案,推动中国大模型价值落地
...标准方案存在效果瓶颈和性能风险,譬如企业级数据查询准确率低、多表关联查询方式导致性能不可控、面对海量数据时导致的高额表结构学习成本,以及单纯靠大模型生成SQL无法解决高级反复的分析问题等问题。举例来说,当...……更多
2024WAIC热议大模型助力产业新趋势,可信应用成焦点
...型实现千亿级别参数的视觉语言识别,报告、药物等识别准确率高达 90%,中英文医疗水平测试超越 GPT-4,在 PromptCBLUE 中实现 A 榜第一,B榜第二。另外,百灵医疗可信一体机的算力支持实现国产化的训推一体,交付周期降低90%;...……更多
北京推动“生物多样性之都”建设 率先建成生态综合感知模型库
...识别植物5800种、动物330种、鸟类1200余种、昆虫80多种,准确率达85%以上,有效解决生物监测数据“不全面、不准确、不及时”等难题,显著提升了首都野生动植物和病虫害智慧感知监测能力。5月21日,北京市生态保护新闻发布...……更多
CybotStar——大模型一站式应用开发平台
...实际需求的答案。在第三方测评机构的测评中,CybotStar的准确率和精准性取得了行业领先的成绩。一个强大的企业级知识库,将使得大模型更好地支持企业决策、优化流程和服务客户等。智能体:基于CybotStar平台构建的智能体,...……更多
...与没有“动作域获取”影响的情况下执行相同任务相比,准确率分别提高了59%和89%。研究人员希望在可预见的未来为“动作域获取”找到其他家务用途。能够解决问题“语言引导的抽象”框架也让机器人能够像人一样更好地理解...……更多
百度文心大模型4.0技术进展
...确知识,最后把这些找到的知识组装进Prompt送入大模型,准确率好,效率也高;另一方面,对大模型的输出进行反思,从生成结果中拆解出知识点,然后再利用搜索引擎、知识图谱、数据库,以及大模型本身进行确认,进而对有...……更多
真·AI程序员,阿里云「通义灵码」全面进化,全流程开发仅用几分钟
...知、检索增强式生成(RAG)和自适应生成能力,研发问答准确率超过 90%。据统计,通义灵码为已有用户贡献的代码比例已经接近 30%。与此同时,随着通义大模型在语义理解、代码生成、开发工作流等方面全面进化,通义灵码的...……更多
...客服场景已运行5个月,实测数据显示,大模型意图理解准确率达91%,已接近于人,相较于传统AI的68%有较大提升。不仅如此,天镜能同时在多个文档的文字、图表等多模态文本中找到并融合答案,充分理解后将其组织为人更容易...……更多
我在百度大模型应用升级里,找到了企业增收提效的最佳路径
...面,甄知将传统被动式的搜索知识转变为主动获取知识,准确率高达90%。 喻友平现场演示了基于甄知平台构建的参会小助手,其可以以自然语言方式交互,为用户解答会议相关地点、报名等问题,提供产品最新升级知识信息点...……更多
更多关于科技的资讯:
摘要:在新媒体时代背景下,财经新闻报道作为连接经济信息与公众的重要桥梁,其质量直接关系到信息传播的效果、社会影响力以及公众对经济现象的理解
2024-11-26 01:27:00
提取和整理地理阅读材料中的关键信息,对于地理学习、应试、研究和教育具有重要意义,正确而高效地提取材料信息有助于研究者或学习者更加深入地理解地理现象
2024-11-26 01:27:00
随着工业4.0时代的到来,智能制造逐渐成为机械制造领域的重要发展趋势。焊接作为机械制造中不可或缺的工艺,其质量直接影响到产品的整体性能和安全性
2024-11-26 01:27:00
摘要:随着信息技术的迅速发展,其在消防工作中的应用也日益广泛和深入。本文探讨了信息技术在消防工作中的应用现状,包括火灾监测预警
2024-11-26 01:27:00
摘要:跨境电商的快速发展为国际贸易带来了新的机遇,但同时也面临着物流效率低下的问题。本文旨在探讨提升跨境电商物流效率的策略
2024-11-26 01:27:00
lginnotek将投资3759亿韩元用于摄像头模组生产设施
11月24日消息,据外媒TheElec报道,LGInnotek宣布将投资3759亿韩元(当前约3.92亿元人民币)用于其摄像头模组生产设施
2024-11-26 01:42:00
《使命召唤》系列在《黑色行动6》之后的未来发展方向和改进措施
11月24日消息,据爆料者TheGhostofHope透露,微软正在组建一个委员会,以决定《使命召唤》系列在《黑色行动6》之后的未来发展方向和改进措施
2024-11-26 01:48:00
上汽集团:全新一代固态电池计划2026年量产
11月24日消息,上汽集团于今年11月8日在上证e互动回复投资者提问时表示,全新一代固态电池计划于2026年实现量产,其能量密度超过 400wh/kg
2024-11-26 01:48:00
特斯拉cybertruck电池护照曝光
11月24日消息,一名名为fsd_adv_family的博主发帖声称自己的特斯拉Cybertruck皮卡在96%电量下为其停电房屋连续供电48小时
2024-11-26 01:52:00
thermaltake曜越透视thetower250京东开售
11月24日消息,Thermaltake曜越透视TheTower250机箱现已在京东开售,该ITX机箱延续了最近数款TheTower产品的“八角棱柱”家族外形设计
2024-11-26 01:58:00
利民frostvortex140se双扇风冷散热器京东开售
11月24日消息,利民FrostVortex“冰封漩涡”140SE双塔双扇风冷散热器现已在京东开售,定价为299元。▲中央热管较粗利民FrostVortex140SE风冷散热器标称DTPC解热能力上限可达280W
2024-11-26 01:59:00
微软面向beta频道用户带来两项新功能
11月25日消息,科技媒体WindowsLatest今天(11月25日)发布博文,报道称微软面向Beta频道用户,在Windows11Build22635
2024-11-26 02:15:00
《最终幻想7重生》未来有望登陆微软xbox平台
11月25日消息,游戏媒体GamesRadar昨日(11月24日)发布博文,报道称《最终幻想7重生》游戏未来有望登陆微软Xbox主机平台
2024-11-26 02:17:00
大润发Super聚焦
依托高鑫零售长期深耕的供应链和精益管理的优势,大润发Super的经营发力点是商品第一、效率优先。作者:博雅出品:零售商业财经ID
2024-11-26 02:17:00
iqooneo10标准版机型曝光:全系标配“护眼超冠屏”
11月25日消息,iQOO手机官方昨日公布了Neo10系列手机影像配置,全系搭载蓝厂旗舰同款影像:索尼定制IMX921超感光大底主摄
2024-11-26 02:27:00