• 我的订阅
  • 头条热搜
重磅!OpenAI o1模型还没有实现真正的逻辑推理能力
...二、社会评测与同行水平社会评测普遍认可o1 系列模型的逻辑推理能力优于 GPT-4o,但也有很多人提出了不同看法。差评XPIN邀请了理综三科的博士测评,物理评价较高,而生物、化学评价较低,综合认为o1在认知上达到硕士水平...……更多
昆仑万维:“天工大模型3.0”将于4月17日正式发布 同步开源4000亿参数MoE超级模型
...一代“天工2.0”MoE大模型,“天工3.0”在模型语义理解、逻辑推理、以及通用性、泛化性、不确定性知识、学习能力等领域拥有惊人的性能提升,其模型技术知识能力提升超过20%,数学/推理/代码/文创能力提升超过30%。同时,“...……更多
不止反击,谷歌在AI群隔空@所有人
...的一个代表大模型,其功能的强大已无需赘言,尤其是在逻辑推理和数学表现层面。但据谷歌的官方测试,PaLM2的部分结果(例如数学)比GPT-4还要好。谷歌称,对PaLM2做了算法优化,使得它在体积上比PaLM要小,但整体性能更好...……更多
罗格斯大学团队提出思想链概念,提高大模型的算数推理能力
...概念,提高了大语言模型(LLM,large language models)在复杂推理任务上的性能,例如算术推理、常识推理和符号推理等。图 | 金明宇(来源:金明宇)CoT 的原理是通过提供推理过程的示例,来教会模型处理推理,详细说明导致最...……更多
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...竞赛不仅是对人类(碳基智能)思维敏捷性、知识掌握和逻辑推理的极限挑战,更是AI(“硅基智能”)锻炼的绝佳练兵场,是衡量AI与“超级智能”距离的重要标尺。OlympicArena——一个真正意义上的AI奥运竞技场。在这里,AI不...……更多
人类和AI在推理任务中的表现相似,Google DeepMind研究揭示AI局限性
...,尽管这些模型在处理自然语言方面表现卓越,但在复杂逻辑推理任务中,人类和语言模型都会受到语义内容合理性和可信度的影响,表现出类似的错误倾向。研究背景人类在推理过程中存在两种系统:“直觉系统”和“理性系...……更多
AI新时代揭幕!会“思考解题逻辑”的OpenAI推理大模型登场
...凌晨1时许,AI时代迎来崭新的起点——能够进行通用复杂推理的大模型终于走到台前。OpenAI在官网发布公告称,开始向全体订阅用户开始推送OpenAI o1预览模型——也就是此前被广泛期待的“草莓”大模型。OpenAI表示,对于复杂推...……更多
2023IDEA大会:让大模型更好应对复杂问题
...外籍院士沈向洋在会上发表主旨演讲,发布IDEA研究院的重磅研产结晶与市场化成果;在大咖云集的论坛环节,多位领军科学家、企业家、创业者同台论道,碰撞“学研产投”灵感。2023年,AI技术给人类生活带来撼动,一个个看...……更多
云从科技发布从容大模型 可支持图文理解、文案写作、逻辑推理等功能 【云从科技发布从容大模型 可支持图文理解、文案写作、逻辑推理等功能】《科创板日报》18日讯,云从科技发布从容大模型。在现场演示中,从容大模型...……更多
...个只有8%。研究人员根据答案是否正确以及答案所包含的逻辑推理是否有效,对大语言模型的答案进行了分类。实验的第一个结果是,在每个测试重复十次的情况下,答案是不一致的。例如,在同一个测试中,有的模型十次中答...……更多
Anthropic再反击!发布Claude 3.5吊打GPT-4o,视觉、逻辑推理等方面表现更强
...个版本Claude 3.5 Sonnet。从官方披露的测试数据来看,其在逻辑推理、编程、数学等方面中的表现性能均超越GPT-4o。网友直言,“太卷了,现在AI竞争是要以周为单位了吗?” 从官方介绍来看,Claude 3.5全家桶仍会有3款系列模型,...……更多
中国首个音乐SOTA模型「天工音乐大模型」今日公测
...,是全球最大的开源MoE大模型。「天工3.0」在语义理解、逻辑推理、通用性、泛化性、不确定性知识、学习能力等领域拥有突破性的性能提升,数学/推理/代码/文创能力提升超过30%。 (天工3.0模型参数超越Grok-1,成全球最大开...……更多
科学家推出大模型数据集,涵盖奥赛数学题,有望让AI辅导数学课程
...23 年 2 月。当时,已经有一些研究团队开始使用大模型做逻辑推理和数学推理。赵子龙和合作者也认为这个方向很有前景。他表示让自己印象最深的例子就是 OpenAI 网站上的一道数学推理的题: Simplify tan100 + 4sin100。根据 OpenAI 自...……更多
蚂蚁自研知识增强大模型服务框架KAG,可显著提升知识推理准确率
...地,也一定要对时间、数字和逻辑敏感,无论让它做多跳推理,还是逻辑规则数字计算,而这些恰好是大语言模型所不擅长的,包括前一段时间热议的 9.9 和 9.12 比大小的例子。基于此,我们认为在垂直领域落地的时候,大语言...……更多
港中文团队提出大模型元推理范式,革新大模型的评价体系
...一定启示。日前,相关论文以《大型语言模型评价中的元推理革命》(MR-GSM8K: A Meta-Reasoning Revolution in Large Language Model Evaluation)为题发在 arXiv,曾忠燊是第一作者,香港中文大学教授贾佳亚担任通讯作者 [1]。图……更多
百川智能发布baichuan3稳定语言模型
...语言处理和代码生成领域的强大实力。不仅如此,其在对逻辑推理能力及专业性要求极高的MCMLE、MedExam、CMExam等权威医疗评测上的中文效果同样超过了GPT-4,是中文医疗任务表现最佳的大模型。Baichuan3还突破“迭代式强化学习”...……更多
号称博士生水准!OpenAI最新模型仍分不出9.11和9.8哪个大
...出现的松鼠。这类游戏的逻辑相对复杂,更考验OpenAI o1的逻辑推理能力。官方还表示,相较于GPT-4o等现有的大模型,OpenAI o1能够解决更加困难的推理问题,同时改善过往模型中存在的机制性缺陷。比如在解答编程问题时也会更有...……更多
谷歌最新自然语言推理算法
...读理解和问答等任务中取得了极高的性能,但这些模型在逻辑推理方面的性能仍然十分滞后。去年5月「思维链」(ChainofThought,CoT)横空出世,有研究人员发现,只需要在prompt中加入「Let\'sthinkstepbystep」就能让GPT-3的推理性能大幅...……更多
腾讯大模型混元Turbo:御气升昺云,梓桐金鼎开
...不足,腾讯还特别强化了模型在高质量文本创作、数学和逻辑推理等方面的能力。 文本创作能力的显著提升在文本创作领域,大多数大模型表现平平,尤其在专业写作方面,常常缺乏足够的灵活性和精准度。混元Turbo在这方面...……更多
微软华人团队发布全新基准AGIEval,专为人类考试而生
...在衡量未来的法律学生的推理和分析能力,考试内容包括逻辑推理、阅读理解和分析推理等部分,需要应试者分析复杂信息和得出准确结论的能力,这些任务可以评估语言模型在法律推理和分析方面的能力。3.律师资格考试可以...……更多
大模型降价背后,国产大模型的竞争逻辑变了
...市场拱手让人。另一方面,随着大模型产业的快速发展,推理成本飞速下降,也成为终端降价的基础。据百度官方透露,相比一年前,文心大模型的算法训练效率提升到了原来的5.1倍,周均训练有效率达到98.8%,推理性能提升了1...……更多
美搜索巨头被“AI接管” 谷歌全新生成式搜索重磅发布
谷歌全面拥抱AI北京时间5月11日消息,北京时间今天凌晨,谷歌公司的年度I/O开发者大会正式拉开帷幕。不出所料,顶着巨大压力的谷歌把主题演讲的重中之重放在了生成式人工智能(AI)上,但是推进得依旧小心翼翼。眼下,谷...……更多
让OpenAI o1逆天的慢思考,360两月前就做出来了?周鸿祎CoE媲美CoT,应用太前瞻
...势以外,CoE模型在其余11项指标上均优于GPT-4o,特别是「逻辑推理」、「多步推理」、「诗词赏析」这类比较具有中文特色的问题,CoE的领先优势更加明显。目前,360的「多模型协作」已经能打败并远远甩开GPT-4o,媲美o1-preview。...……更多
...我们需要结合快思考的‘黑盒’预测和慢思考的‘白盒’逻辑推理,打造‘灰盒’可信大模型。具体而言,通过融合科学规律、观测数据和合成数据,开发理解物理世界的垂直领域科学大模型。”作为本届大赛评委会主席,上智...……更多
位列第一梯队,腾讯混元再度领跑国内大模型
...、多维度的综合性测评基准,由十大基础任务组成,包括逻辑推理、代码、语言理解、长文本、角色扮演等。本次报告选取了国内外具有代表性的32个大模型4月份的版本,通过多维度综合性测评,真实准确地反映了国内外大模型...……更多
菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM
...水平(图中0.0边界)甚至超越,其中不乏非常有挑战性的逻辑推理任务,比如需要复杂多步骤推理的BBH(Big-Bench Hard)和数学应用题测试集GSK8k。其中的HellaSwag测试集,由华盛顿大学和Allen AI在2019年推出,专门针对人类擅长但LLM...……更多
巅峰对谈:迈向 AGI 时代,除了优秀的大模型,还需要什么?|WISE2023颠覆AIGC产业发展峰会
...大模型在医疗、金融、工业制造等要求可解释性智能、与逻辑推理强相关的行业中落地应用的关键。同时,他指出,做好数据工程、提升大模型长效记忆能力也是大模型应用的必要条件,而图技术在这两个领域都可以发挥重要作...……更多
ChatGPT 火爆,程序员会不会被取代?答案都在这里!
...自己躬身入局深耕多年来的思考与实践经验,还带来数个重磅发布,都是进入人工智能新十年的“趁手兵器”:华为云与 CSDN 联合发布“智能化编程助手 Snap”,支持 IntelliJ、PyCharm、VS Code 等主流 IDE,不仅可以自动生成代码,还...……更多
36氪独家 | 「Fabarta」 获过亿元人民币 pre A 轮融资,大图和大模型在AGI时代缺一不可
...,通过分布式图计算引擎的核心能力,提升预训练模型的逻辑推理能力;二是进一步优化产品矩阵,进一步与行业结合,满足更多行业和场景的需求;三是扩大市场推广,提高品牌知名度,吸引更多优质客户和合作伙伴;四是引...……更多
商汤科技与金山办公达成商业合作,“日日新”大模型补强办公软件理科大脑
...力一直是大模型的痛点,理科领域需要高度的抽象思维和逻辑推理能力,并且要求非常精准的答案,作为计算机科学和信息技术领域的重要工具,代码能力被视作衡量大模型智慧的关键维度。事实上,在过去一年国产大模型如火...……更多
更多关于科技的资讯:
摆脱失望的代理桌面,Baklib 带来全新解决方案
代理桌面让您的代理和客户失望当客户拨入呼叫中心、发送电子邮件、聊天、在社交媒体上发泄或通过移动应用程序联系时,代理需要预先掌握所有相关的客户信息
2024-09-21 17:17:00
iPhone 16 Pro系列上手:终极版的iPhone 13 Pro
iPhone 16 Pro系列在某种程度上可以被视为iPhone 13 Pro的终极版本,其在大家关心的多个方面都进行了升级
2024-09-21 17:25:00
建筑行业作为国民经济的支柱产业,一直以来在推动经济增长、促进就业和改善人民生活条件方面发挥着不可替代的作用。近年来,随着科技的进步和市场环境的变化
2024-09-21 17:38:00
日照市东港区:乘“数”驭“智”,产业向“新”
“去年大会以后,依托产业互联网研究院平台,已经带动上百个项目落户东港。日照市临港、临港的产业基础,大宗商品交易带来的大流量
2024-09-21 17:54:00
真优惠别错过:速领京东服饰5折券、数码家电8折补贴券
如果你最近有购买服饰或数码家电的计划,可别错过这波优惠!1、京东服饰5折优惠券:京东正在推出服饰5折优惠券,领取后可以在订单提交时使用
2024-09-21 17:55:00
腾势Z9 GT首发版2010台售罄!三大专享福利
快科技9月21日消息,腾势汽车宣布,腾势Z9 GT首发版2010台已经售罄!据了解,2010是腾势品牌成立的年份,2010是对过往岁月的致敬
2024-09-21 18:25:00
棉涤针织面料 361运动长裤到手58元
天猫【361度官方旗舰店】361运动长裤日常售价为 109 元,领取 33 元优惠券,叠加官方立减,到手价为 65 元
2024-09-21 18:25:00
“小”卫星“大”用处!第八届丝博会这家航天企业有望与海南合作
南海网9月21日消息(记者 任桐)“目前,公司正在和海南一些企业洽谈合作。未来,希望能利用我们的先进技术,促成与海南自贸港的合作
2024-09-21 18:30:00
Baklib:引领知识管理变革的知识社区与认证计划
您准备好踏上进入知识管理世界的变革之旅了吗?在Baklib知识社区上线,我们很高兴推出我们的全面认证计划知识洞察与最佳实践
2024-09-21 18:39:00
小米王腾晒Redmi Note 14真机:温润如玉 精致的不像千元机
快科技9月21日消息,今天小米中国区市场部副总经理、Redmi品牌总经理王腾参与了蓝天救援队的野外救援训练。这次特训令其印象深刻
2024-09-21 18:55:00
大众网记者 崔荔媛 陈维航 烟台报道9月21日,2024年世界工业设计大会在热烈的氛围中持续进行。来自世界各地的设计师
2024-09-21 19:11:00
史无前例!博主实测一加13能跟iPhone互传数据
快科技9月21日消息,博主数码闲聊站晒出一加13截图,称一加13预装ColorOS 15系统,该系统支持和iOS设备之间传输数据
2024-09-21 19:25:00
演员严屹宽第一批入手华为Mate XT非凡大师:甚是兴奋 见证了历史性时刻
快科技9月21日消息,演员严屹宽发微博表示,有幸参加了华为Mate XT非凡大师首销成为第一批机主甚是兴奋。不只是因为拿到了心心念念的三折叠
2024-09-21 19:25:00
随着“金融教育宣传月”活动的持续深入,中国人寿保险股份有限公司(以下简称“中国人寿寿险公司”)打造的互动体验式“金融知识便利店”也在全国各地柜面陆续“营业”
2024-09-21 19:34:00
【“企”航“新”征程】以智慧化仓储物流助推医药产业高质量发展
医药物流涵盖药品仓储、运输、配送等多个关键环节,各环节间的有效协同对提升效率、降低成本至关重要。随着枣庄高新区新医药产业的集聚发展
2024-09-21 19:37:00