• 我的订阅
  • 头条热搜
...个只有8%。研究人员根据答案是否正确以及答案所包含的逻辑推理是否有效,对大语言模型的答案进行了分类。实验的第一个结果是,在每个测试重复十次的情况下,答案是不一致的。例如,在同一个测试中,有的模型十次中答...……更多
谷歌最新自然语言推理算法
...读理解和问答等任务中取得了极高的性能,但这些模型在逻辑推理方面的性能仍然十分滞后。去年5月「思维链」(ChainofThought,CoT)横空出世,有研究人员发现,只需要在prompt中加入「Let\'sthinkstepbystep」就能让GPT-3的推理性能大幅...……更多
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...竞赛不仅是对人类(碳基智能)思维敏捷性、知识掌握和逻辑推理的极限挑战,更是AI(“硅基智能”)锻炼的绝佳练兵场,是衡量AI与“超级智能”距离的重要标尺。OlympicArena——一个真正意义上的AI奥运竞技场。在这里,AI不...……更多
罗格斯大学团队提出思想链概念,提高大模型的算数推理能力
...概念,提高了大语言模型(LLM,large language models)在复杂推理任务上的性能,例如算术推理、常识推理和符号推理等。图 | 金明宇(来源:金明宇)CoT 的原理是通过提供推理过程的示例,来教会模型处理推理,详细说明导致最...……更多
昆仑万维:“天工大模型3.0”将于4月17日正式发布 同步开源4000亿参数MoE超级模型
...一代“天工2.0”MoE大模型,“天工3.0”在模型语义理解、逻辑推理、以及通用性、泛化性、不确定性知识、学习能力等领域拥有惊人的性能提升,其模型技术知识能力提升超过20%,数学/推理/代码/文创能力提升超过30%。同时,“...……更多
百川智能发布baichuan3稳定语言模型
...语言处理和代码生成领域的强大实力。不仅如此,其在对逻辑推理能力及专业性要求极高的MCMLE、MedExam、CMExam等权威医疗评测上的中文效果同样超过了GPT-4,是中文医疗任务表现最佳的大模型。Baichuan3还突破“迭代式强化学习”...……更多
语言≠思维,大模型学不了推理:一篇Nature让AI社区炸锅了
...规划和遵循非言语指令,参与多种形式的推理,包括形式逻辑推理、关于世界的因果推理和科学推理(见图 1b)。研究表明,尽管失去了语言能力,一些患有严重失语症的人仍然能够进行所有测试形式的思考和推理,他们在各种...……更多
...AI)系统在编码、战略规划和机器人科学三个领域执行复杂推理任务。聊天生成预训练转换器(ChatGPT)和“克劳德3-奥普斯”(Claude 3 Opus)等大语言模型(LLM),根据人类输入“提示词”处理和生成文本。研究人员说,过去18个月,这些技...……更多
科学家推出大模型数据集,涵盖奥赛数学题,有望让AI辅导数学课程
...23 年 2 月。当时,已经有一些研究团队开始使用大模型做逻辑推理和数学推理。赵子龙和合作者也认为这个方向很有前景。他表示让自己印象最深的例子就是 OpenAI 网站上的一道数学推理的题: Simplify tan100 + 4sin100。根据 OpenAI 自...……更多
商汤科技与金山办公达成商业合作,“日日新”大模型补强办公软件理科大脑
...力一直是大模型的痛点,理科领域需要高度的抽象思维和逻辑推理能力,并且要求非常精准的答案,作为计算机科学和信息技术领域的重要工具,代码能力被视作衡量大模型智慧的关键维度。事实上,在过去一年国产大模型如火...……更多
港中文团队提出大模型元推理范式,革新大模型的评价体系
...一定启示。日前,相关论文以《大型语言模型评价中的元推理革命》(MR-GSM8K: A Meta-Reasoning Revolution in Large Language Model Evaluation)为题发在 arXiv,曾忠燊是第一作者,香港中文大学教授贾佳亚担任通讯作者 [1]。图……更多
微软发布旗下最小语言模型phi-2
...相比较其它主流语言模型,依然小很多。微软表示Phi-2在逻辑推理和安全性方面显示出显著的改进。通过正确的微调和定制,小型语言模型是云和边缘应用程序的强大工具。MicrosoftResearch机器学习基础小组负责人SebastienBubeck在Twitt...……更多
位列第一梯队,腾讯混元再度领跑国内大模型
...、多维度的综合性测评基准,由十大基础任务组成,包括逻辑推理、代码、语言理解、长文本、角色扮演等。本次报告选取了国内外具有代表性的32个大模型4月份的版本,通过多维度综合性测评,真实准确地反映了国内外大模型...……更多
Anthropic再反击!发布Claude 3.5吊打GPT-4o,视觉、逻辑推理等方面表现更强
...个版本Claude 3.5 Sonnet。从官方披露的测试数据来看,其在逻辑推理、编程、数学等方面中的表现性能均超越GPT-4o。网友直言,“太卷了,现在AI竞争是要以周为单位了吗?” 从官方介绍来看,Claude 3.5全家桶仍会有3款系列模型,...……更多
360智脑7b参数模型采用3.4万亿tokens训练
...包括自然语言理解、知识、数学计算和推理、代码生成、逻辑推理等。其中360模型在四个评测数据集上达到第一,平均分为第三。在LongBench(多任务、中英双语、针对大语言模型长文本理解能力的评测基准)测试中,360选择其中...……更多
第二届全球数贸会 | 文心一言成唯一入驻中国馆大模型
...代知识增强大语言模型,具备对话交互、内容创作、知识推理、多模态生成等能力。你可以跟它聊天,让它给你画一幅画,或者问它一些专业问题,写策划、做攻略,敲代码、做表格等等,高效便捷地帮助大家获取信息、知识和...……更多
面壁智能发布2B模型:适配主流手机,推理成本仅为GPT-4的1/360 | 最前线
...在MMLU(多任务语言理解)、Knowledge(知识)、Reasoning(推理)、Comprehension(理解)等关键指标上均超越了Meta Llama 2的13B模型。这一个故事,在2024年2月1日的发布会上,也被AI模型层公司面壁智能的CEO李大海不断提起。对标Mistral..……更多
...模型4.0训练算法效率提升3.6倍,周均训练有效率超过98%,推理性能提升50倍。王海峰认为,人工智能具有多种典型能力,理解、生成、逻辑、记忆是其中的基础能力,这四项能力越强,越接近通用人工智能,而大语言模型具备了...……更多
GPT-4o的识图能力有多牛?四大维度深度体验
...呈现,准确率高达100%。图片来源:GPT-4o四、手写指令和逻辑推理最后,记者上了点难度,用手写的逻辑推理题来测试了GPT-4o的识图和逻辑推理能力。GPT-4o的回答堪称完美,不仅准确识别了手写体文字并遵照指示,且答题逻辑完...……更多
中国首个音乐SOTA模型「天工音乐大模型」今日公测
...,是全球最大的开源MoE大模型。「天工3.0」在语义理解、逻辑推理、通用性、泛化性、不确定性知识、学习能力等领域拥有突破性的性能提升,数学/推理/代码/文创能力提升超过30%。 (天工3.0模型参数超越Grok-1,成全球最大开...……更多
科大讯飞股价跌停,市值蒸发120亿元
...为单位数,提升最多的是代码能力,仅有提升9%,其次是逻辑推理(8%),文本生成、知识问答、多模态能力则均只有7%。此前科大讯飞在8月15日发布星火V2.0时,七大能力大幅度提升,其中语言理解能力提升78%,文本生成、知识...……更多
2023IDEA大会:让大模型更好应对复杂问题
...本正经的胡说八道”怎么解?众所周之,大模型存在深度推理能力差、知识不可追溯、实时更新代价高等局限性,这也成为其在许多严肃领域落地的主要瓶颈。如何弥补大模型的这部分缺陷,是当下AI应用的重要课题。为此,IDEA...……更多
...成、方案规划、目标拆解能力;判别中枢具有信息抽取、逻辑推理、是非判断、研判检测能力;道德中枢具有情感分析、道德法律能力;记忆中枢具有信息记忆能力。此外,360以安全大模型为“大脑”,构建出智能体框架,通过...……更多
大模型降价背后,国产大模型的竞争逻辑变了
...市场拱手让人。另一方面,随着大模型产业的快速发展,推理成本飞速下降,也成为终端降价的基础。据百度官方透露,相比一年前,文心大模型的算法训练效率提升到了原来的5.1倍,周均训练有效率达到98.8%,推理性能提升了1...……更多
百度云升级模型服务,百度版GPTs即日开放 | 最前线
...在侯震宇看来,是AI生态发展的关键一年。一方面,算力推理层和模型训练工具链的优化,将是2024年的重点。他表示:“2024年我觉得算力的整体供应不确定性或紧张程度较大,所以如何能够更有效使用算力资源,是一个大家都...……更多
AI表现直逼国际奥数优秀选手, 它要 “征服”数学了吗?
...同步揭晓。这项赛事的目的是推动发展大语言模型的数学推理能力,训练出更高数学水平的新AI模型。纯数学领域中的重大发现是推理和创造力的灵感结晶,往往意味着人类智慧极限的突破。迄今为止,解决或协助解决高等级数...……更多
AI投资时间|绿洲资本张津剑:相比GPT技术本身,创业者更应该关注其对社会的影响
...经常会出现前言不搭后语,经常会出现逻辑上的错误。但逻辑推理只是一种世界观,我们的社会有时过于强调逻辑推理了,以至于让我们忘记了生命的本能。各位在选择另一半的时候有多少是通过做Excel或者大模型选出来的?有...……更多
...洗流程,为大模型训练提供了高质量的学科专业数据集和逻辑推理数据集。除此之外,浪潮信息提出基于单元测试的数据清洗方法,可更高效地获取高质量数据集,提高训练效率。“有限的算力资源下,训练数据的质量直接决定...……更多
科大讯飞大模型新升级:20秒制作PPT,拟人语音能力超越ChatGPT|最前线
...力平台训练的全民开放大模型。升级后的讯飞星火V3.5在逻辑推理、语言理解、文本生成、数学答题、代码、多模态等七大能力上均有提升。升级之后,讯飞星火的文本生成能力和数理运算能力都有提升,可以轻松回答初三的数...……更多
智源评测体系发布 国内外“百模”评估结果出炉
...存在一定的偏差。当前,大模型的发展具备了通用性,在逻辑推理能力上有显著提升,日趋接近人脑的特征。因此,在海淀区教委支持下,智源研究院联合与海淀区教师进修学校对齐学生测验方式,考察大模型与人类学生的学科...……更多
更多关于科技的资讯:
苹果AI上线,ChatGPT免费用!首款M4 Mac诞生,库克:这是全世界最佳AI一体机
【新智元导读】首款M4 Mac、「全世界最好的AI一体机」终于来了!同时,苹果AI也正式上线,iOS 18.1、iPadOS 18
2024-10-30 09:59:00
苹果Apple Intelligence正式登场!Siri超聪明,三大核心AI升级一文看尽
苹果Apple Intelligence(苹果智能)正式版终于来了!跟新版搭载M4的iMac一起来了。智东西10月29日消息
2024-10-30 10:00:00
卢伟冰报小米15 Pro价格时出现口误:本人回应
快科技10月30日消息,今天上午,小米集团卢伟冰针对昨晚小米发布会上的口误作出回应。此前在公布小米15 Pro价格时,卢伟冰把小米15 Pro 5299元说成“3000”
2024-10-30 10:02:00
自主设计研发!新舟60人工影响天气作业飞机成功验收
快科技10月30日消息,据报道,我国自主研发的新舟60国家级人工影响天气作业飞机通过专家验收。截至目前,我国已拥有5架自主研发的人工影响天气飞机
2024-10-30 10:02:00
奇瑞瑞虎7高能版官图发布:10万块就买“路虎揽胜极光”
快科技10月30日消息,近日,奇瑞发布了瑞虎7高能版的官图,而它的出现,也让很多人表示终于可以“用10万元买路虎揽胜极光了
2024-10-30 10:02:00
小鹏P7+续航光电实测:实际跑了672公里 续航达成率99.3%
快科技10月30日消息,日前,小鹏汽车举办了小鹏P7+三电技术沟通会。会上,小鹏汽车介绍,小鹏P7+的CLTC能耗只有11
2024-10-30 10:02:00
拼多多Temu曝出三项重大调整:年内有望超越亚马逊!
快科技10月30日消息,据媒体报道,拼多多旗下跨境电商平台Temu的半托管模式在组织层面迎来三项重大组织调整。首先在招商层面
2024-10-30 10:02:00
AMD CES 2025六大新品齐飞!CPU就有五个 Intel怎么追
2024年度的CES大展相当无聊,Intel、AMD、NVIDIA三大家都没有什么真正的新品,但是2025年度就完全不一样了
2024-10-30 10:02:00
小米15系列升级巨大 卢伟冰:有5点原因
快科技10月30日消息,今天上午,小米集团卢伟冰发文表示,手机行业已经进入了非常成熟的阶段,大家对新产品的兴奋感比前几年下降了很多
2024-10-30 10:32:00
AMD三季度营收68亿美元创记录!黯淡展望致股价跳水超7%
快科技10月30日消息,AMD发布了第三季度财报,营收达到68.2亿美元,同比增长18%,创下历史新高,略高于分析师预期的67
2024-10-30 10:32:00
续航轻松破千公里 李书福:吉利下一代甲醇乘用车将采用超醇电混
快科技10月30日消息,吉利控股集团董事长李书福在2024绿色甲醇能源产业发展论坛上表示:在乘用车领域,吉利下一代甲醇乘用车采用“醇氢动力”的超醇电混技术
2024-10-30 10:32:00
小米电视可用国补券 小米发布会新品购买汇总
10月29日举行的小米15系列新品发布会不仅带来了多款硬件设备,还展示了最新的软件升级与核心技术成果。此次发布会亮点纷呈
2024-10-30 10:32:00
吉林一号卫星看“东北雨姐”视频拍摄基地:人去楼空 都是演戏
快科技10月30日消息,网红塌方不稀奇,最近热门的是“东北雨姐”,甚至央视新闻节目都报道了长达20分钟,直指其只是在表演农村生活
2024-10-30 10:32:00
维谛技术(Vertiv):未来HPC,你想象不到的酷炫变革!
随着AI技术的迅猛发展,高性能计算(HPC)也迎来了新的变革浪潮。在2024全球超级计算机Green500排行榜上,位列前三的超算都采用了“超智融合”的技术理念
2024-10-30 10:46:00
高通中国区董事长孟樸:高通与中国产业在很多方面都是紧密绑定的
在追求下一代AI体验的过程中,前有Intel和AMD历史性地联手打造X86生态,后有高通自研芯片架构与好友圈技术共舞,似乎AI总会带来让人应接不暇的变化
2024-10-30 10:47:00