• 我的订阅
  • 头条热搜
Anthropic再反击!发布Claude 3.5吊打GPT-4o,视觉、逻辑推理等方面表现更强
...个版本Claude 3.5 Sonnet。从官方披露的测试数据来看,其在逻辑推理、编程、数学等方面中的表现性能均超越GPT-4o。网友直言,“太卷了,现在AI竞争是要以周为单位了吗?” 从官方介绍来看,Claude 3.5全家桶仍会有3款系列模型,...……更多
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...竞赛不仅是对人类(碳基智能)思维敏捷性、知识掌握和逻辑推理的极限挑战,更是AI(“硅基智能”)锻炼的绝佳练兵场,是衡量AI与“超级智能”距离的重要标尺。OlympicArena——一个真正意义上的AI奥运竞技场。在这里,AI不...……更多
昆仑万维:“天工大模型3.0”将于4月17日正式发布 同步开源4000亿参数MoE超级模型
...一代“天工2.0”MoE大模型,“天工3.0”在模型语义理解、逻辑推理、以及通用性、泛化性、不确定性知识、学习能力等领域拥有惊人的性能提升,其模型技术知识能力提升超过20%,数学/推理/代码/文创能力提升超过30%。同时,“...……更多
罗格斯大学团队提出思想链概念,提高大模型的算数推理能力
...概念,提高了大语言模型(LLM,large language models)在复杂推理任务上的性能,例如算术推理、常识推理和符号推理等。图 | 金明宇(来源:金明宇)CoT 的原理是通过提供推理过程的示例,来教会模型处理推理,详细说明导致最...……更多
云从科技发布从容大模型 可支持图文理解、文案写作、逻辑推理等功能 【云从科技发布从容大模型 可支持图文理解、文案写作、逻辑推理等功能】《科创板日报》18日讯,云从科技发布从容大模型。在现场演示中,从容大模型...……更多
...个只有8%。研究人员根据答案是否正确以及答案所包含的逻辑推理是否有效,对大语言模型的答案进行了分类。实验的第一个结果是,在每个测试重复十次的情况下,答案是不一致的。例如,在同一个测试中,有的模型十次中答...……更多
谷歌最新自然语言推理算法
...读理解和问答等任务中取得了极高的性能,但这些模型在逻辑推理方面的性能仍然十分滞后。去年5月「思维链」(ChainofThought,CoT)横空出世,有研究人员发现,只需要在prompt中加入「Let\'sthinkstepbystep」就能让GPT-3的推理性能大幅...……更多
大模型降价背后,国产大模型的竞争逻辑变了
...市场拱手让人。另一方面,随着大模型产业的快速发展,推理成本飞速下降,也成为终端降价的基础。据百度官方透露,相比一年前,文心大模型的算法训练效率提升到了原来的5.1倍,周均训练有效率达到98.8%,推理性能提升了1...……更多
...AI)系统在编码、战略规划和机器人科学三个领域执行复杂推理任务。聊天生成预训练转换器(ChatGPT)和“克劳德3-奥普斯”(Claude 3 Opus)等大语言模型(LLM),根据人类输入“提示词”处理和生成文本。研究人员说,过去18个月,这些技...……更多
百川智能发布baichuan3稳定语言模型
...语言处理和代码生成领域的强大实力。不仅如此,其在对逻辑推理能力及专业性要求极高的MCMLE、MedExam、CMExam等权威医疗评测上的中文效果同样超过了GPT-4,是中文医疗任务表现最佳的大模型。Baichuan3还突破“迭代式强化学习”...……更多
科学家推出大模型数据集,涵盖奥赛数学题,有望让AI辅导数学课程
...23 年 2 月。当时,已经有一些研究团队开始使用大模型做逻辑推理和数学推理。赵子龙和合作者也认为这个方向很有前景。他表示让自己印象最深的例子就是 OpenAI 网站上的一道数学推理的题: Simplify tan100 + 4sin100。根据 OpenAI 自...……更多
华人团队爆火instructblip抢跑看图聊天
...成员:InstructBLIP据介绍,InstructBLIP模型更擅长「看」、「推理」和「说」,即能够对复杂图像进行理解、推理、描述,还支持多轮对话等。比如,下图这一场景可能发生了什么?InstructBLIP推理出,可能飓风,或者恶劣的天气因素...……更多
2023IDEA大会:让大模型更好应对复杂问题
...本正经的胡说八道”怎么解?众所周之,大模型存在深度推理能力差、知识不可追溯、实时更新代价高等局限性,这也成为其在许多严肃领域落地的主要瓶颈。如何弥补大模型的这部分缺陷,是当下AI应用的重要课题。为此,IDEA...……更多
不止反击,谷歌在AI群隔空@所有人
...的一个代表大模型,其功能的强大已无需赘言,尤其是在逻辑推理和数学表现层面。但据谷歌的官方测试,PaLM2的部分结果(例如数学)比GPT-4还要好。谷歌称,对PaLM2做了算法优化,使得它在体积上比PaLM要小,但整体性能更好...……更多
港中文团队提出大模型元推理范式,革新大模型的评价体系
...一定启示。日前,相关论文以《大型语言模型评价中的元推理革命》(MR-GSM8K: A Meta-Reasoning Revolution in Large Language Model Evaluation)为题发在 arXiv,曾忠燊是第一作者,香港中文大学教授贾佳亚担任通讯作者 [1]。图……更多
微软华人团队发布全新基准AGIEval,专为人类考试而生
...在衡量未来的法律学生的推理和分析能力,考试内容包括逻辑推理、阅读理解和分析推理等部分,需要应试者分析复杂信息和得出准确结论的能力,这些任务可以评估语言模型在法律推理和分析方面的能力。3.律师资格考试可以...……更多
通义千问再放大招:720亿大模型开源,全尺寸赶上LLaMA-2,还有移动端可用的18亿模型
...求模型给出对音频的理解,甚至基于音频进行文学创作、逻辑推理、故事续写等等。音频理解能够赋予大模型接近人类的听觉能力。简单来说,现在通义千问不仅能“看”,也能“听”了,而且更加耳聪目明。此前8月,通义千...……更多
...求模型给出对音频的理解,甚至基于音频进行文学创作、逻辑推理、故事续写等等。至此,通义千问共开源18亿、70亿、140亿、720亿参数的4款大语言模型,以及视觉理解、音频理解两款多模态大模型,实现“全尺寸、全模态”开...……更多
超越ChatGPT:人类特有的思维要强化
...一数据驱动学习机制不可避免存在不可解释、数据依赖和逻辑推理弱等不足。忽略这些不足,可能会给全面认识ChatGPT带来一定的困扰。虚假关联带来隐患尽管ChatGPT可以“写”出人机莫辨的论文、诗歌,但当你尝试问它类似这样...……更多
AI表现直逼国际奥数优秀选手, 它要 “征服”数学了吗?
...同步揭晓。这项赛事的目的是推动发展大语言模型的数学推理能力,训练出更高数学水平的新AI模型。纯数学领域中的重大发现是推理和创造力的灵感结晶,往往意味着人类智慧极限的突破。迄今为止,解决或协助解决高等级数...……更多
百度文心一言发布会详细纪要
...和6只兔子。在这两轮提问当中展现出来的是文心一言的逻辑推理能力”。这方面它不仅知道题出的对不对,也不仅能够给出答案,也给出了解题的步骤。这很像是小学生在解应用题,它是有逻辑的,一步一步的推理出来的。我...……更多
百度云升级模型服务,百度版GPTs即日开放 | 最前线
...在侯震宇看来,是AI生态发展的关键一年。一方面,算力推理层和模型训练工具链的优化,将是2024年的重点。他表示:“2024年我觉得算力的整体供应不确定性或紧张程度较大,所以如何能够更有效使用算力资源,是一个大家都...……更多
《六阶谜题》—狼人杀与悬疑剧的巧妙融合
...题(six-stepmystery)》是由章鱼罐头制作组制作的一款略带推理要素的悬疑类视觉小说。失意青年刘在咖啡厅打工的时候被老板夏岚赏识,通过偶然的机会成为她的贴身保镖,他在这次机遇的推动下结识了几位性格独特怪异的少女...……更多
菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM
...水平(图中0.0边界)甚至超越,其中不乏非常有挑战性的逻辑推理任务,比如需要复杂多步骤推理的BBH(Big-Bench Hard)和数学应用题测试集GSK8k。其中的HellaSwag测试集,由华盛顿大学和Allen AI在2019年推出,专门针对人类擅长但LLM...……更多
科大讯飞股价跌停,市值蒸发120亿元
...为单位数,提升最多的是代码能力,仅有提升9%,其次是逻辑推理(8%),文本生成、知识问答、多模态能力则均只有7%。此前科大讯飞在8月15日发布星火V2.0时,七大能力大幅度提升,其中语言理解能力提升78%,文本生成、知识...……更多
美的集团首席AI官唐剑:AI和智能机器人是家电行业巨大的机遇|新质生产力·AI Partner大会
...的问题,能够准确识别家居控制意图,大模型有非常强的逻辑推理能力,结合对用户习惯的学习以及逻辑推理能力,预测下一步用户想做什么,从而做一个简单的规划,提前为客户提供主动服务。有了美言大模型,结合美的入口...……更多
llava-1.6与gpt-4vmp面硬刚的性能,一起来看看
...1.6的智能服务可以覆盖更多元的场景、具有更强的常识和逻辑推理能力。图片来源:用户在X平台对LLaVA-1.6的试用截图在上图的应用场景中,用户发给LLaVA-1.6一张机票,询问与之相关的接机和日程安排。LLaVA-1.6不仅准确的估计了...……更多
...没有大数据训练的情况下,能像人类一样通过概念学习和逻辑推理的方式完成学习任务。人工智能系统主要以海量数据为基础,利用大量算力和存储进行数据“检索”,核心范式是深度学习。近年来,这类人工智能取得显著进展...……更多
Sora刷屏视频出现多处失误 模拟真实世界仍需闯关
...。中科深智创始人兼CEO成维忠表示,Sora因其并非严格的推理模型,目前还存在因果关系推理问题,但这个问题不是Sora自身的问题,而是目前所有类似模型均存在的问题,类似于大模型普遍存在的幻觉问题。未来会随着训练的加...……更多
绿军or小牛,瞎蒙只是一种感觉
...人工智能所基于的模型是常规的大数据收集和按类别进行逻辑推理,这是绝大多数从业者使用的通用模型。人类的阅读量远远不如人工智能,所以在数据收集上肯定比不过人工智能,但是人类有一个特性是人工智能永远比不上的...……更多
更多关于科技的资讯:
引领数字经济发展新动力2024数字经济高质量发展论坛胜利召开
在数字经济蓬勃发展的今天,数据已经成为数字经济的核心要素,正逐步成为推动社会经济高质量发展的核心动力。6月28日,由中关村虚拟现实产业协会
2024-07-01 14:01:00
706山东海尔首届家博会 一起“焕”新家
鲁网7月1日讯海尔智家正在全国各地启动的“美好生活焕新季”,是一场与用户共创的价值升维盛典。据悉,为进一步落实“以旧换新”行动方案
2024-07-01 14:07:00
全球首款卫星数字孪生AI一体机在成都发布
本文转自:人民网-四川频道人民网成都7月1日电 (记者宋豪新)6月30日,国星宇航在成都发布全球首个卫星三维数字孪生集数据
2024-07-01 14:08:00
见证青岛丨交通银行青岛分行:内外“双创”,“保驾”科创企业
鲁网7月1日讯6月27日,第一期“见证青岛”省内财经媒体活动举行。活动第四站来到交通银行青岛分行。10余位来自中央、省
2024-07-01 14:08:00
真我GT6上架:全球首发6000尼特无双直屏
快科技7月1日消息,今天,真我GT6在京东自营店上架接受预约。官方公布了真我GT6的三大卖点:骁龙8 Gen3处理器、6000尼特电竞无双直屏
2024-07-01 14:11:00
全球首发高通骁龙8 Gen3领先版!红魔9S Pro真机上手图出炉
快科技7月1日消息,红魔官方已经宣布,将于7月3日召开新品发布会,推出全新旗舰——红魔9S Pro系列AI游戏手机。今天
2024-07-01 14:11:00
忠艺隆五金|五金冲压件拉伸过程中起皱是什么原因?
随着生活品质的提高,五金冲压件已经深入各个领域,不论是工业生产还是日常生活,很多地方都会用到各种五金冲压件,它已经跟我们的生活息息相关
2024-07-01 14:23:00
本文转自:人民网-广东频道“行进中国”调研行品牌广东|瞄准低空经济 深圳发力“天空之城”人民网“行进中国”广东调研采访团抬头看
2024-07-01 14:26:00
本文转自:人民网-四川频道近日,自贡市富顺县2024年消费品以旧换新宣传暨新能源车展活动启动仪式在该县文体中心举行。此次活动以“顺心乐购 焕新生活”为主题
2024-07-01 14:30:00
11180元起 豪爵DN 150摩托车上市:百公里油耗仅1.89升
快科技7月1日消息,豪爵DN 150摩托车今日发布,搭载欧司朗LED大灯、博世最新ABS系统以及ESR150 发动机,有三个版本
2024-07-01 14:41:00
2024上半年票房后劲最强电影出炉:不愧是黑马爽片
快科技7月1日消息,《周处除三害》成为2024上半年票房后劲最强影片。据灯塔专业版数据,影片《周处除三害》总票房6.66亿
2024-07-01 14:41:00
iPhone 16要大卖了:消息称苹果已经加单A18芯片 备货最高恐达1亿颗
快科技7月1日消息,据国内媒体最新报道称,苹果iPhone 16系列拉货在即,全系列产品有望搭载台积电第二代3nm制程N3E
2024-07-01 14:41:00
华为ADS高阶功能包标准价限时降价6000元,落地价上涨4000元| 最前线
文 | 田哲编辑 | 李勤6月30日晚,华为智能汽车解决方案公众号推文宣布,华为ADS高阶功能包价格上调。文章显示,2024年7月1日至12月31日
2024-07-01 14:42:00
世优科技虚拟主持人“阿央”亮相全球数字经济大会数字消费节
“大家好,我是主持人阿央,来自世优波塔AI数字人多模态交互系统,很高兴能和大家相聚在石景山首钢园。”屏幕中的阿央举止端庄
2024-07-01 14:45:00
随着数字化转型的加速推进,山东公司矢量数据管理应用持续展现出其在电力业务革新中的关键作用,不仅深化了电网数据的智能化管理
2024-07-01 14:50:00