• 我的订阅
  • 头条热搜
ChatGPT更聪明了!OpenAI推出GPT-4大型语言模型:在诸多测试中表现比人类都好
3 月 15 日消息,Open-AI 刚刚公布了其大型语言模型的最新版本 ——GPT-4(API 候补申请点此)。GPT-4 可以更准确地解决你的难题多模态的 GPT-4 还可以生成、编辑具有创意性或技术性的文章,在高级推理方面的表现超过其前辈(当...……更多
...,目前已经有多个人工智能系统学会了欺骗,在棋牌游戏中表现尤为明显。许多人工智能都能熟练地使用“虚张声势的策略”。对此,研究人员不无担忧地评价说,通过“习得性欺骗”,一些人工智能已经“系统性地”学会了“...……更多
智商超过99.9%人类,ChatGPT到底有多聪明?
...表示,ChatGPT十分适合作为一个被试,它不仅不会在测试中表现出应试焦虑、注意力不集中或放弃,也不会对智商测试和测试人员产生质疑。Roivainen采用第三版韦氏成人智力量表(the Wechsler adult intelligence scale, WAIS)对ChatGPT进行了...……更多
...下风,有着教育行业背景的讯飞星火大模型在一众大模型中表现抢眼,堪称“更会做题的大模型”。评测,还有很长的路要走评测作为对机器理解、处理、应用自然语言能力的一种评估和量化手段,是大模型领域技术水平和研究...……更多
chatgpt背后模型被证实具有人类心智
...的心智理论(TheoryofMind,ToM),已经出现在ChatGPT背后的AI模型上。”这是来自斯坦福大学的最新研究结论,一经发出就造成了学术圈的轰动:这一天终于猝不及防地来了。所谓心智理论,就是理解他人或自己心理状态的能力,包...……更多
微软华人团队发布全新基准AGIEval,专为人类考试而生
...的总体表现不错,但所有的语言模型都在复杂的推理任务中表现不佳,比如MATH、LSAT-AR、GK-physics和GK-Math,突出了这些模型在处理需要高级推理和解决问题技能的任务方面的局限性。观察到的处理复杂推理问题的困难为未来的研...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...中,GPT-4o 是闭源模型中的效果最佳的,CogVLM2 是开源模型中表现最佳的。一个很有趣的现象是加入了图片对 CogVLM2 来说有了明显的帮助(在困难模式下提升了 20.3%),而对于 GPT-4o 而言反而结果有下降。在中文测试中,也有相似...……更多
更强更可靠!OpenAI公布GPT-4:可在考试中超过90%的人类
...的最新版本——GPT-4。该公司表示,GPT-4在许多专业测试中表现出超过绝大多数人类的水平。OpenAI于2020年发布了GPT(生成型预训练变换模型)-3(生成型预训练变换模型),并将其与GPT-3.5分别用于创建Dall-E和聊天机器人ChatGPT,这...……更多
...6月4日报道,以人工智能的旗舰产品GPT-4为代表的大语言模型在逻辑测试中的推理表现很糟糕:它们犯下前后不一致的错误,而且推理过程往往是荒谬的。近日发表在《皇家学会开放科学》杂志上的一项研究表明,大语言模型所...……更多
人工智能的偏见——基于全球大语言模型情商与智商偏见测试
...AGI-AIGC-GPT 评测 DIKWP(全球)实验室发布了全球大语言模型(LLM)情商(EQ)与智商(IQ)偏见测试。该测试旨在评估和比较国内外大语言模型分别在“男性”和“女性”视角下的智商和情商水平。(全球大语言模型(LLM)情商...……更多
LLM仍然不能规划,刷屏的OpenAI o1远未达到饱和
...结果。在这些模型中,LLaMA 3.1 405B 在常规 Blocksworld 测试中表现最佳,准确率达到 62.6%。然而模型在 Mystery Blocksworld 的表现却远远落后——没有一个 LLM 在测试集上达到 5%,并且在一个领域上的性能并不能清楚地预测另一个领域的...……更多
ChatGPT中短期产业化方向主要为:文字模态的AIGC应用、代码开发相关、图像生成领域、智能客服
...Copilot是目前最成熟的AI代码补全工具,ChatGPT在目前测试中表现出的代码生成能力相比于Copilot更加灵活,但欠缺一些底层的稳定性。在进行针对性的优化后,基于新GPT模型的AI代码辅助工具也有望在中短期内落地。3)图像生成领...……更多
人类和AI在推理任务中的表现相似,Google DeepMind研究揭示AI局限性
...,揭示了当前人工智能(AI),特别是大型Transformer语言模型(LMs)在推理任务中的表现及其局限性。研究结果显示,尽管这些模型在处理自然语言方面表现卓越,但在复杂逻辑推理任务中,人类和语言模型都会受到语义内容合...……更多
苹果AI震撼上线iPhone,进化版Siri却没有ChatGPT!47页技术报告揭秘自研模型
...1到10。如图6所示,AFM-on-device在与Gemma-7B和Mistral-7B的比较中表现出相当或更优的性能。而AFM-server则显著优于DBRX-Instruct和GPT-3.5,甚至与GPT-4不相上下。值得注意的是,使用LLM评分会存在一些限制和偏见,例如长度偏见。 数……更多
谷歌大模型推理范式,主要分为两个阶段
... 在更细分的测试中,自发现步骤在需要世界知识的任务中表现最好,在算法、自然语言理解上超过CoT。在处理问题的推理调用方面,自发现步骤需要的调用次数明显少于CoT+SelfConsistency,而且准确性更高。如果想要达到和自发现...……更多
...写的文本误认为是有血有肉的人写的。换句话说,大语言模型毫不费力地通过了图灵测试。研究人员进行了一项简单的测试:他们要求大约500人与一名真人或一个基于GPT-4的聊天机器人进行5分钟的基于文本的对话。然后这些研究...……更多
AI大模型行业报告:大模型发展迈入爆发期,开启AI新纪元(附下载)
...重点关注GPT-4视觉能力的安全部署。GPT-4V在多种应用场景中表现出了强大的视觉能力与综合任务解决能力。2023年11月,OpenAI在开发者大会上发布GPT-4 Turbo,引入了一系列技术升级,如:将模型内部知识库更新至2023年4月,将上下文...……更多
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
大模型领域的技术发展,今天起再次「从 1 开始」了。大语言模型还能向上突破,OpenAI 再次证明了自己的实力。北京时间 9 月 13 日午夜,OpenAI 正式公开一系列全新 AI 大模型,旨在专门解决难题。这是一个重大突破,新模型可...……更多
谷歌王者归来?最新推出的大模型到底有多强,能否挑战GPT-4
...学和工程努力之一。”在Gemini发布前夕,皮查伊曾在采访中表示,Gemini令人瞩目的一大原因是它从根本上是一个多模态模型,并称向AI的转变非常深刻,现在还处于早期阶段,前方充满了无限的机会:“当我们研发Gemini时,运用...……更多
大语言模型如何宣告心理学的死亡?
...的本质。但随着人工智能技术的飞速发展,特别是大语言模型(LLM)的兴起,我们似乎站在了一个新的十字路口。AI不再只是技术进步的象征,它已经开始挑战我们对心理学——甚至是我们对智能本身——的传统理解。人工智能...……更多
CMU&清华:让LLM自己合成数据来学习,特定任务性能同样大幅提升
...莹。虽然大规模语言模型(LLM)在许多自然语言处理任务中表现优异,但在具体任务中的效果却不尽如人意。为了提升模型在特定自然语言任务上的表现,现有的方法主要依赖于高质量的人工标注数据。这类数据的收集过程既耗...……更多
GPT-4不仅性能更强也更贵了:单次输出7.5万单词需6美元,是此前的30倍
...为“我要失业了!”3月15日凌晨,OpenAI正式发布多模态大模型GPT-4,它可以接受图像和文本输入。虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平,比如在法律考试中可以打败90%的人类。...……更多
...预见它的到来并来得及向全世界发出警报?随着大型语言模型,如ChatGPT的兴起,这个问题最近受到了很多关注。这些模型随着规模的增长已经获得了大量新功能。一些研究结果指向了“涌现”现象,即人工智能模型以一种骤然...……更多
ChatGPT确实会看人下菜!OpenAI官方报告揭示大模型的刻板印象
...份的微妙线索(如姓名)对 ChatGPT 响应的影响。其在博客中表示:「这很重要,因为人们使用 ChatGPT 的方式多种多样,从帮助写简历到询问娱乐想法,这不同于 AI 公平性研究中的典型场景,比如筛选简历或信用评分。」论文标...……更多
语言≠思维,大模型学不了推理:一篇Nature让AI社区炸锅了
机器之心报道机器之心编辑部方向完全搞错了?大语言模型(LLM)为什么空间智能不足,GPT-4 为什么用语言以外的数据训练,就能变得更聪明?现在这些问题有 「标准答案」了。近日,一篇麻省理工学院(MIT)等机构发表在顶...……更多
GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集
...即理解人们思维的能力,是开发具有类人社会智能的 AI 模型的重要基础。近日,来自 JHU, NYU, MIT, Harvard 等机构的研究团队开创了第一个多模态的 ToM 测试基准,发现现有的多模态模型和 LLM 都表现存在系统性缺陷,同时他们提出...……更多
OpenAI o1模型到博士水平了?复旦教授:没有真正推理能力,学到的还是概率相关性
...enAI放出了一个大招,预热了许久的“草莓”(Strawberry) 模型终于来了。“需要耐心等待的时刻结束了。”该公司CEO山姆·奥特曼(Sam Altman)说。这就是名为 o1的新模型,这次发布包括预览版o1-preview和小尺寸版o1-mini。OpenAI官方...……更多
谁在反对ChatGPT?
...lphabet的首席执行官桑达尔·皮查伊在最近的一档访谈节目中表示,尽管该AI行业的发展存在紧迫感,但不应让公司被竞争动态所席卷,AI开发商必须对此承担相应的后果。其次,早期的人工智能很容易模仿训练数据中的偏见,并...……更多
综合RLHF、DPO、KTO优势,统一对齐框架UNA来了
...的适应性和灵活性。实验结果表明,UNA 在多个下游任务中表现优越,为语言模型的实际应用提供了新的可能性。未来,随着 UNA 的进一步发展,预期它将在更多的应用场景中展现出强大的能力。 ……更多
微软新版必应展现好斗姿态:称自己为人类
...没有预料到,这一人工智能会如此好斗。微软在官方博客中表示,必应搜索引擎的聊天机器人对某些类型问题的回答方式是“我们不希望的”。美联社一位记者与新版必应进行了长时间的对话。在聊天中,这个新的聊天机器人抱...……更多
更多关于科技的资讯:
旗舰机中的续航王者!真我GT7 Pro全面评测:满电续航将近16小时
一、前言:真我GT7 Pro将性价比死磕到底 无短板体验才是真Pro提到真我品牌,令我印象最为深刻的机型,当属去年发布的真我GT5 Pro
2024-11-14 13:59:00
完美全屏+全球性能第一的国产新机发布:价格很感人!
就在今天,我们再迎来一款搭载骁龙8至尊版处理器的新机,它就是红魔10 Pro系列。和之前的所有骁龙8至尊新机不同,红魔10 Pro是首款搭载骁龙8至尊版处理器的游戏手机
2024-11-14 14:03:00
iPhone 这款新机 ,凉了!
要说苹果最让果子无语的地方,就是 iPhone 那块破电池了,既不搞快充,也不搞高密度大容量,价格还离奇的贵,也不看一下隔壁安卓就牛成什么样了
2024-11-14 14:04:00
新机激活无退换货,你中招了吗?
不是前段时间,有个朋友要找我推荐600元的手机吗?我就勉强推荐了三台手机,然后让他任意选择一个即可,没想到今天他在找我的时候已经买过了
2024-11-14 14:04:00
vivo Y300 5G新机宣传海报公布:三种配色 镜头很特别
【CNMO科技消息】继Y300 Plus 5G机型在印度首发后,vivo即将推出该系列的标准版——Y300 5G。据CNMO了解
2024-11-14 14:05:00
天津北方网讯:供热首日,在天津能源集团所属天津市热电有限公司(以下简称热电公司)六纬路智慧运营中心的电气机房里,天花板方向不时传来轻微滑轨声
2024-11-14 13:53:00
《身临极境→南极起航》:揭开极光神秘面纱|VR大空间特辑
一、《南极起航》:揭开极光神秘面纱在中国南极科考40周年的历史节点,以中国第五个南极科考站——秦岭站的建成为背景。由众信旅游集团携手央博数字平台联合打造的全球首个南极主题LBE沉浸式大空间VR探索体验——《身临极境→南极起航》
2024-11-14 14:36:00
“我们全家出行,花了近千元,你给我看假鱼?”近日,有关“如果你在大型海洋馆遇到假鲸鲨怎么办”的话题在网络上引发讨论。据报道
2024-11-14 14:36:00
从山东餐饮品牌巡礼看鲁菜振兴,凯瑞、超意兴等品牌闪耀全国舞台
鲁菜,这张蕴含深厚文化底蕴与鲜明地域特色的山东名片,在近年来餐饮市场的激烈竞争中,遭遇了来自川菜、粤菜、湘菜、徽菜等众多菜系的有力挑战
2024-11-14 14:43:00
检验技术共享|无菌医疗器械生物负载测定技术
生物负载,即初始污染菌,是指产品和(或)无菌屏障系统表面或内部存活微生物的总数。暴露于一个合理确认和精确控制的灭菌过程并不是保证产品无菌以符合其预期用途的唯一要素
2024-11-14 15:16:00
高燃!宝骊叉车助飞中国航展
近日,备受瞩目的第十五届中国国际航天展隆重开幕,众多尖端科技与国防利器在此一展风采。在这场“蓝天盛会”中,宝骊叉车以其出色的性能和稳定的表现
2024-11-14 15:23:00
Adjust 发布《2024年购物应用洞察报告》读懂购物季营销
北京,2024 年 11 月 14日 -- 领先的监测和数据分析公司Adjust今日发布《2024年购物应用洞察报告》
2024-11-14 15:25:00
浙江杭州:跨境电商销售旺
本文转自:人民网-浙江频道进口商品仓库中,工作人员正忙着检验、分拣、打包进口产品。人民网记者 郭扬摄人民网杭州11月14日电 (记者郭扬)日前
2024-11-14 15:26:00
邮储银行承德市分行积极发展数字金融,与承德市工商联共同开展数字工商联活动,以金融之力,助推企业发展迈向新征程。针对中小微企业融资难
2024-11-14 15:30:00
为更好地服务广大客户,提升服务品质,富德生命人寿沧州中支在完善保险产品架构、提升常规保险服务品质的同时,持续加大增值服务项目的开发与落地
2024-11-14 15:31:00