• 我的订阅
  • 头条热搜
ChatGPT更聪明了!OpenAI推出GPT-4大型语言模型:在诸多测试中表现比人类都好
3 月 15 日消息,Open-AI 刚刚公布了其大型语言模型的最新版本 ——GPT-4(API 候补申请点此)。GPT-4 可以更准确地解决你的难题多模态的 GPT-4 还可以生成、编辑具有创意性或技术性的文章,在高级推理方面的表现超过其前辈(当...……更多
...,目前已经有多个人工智能系统学会了欺骗,在棋牌游戏中表现尤为明显。许多人工智能都能熟练地使用“虚张声势的策略”。对此,研究人员不无担忧地评价说,通过“习得性欺骗”,一些人工智能已经“系统性地”学会了“...……更多
...下风,有着教育行业背景的讯飞星火大模型在一众大模型中表现抢眼,堪称“更会做题的大模型”。评测,还有很长的路要走评测作为对机器理解、处理、应用自然语言能力的一种评估和量化手段,是大模型领域技术水平和研究...……更多
chatgpt背后模型被证实具有人类心智
...的心智理论(TheoryofMind,ToM),已经出现在ChatGPT背后的AI模型上。”这是来自斯坦福大学的最新研究结论,一经发出就造成了学术圈的轰动:这一天终于猝不及防地来了。所谓心智理论,就是理解他人或自己心理状态的能力,包...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...中,GPT-4o 是闭源模型中的效果最佳的,CogVLM2 是开源模型中表现最佳的。一个很有趣的现象是加入了图片对 CogVLM2 来说有了明显的帮助(在困难模式下提升了 20.3%),而对于 GPT-4o 而言反而结果有下降。在中文测试中,也有相似...……更多
更强更可靠!OpenAI公布GPT-4:可在考试中超过90%的人类
...的最新版本——GPT-4。该公司表示,GPT-4在许多专业测试中表现出超过绝大多数人类的水平。OpenAI于2020年发布了GPT(生成型预训练变换模型)-3(生成型预训练变换模型),并将其与GPT-3.5分别用于创建Dall-E和聊天机器人ChatGPT,这...……更多
...6月4日报道,以人工智能的旗舰产品GPT-4为代表的大语言模型在逻辑测试中的推理表现很糟糕:它们犯下前后不一致的错误,而且推理过程往往是荒谬的。近日发表在《皇家学会开放科学》杂志上的一项研究表明,大语言模型所...……更多
人工智能的偏见——基于全球大语言模型情商与智商偏见测试
...AGI-AIGC-GPT 评测 DIKWP(全球)实验室发布了全球大语言模型(LLM)情商(EQ)与智商(IQ)偏见测试。该测试旨在评估和比较国内外大语言模型分别在“男性”和“女性”视角下的智商和情商水平。(全球大语言模型(LLM)情商...……更多
LLM仍然不能规划,刷屏的OpenAI o1远未达到饱和
...结果。在这些模型中,LLaMA 3.1 405B 在常规 Blocksworld 测试中表现最佳,准确率达到 62.6%。然而模型在 Mystery Blocksworld 的表现却远远落后——没有一个 LLM 在测试集上达到 5%,并且在一个领域上的性能并不能清楚地预测另一个领域的...……更多
OpenAI直播最后一天放出“王炸”:下一代推理模型o3亮相
...越现有模型,吸引新的投资和用户。OpenAI在一篇博客文章中表示,o1模型已经能够推理复杂的任务,与以前的科学、编码和数学模型相比,它能解决更具挑战性的问题。而OpenAI新推出的o3和o3 mini模型目前正在进行内部安全测试,...……更多
科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%
【新智元导读】知识密集型工作也败了!大型语言模型在预测神经科学结果方面超越了人类专家,平均准确率达到81%,而人类专家仅为63%;模型通过整合大量文献数据,展现出了惊人的前瞻性预测能力,预示着未来科研工作中...……更多
ChatGPT中短期产业化方向主要为:文字模态的AIGC应用、代码开发相关、图像生成领域、智能客服
...Copilot是目前最成熟的AI代码补全工具,ChatGPT在目前测试中表现出的代码生成能力相比于Copilot更加灵活,但欠缺一些底层的稳定性。在进行针对性的优化后,基于新GPT模型的AI代码辅助工具也有望在中短期内落地。3)图像生成领...……更多
人类和AI在推理任务中的表现相似,Google DeepMind研究揭示AI局限性
...,揭示了当前人工智能(AI),特别是大型Transformer语言模型(LMs)在推理任务中的表现及其局限性。研究结果显示,尽管这些模型在处理自然语言方面表现卓越,但在复杂逻辑推理任务中,人类和语言模型都会受到语义内容合...……更多
苹果AI震撼上线iPhone,进化版Siri却没有ChatGPT!47页技术报告揭秘自研模型
...1到10。如图6所示,AFM-on-device在与Gemma-7B和Mistral-7B的比较中表现出相当或更优的性能。而AFM-server则显著优于DBRX-Instruct和GPT-3.5,甚至与GPT-4不相上下。值得注意的是,使用LLM评分会存在一些限制和偏见,例如长度偏见。 数……更多
谷歌大模型推理范式,主要分为两个阶段
... 在更细分的测试中,自发现步骤在需要世界知识的任务中表现最好,在算法、自然语言理解上超过CoT。在处理问题的推理调用方面,自发现步骤需要的调用次数明显少于CoT+SelfConsistency,而且准确性更高。如果想要达到和自发现...……更多
...写的文本误认为是有血有肉的人写的。换句话说,大语言模型毫不费力地通过了图灵测试。研究人员进行了一项简单的测试:他们要求大约500人与一名真人或一个基于GPT-4的聊天机器人进行5分钟的基于文本的对话。然后这些研究...……更多
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
大模型领域的技术发展,今天起再次「从 1 开始」了。大语言模型还能向上突破,OpenAI 再次证明了自己的实力。北京时间 9 月 13 日午夜,OpenAI 正式公开一系列全新 AI 大模型,旨在专门解决难题。这是一个重大突破,新模型可...……更多
AI大模型行业报告:大模型发展迈入爆发期,开启AI新纪元(附下载)
...重点关注GPT-4视觉能力的安全部署。GPT-4V在多种应用场景中表现出了强大的视觉能力与综合任务解决能力。2023年11月,OpenAI在开发者大会上发布GPT-4 Turbo,引入了一系列技术升级,如:将模型内部知识库更新至2023年4月,将上下文...……更多
谷歌王者归来?最新推出的大模型到底有多强,能否挑战GPT-4
...学和工程努力之一。”在Gemini发布前夕,皮查伊曾在采访中表示,Gemini令人瞩目的一大原因是它从根本上是一个多模态模型,并称向AI的转变非常深刻,现在还处于早期阶段,前方充满了无限的机会:“当我们研发Gemini时,运用...……更多
大语言模型如何宣告心理学的死亡?
...的本质。但随着人工智能技术的飞速发展,特别是大语言模型(LLM)的兴起,我们似乎站在了一个新的十字路口。AI不再只是技术进步的象征,它已经开始挑战我们对心理学——甚至是我们对智能本身——的传统理解。人工智能...……更多
CMU&清华:让LLM自己合成数据来学习,特定任务性能同样大幅提升
...莹。虽然大规模语言模型(LLM)在许多自然语言处理任务中表现优异,但在具体任务中的效果却不尽如人意。为了提升模型在特定自然语言任务上的表现,现有的方法主要依赖于高质量的人工标注数据。这类数据的收集过程既耗...……更多
GPT-4不仅性能更强也更贵了:单次输出7.5万单词需6美元,是此前的30倍
...为“我要失业了!”3月15日凌晨,OpenAI正式发布多模态大模型GPT-4,它可以接受图像和文本输入。虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平,比如在法律考试中可以打败90%的人类。...……更多
...预见它的到来并来得及向全世界发出警报?随着大型语言模型,如ChatGPT的兴起,这个问题最近受到了很多关注。这些模型随着规模的增长已经获得了大量新功能。一些研究结果指向了“涌现”现象,即人工智能模型以一种骤然...……更多
ChatGPT确实会看人下菜!OpenAI官方报告揭示大模型的刻板印象
...份的微妙线索(如姓名)对 ChatGPT 响应的影响。其在博客中表示:「这很重要,因为人们使用 ChatGPT 的方式多种多样,从帮助写简历到询问娱乐想法,这不同于 AI 公平性研究中的典型场景,比如筛选简历或信用评分。」论文标...……更多
语言≠思维,大模型学不了推理:一篇Nature让AI社区炸锅了
机器之心报道机器之心编辑部方向完全搞错了?大语言模型(LLM)为什么空间智能不足,GPT-4 为什么用语言以外的数据训练,就能变得更聪明?现在这些问题有 「标准答案」了。近日,一篇麻省理工学院(MIT)等机构发表在顶...……更多
GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集
...即理解人们思维的能力,是开发具有类人社会智能的 AI 模型的重要基础。近日,来自 JHU, NYU, MIT, Harvard 等机构的研究团队开创了第一个多模态的 ToM 测试基准,发现现有的多模态模型和 LLM 都表现存在系统性缺陷,同时他们提出...……更多
OpenAI o1模型到博士水平了?复旦教授:没有真正推理能力,学到的还是概率相关性
...enAI放出了一个大招,预热了许久的“草莓”(Strawberry) 模型终于来了。“需要耐心等待的时刻结束了。”该公司CEO山姆·奥特曼(Sam Altman)说。这就是名为 o1的新模型,这次发布包括预览版o1-preview和小尺寸版o1-mini。OpenAI官方...……更多
综合RLHF、DPO、KTO优势,统一对齐框架UNA来了
...的适应性和灵活性。实验结果表明,UNA 在多个下游任务中表现优越,为语言模型的实际应用提供了新的可能性。未来,随着 UNA 的进一步发展,预期它将在更多的应用场景中展现出强大的能力。 ……更多
微软新版必应展现好斗姿态:称自己为人类
...没有预料到,这一人工智能会如此好斗。微软在官方博客中表示,必应搜索引擎的聊天机器人对某些类型问题的回答方式是“我们不希望的”。美联社一位记者与新版必应进行了长时间的对话。在聊天中,这个新的聊天机器人抱...……更多
AI 的“心智理论”难题:Meta ExploreToM 探索突破之路
...作开发了 ExploreToM 框架,旨在更有效地评估和训练大语言模型(LLM)的心智理论(Theory of Mind,ToM)能力。心智理论心智理论(Theory of Mind,ToM)是人类社会智能的基础之一,能让我们能够理解他人的想法、意图和信念。这种认...……更多
更多关于科技的资讯:
杭州六小龙 第一个IPO即将诞生
继 DeepSeek 和宇树科技之后,又一家来自杭州的科创企业群核科技于近日走到台前,迎来了关键时刻。近日,群核科技递交了港股招股书
2025-02-26 19:05:00
禁止电竞选手2月23日洗澡冲上热搜!到底什么情况
快科技2月26日消息,今天下午,微博热搜上出现了一个看起来颇为奇怪的词条“禁止电竞选手2月23号洗澡”,并且一度冲上了第一的位置
2025-02-26 19:05:00
RTX 50/40/30大量黑屏变砖!救命的BIOS、驱动来了
快科技2月26日消息,RTX 50系列发布之后,不少玩家遇到了黑屏、变砖的问题,无法再点亮,不仅波及RTX 5090(D)
2025-02-26 19:05:00
汽车应急车道违停 被一只半挂轮胎追尾 司机懵了
快科技2月26日消息,近日,杭州公安高速交警接到一起奇特的车辆报警。一位驾驶员称自己停在应急车道的车子,竟被一只轮胎“追尾”了
2025-02-26 19:05:00
曾为驾驶爱好者白月光!新款别克君威GS实车展示
快科技2月26日消息,曾几何时,别克君威GS还是很多年轻人梦想中的运动型家用车,然而随着新能源的到来,2.0T高性能发动机已经无法满足他们的胃口
2025-02-26 19:05:00
响应小于1秒、唤醒识别超98%!岚图自研AI语音对话系统即将发布
快科技2月26日消息,岚图汽车宣布,其自主研发的AI语音对话系统计划在2025年上半年发布并应用于新车型。该系统具备快速的车控响应能力
2025-02-26 19:05:00
国补政策落地“满月”,点燃十堰数码产品“换新潮”
十堰广电讯(全媒体记者 蒋巍)自1月20日起,手机等3C数码产品购新补贴政策正式实施,“国补”政策落地满月,十堰的数码产品销售市场态势如何?数码产品迎来换新潮2月25日
2025-02-26 19:24:00
三星计划2030年实现1000层NAND!使用长江存储专利技术
快科技2月26日消息,随着NAND闪存技术竞争日益激烈,三星电子公布的路线图显示,计划到2030年开发出1000层的NAND闪存
2025-02-26 19:35:00
ROG魔盒WIFI7电竞路由器首发1999元:9个2.5G网口
快科技2月26日消息,华硕带来了ROG魔盒 WIFI7电竞路由器。首发到手价为1999元。ROG魔盒 WIFI7电竞路由器机身融入了大量ROG元素
2025-02-26 19:35:00
旅游公司招募太空旅行者:门票一人400多万 近两年席位已售罄
快科技2月26日消息,据媒体报道,近日,在湖北一商场内,一家旅游公司悬挂出太空旅行的乘客招募广告。该广告宣称,这场太空旅行面向普通市民开放
2025-02-26 19:35:00
DeepSeek凭借其开源、低成本、高性能等优势,掀起人工智能领域的新一轮热潮。作为平安集团金融科技生态圈的重要组成部分
2025-02-26 19:44:00
股价暴涨4倍后,博士眼镜实控人再减持,“AI眼镜第一股”含金量如何?
博士眼镜股价暴涨但业绩下滑,欲靠加盟拓展门店? 来源|时代商业研究院作者|陈佳鑫编辑|韩迅【导语】AI眼镜是人工智能最热门的赛道之一
2025-02-26 20:02:00
男子在高速上恶意别停他车 还威胁辱骂女司机让网友看怒:官方通报
2月26日消息,近日,有网友发视频称,重庆高速上一男子开丰田车在高速上恶意别停后车,并且还辱骂后车女司机。按照女司机的陈述
2025-02-26 20:05:00
游戏本天花板!微星泰坦18 Ultra AI/龙魂典藏版发布:满血RTX 5090、96GB大内存
快科技2月26日消息,在今天的新品发布会上,微星正式发布了泰坦18 Ultra AI和龙魂典藏版旗舰游戏本。核心配置上
2025-02-26 20:05:00
阿里开源版Sora上线即屠榜 4070就能跑 免费商用
开源模型,还是得看杭州。前脚发完QwQ-Max,阿里就在深夜开源了视频生成模型Wan 2.1,14B参数直接屠榜VBench
2025-02-26 20:05:00