中表,模型,人类,语言,测试,前辈头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

ChatGPT更聪明了！OpenAI推出GPT-4大型语言模

3 月 15 日消息，Open-AI 刚刚公布了其大型语言模型的最新版本 ——GPT-4（API 候补申请点此）。GPT-4 可以更准确地解决你的难题多模态的 GPT-4 还可以生成、编辑具有创意性或技术性的文章，在高级推理方面的表现超过其前辈（当...……更多

2023-03-15 15:00:00中表,模型,人类,语言,测试,前辈

当AI学会骗人

...，目前已经有多个人工智能系统学会了欺骗，在棋牌游戏中表现尤为明显。许多人工智能都能熟练地使用“虚张声势的策略”。对此，研究人员不无担忧地评价说，通过“习得性欺骗”，一些人工智能已经“系统性地”学会了“...……更多

2024-06-08 05:35:00人工智能,人工,智能,人类,研究,行为

智商超过99.9%人类，ChatGPT到底有多聪明？

...表示，ChatGPT十分适合作为一个被试，它不仅不会在测试中表现出应试焦虑、注意力不集中或放弃，也不会对智商测试和测试人员产生质疑。Roivainen采用第三版韦氏成人智力量表（the Wechsler adult intelligence scale, WAIS）对ChatGPT进行了...……更多

2023-04-14 12:00:00智商,人类,测试,智商,人类,智商测试

“AI考生”闯关高考，谁是最会做题大模型？

...下风，有着教育行业背景的讯飞星火大模型在一众大模型中表现抢眼，堪称“更会做题的大模型”。评测，还有很长的路要走评测作为对机器理解、处理、应用自然语言能力的一种评估和量化手段，是大模型领域技术水平和研究...……更多

2024-06-26 07:26:00考生,模型,高考,模型,评测,高考

chatgpt背后模型被证实具有人类心智

...的心智理论（TheoryofMind，ToM），已经出现在ChatGPT背后的AI模型上。”这是来自斯坦福大学的最新研究结论，一经发出就造成了学术圈的轰动：这一天终于猝不及防地来了。所谓心智理论，就是理解他人或自己心理状态的能力，包...……更多

2023-02-12 23:46:00心智,模型,背后,人类,心智,测试

微软华人团队发布全新基准AGIEval，专为人类考试而生

...的总体表现不错，但所有的语言模型都在复杂的推理任务中表现不佳，比如MATH、LSAT-AR、GK-physics和GK-Math，突出了这些模型在处理需要高级推理和解决问题技能的任务方面的局限性。观察到的处理复杂推理问题的困难为未来的研...……更多

2023-05-13 21:28:00微软,基准,专为,团队,人类,全新

Bengio团队提出多模态新基准，直指Claude 3.5和

...中，GPT-4o 是闭源模型中的效果最佳的，CogVLM2 是开源模型中表现最佳的。一个很有趣的现象是加入了图片对 CogVLM2 来说有了明显的帮助（在困难模式下提升了 20.3%），而对于 GPT-4o 而言反而结果有下降。在中文测试中，也有相似...……更多

2024-06-29 09:37:00模态,基准,弱点,团队,模型,任务

更强更可靠！OpenAI公布GPT-4：可在考试中超过90%

...的最新版本——GPT-4。该公司表示，GPT-4在许多专业测试中表现出超过绝大多数人类的水平。OpenAI于2020年发布了GPT（生成型预训练变换模型）-3（生成型预训练变换模型），并将其与GPT-3.5分别用于创建Dall-E和聊天机器人ChatGPT，这...……更多

2023-03-15 23:00:00中超,可在,人类,考试,模型,公司

大语言模型逻辑推理“很糟糕”

...6月4日报道，以人工智能的旗舰产品GPT-4为代表的大语言模型在逻辑测试中的推理表现很糟糕：它们犯下前后不一致的错误，而且推理过程往往是荒谬的。近日发表在《皇家学会开放科学》杂志上的一项研究表明，大语言模型所...……更多

2024-06-12 18:15:00逻辑推理,推理,逻辑,模型,语言,模型

人工智能的偏见——基于全球大语言模型情商与智商偏见测试

...AGI－AIGC－GPT 评测 DIKWP（全球）实验室发布了全球大语言模型（LLM）情商（EQ）与智商（IQ）偏见测试。该测试旨在评估和比较国内外大语言模型分别在“男性”和“女性”视角下的智商和情商水平。（全球大语言模型（LLM）情商...……更多

2024-01-04 13:54:00偏见,人工智能,情商,智商,人工,模型

LLM仍然不能规划，刷屏的OpenAI o1远未达到饱和

...结果。在这些模型中，LLaMA 3.1 405B 在常规 Blocksworld 测试中表现最佳，准确率达到 62.6%。然而模型在 Mystery Blocksworld 的表现却远远落后——没有一个 LLM 在测试集上达到 5%，并且在一个领域上的性能并不能清楚地预测另一个领域的...……更多

2024-09-25 09:48:00饱和,规划,模型,测试,规划,能力

OpenAI直播最后一天放出“王炸”：下一代推理模型o3亮相

...越现有模型，吸引新的投资和用户。OpenAI在一篇博客文章中表示，o1模型已经能够推理复杂的任务，与以前的科学、编码和数学模型相比，它能解决更具挑战性的问题。而OpenAI新推出的o3和o3 mini模型目前正在进行内部安全测试，...……更多

2024-12-21 17:02:00下一代,推理,模型,直播,模型,推理

科研也完了，AI暴虐170位人类专家！Nature子刊：大模

【新智元导读】知识密集型工作也败了！大型语言模型在预测神经科学结果方面超越了人类专家，平均准确率达到81%，而人类专家仅为63%；模型通过整合大量文献数据，展现出了惊人的前瞻性预测能力，预示着未来科研工作中...……更多

2024-12-09 09:50:00暴虐,准确率,模型,高达,完了,科研

ChatGPT中短期产业化方向主要为：文字模态的AIGC应用

...Copilot是目前最成熟的AI代码补全工具，ChatGPT在目前测试中表现出的代码生成能力相比于Copilot更加灵活，但欠缺一些底层的稳定性。在进行针对性的优化后，基于新GPT模型的AI代码辅助工具也有望在中短期内落地。3）图像生成领...……更多

2023-02-19 10:00:00模态,生成,图像,方向,领域,文字

人类和AI在推理任务中的表现相似，Google DeepMi

...，揭示了当前人工智能（AI），特别是大型Transformer语言模型（LMs）在推理任务中的表现及其局限性。研究结果显示，尽管这些模型在处理自然语言方面表现卓越，但在复杂逻辑推理任务中，人类和语言模型都会受到语义内容合...……更多

2024-08-19 13:49:00局限性,推理,人类,任务,研究,模型

苹果AI震撼上线iPhone，进化版Siri却没有ChatG

...1到10。如图6所示，AFM-on-device在与Gemma-7B和Mistral-7B的比较中表现出相当或更优的性能。而AFM-server则显著优于DBRX-Instruct和GPT-3.5，甚至与GPT-4不相上下。值得注意的是，使用LLM评分会存在一些限制和偏见，例如长度偏见。数……更多

2024-08-01 09:40:00进化,模型,苹果,报告,技术,苹果