中表,模型,人类,语言,测试,前辈头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

ChatGPT更聪明了！OpenAI推出GPT-4大型语言模

3 月 15 日消息，Open-AI 刚刚公布了其大型语言模型的最新版本 ——GPT-4（API 候补申请点此）。GPT-4 可以更准确地解决你的难题多模态的 GPT-4 还可以生成、编辑具有创意性或技术性的文章，在高级推理方面的表现超过其前辈（当...……更多

2023-03-15 15:00:00中表,模型,人类,语言,测试,前辈

当AI学会骗人

...，目前已经有多个人工智能系统学会了欺骗，在棋牌游戏中表现尤为明显。许多人工智能都能熟练地使用“虚张声势的策略”。对此，研究人员不无担忧地评价说，通过“习得性欺骗”，一些人工智能已经“系统性地”学会了“...……更多

2024-06-08 05:35:00人工智能,人工,智能,人类,研究,行为

“AI考生”闯关高考，谁是最会做题大模型？

...下风，有着教育行业背景的讯飞星火大模型在一众大模型中表现抢眼，堪称“更会做题的大模型”。评测，还有很长的路要走评测作为对机器理解、处理、应用自然语言能力的一种评估和量化手段，是大模型领域技术水平和研究...……更多

2024-06-26 07:26:00考生,模型,高考,模型,评测,高考

chatgpt背后模型被证实具有人类心智

...的心智理论（TheoryofMind，ToM），已经出现在ChatGPT背后的AI模型上。”这是来自斯坦福大学的最新研究结论，一经发出就造成了学术圈的轰动：这一天终于猝不及防地来了。所谓心智理论，就是理解他人或自己心理状态的能力，包...……更多

2023-02-12 23:46:00心智,模型,背后,人类,心智,测试

Bengio团队提出多模态新基准，直指Claude 3.5和

...中，GPT-4o 是闭源模型中的效果最佳的，CogVLM2 是开源模型中表现最佳的。一个很有趣的现象是加入了图片对 CogVLM2 来说有了明显的帮助（在困难模式下提升了 20.3%），而对于 GPT-4o 而言反而结果有下降。在中文测试中，也有相似...……更多

2024-06-29 09:37:00模态,基准,弱点,团队,模型,任务

更强更可靠！OpenAI公布GPT-4：可在考试中超过90%

...的最新版本——GPT-4。该公司表示，GPT-4在许多专业测试中表现出超过绝大多数人类的水平。OpenAI于2020年发布了GPT（生成型预训练变换模型）-3（生成型预训练变换模型），并将其与GPT-3.5分别用于创建Dall-E和聊天机器人ChatGPT，这...……更多

2023-03-15 23:00:00中超,可在,人类,考试,模型,公司

大语言模型逻辑推理“很糟糕”

...6月4日报道，以人工智能的旗舰产品GPT-4为代表的大语言模型在逻辑测试中的推理表现很糟糕：它们犯下前后不一致的错误，而且推理过程往往是荒谬的。近日发表在《皇家学会开放科学》杂志上的一项研究表明，大语言模型所...……更多

2024-06-12 18:15:00逻辑推理,推理,逻辑,模型,语言,模型

人工智能的偏见——基于全球大语言模型情商与智商偏见测试

...AGI－AIGC－GPT 评测 DIKWP（全球）实验室发布了全球大语言模型（LLM）情商（EQ）与智商（IQ）偏见测试。该测试旨在评估和比较国内外大语言模型分别在“男性”和“女性”视角下的智商和情商水平。（全球大语言模型（LLM）情商...……更多

2024-01-04 13:54:00偏见,人工智能,情商,智商,人工,模型

LLM仍然不能规划，刷屏的OpenAI o1远未达到饱和

...结果。在这些模型中，LLaMA 3.1 405B 在常规 Blocksworld 测试中表现最佳，准确率达到 62.6%。然而模型在 Mystery Blocksworld 的表现却远远落后——没有一个 LLM 在测试集上达到 5%，并且在一个领域上的性能并不能清楚地预测另一个领域的...……更多

2024-09-25 09:48:00饱和,规划,模型,测试,规划,能力

OpenAI直播最后一天放出“王炸”：下一代推理模型o3亮相

...越现有模型，吸引新的投资和用户。OpenAI在一篇博客文章中表示，o1模型已经能够推理复杂的任务，与以前的科学、编码和数学模型相比，它能解决更具挑战性的问题。而OpenAI新推出的o3和o3 mini模型目前正在进行内部安全测试，...……更多

2024-12-21 17:02:00下一代,推理,模型,直播,模型,推理

科研也完了，AI暴虐170位人类专家！Nature子刊：大模

【新智元导读】知识密集型工作也败了！大型语言模型在预测神经科学结果方面超越了人类专家，平均准确率达到81%，而人类专家仅为63%；模型通过整合大量文献数据，展现出了惊人的前瞻性预测能力，预示着未来科研工作中...……更多

2024-12-09 09:50:00暴虐,准确率,模型,高达,完了,科研

ChatGPT中短期产业化方向主要为：文字模态的AIGC应用

...Copilot是目前最成熟的AI代码补全工具，ChatGPT在目前测试中表现出的代码生成能力相比于Copilot更加灵活，但欠缺一些底层的稳定性。在进行针对性的优化后，基于新GPT模型的AI代码辅助工具也有望在中短期内落地。3）图像生成领...……更多

2023-02-19 10:00:00模态,生成,图像,方向,领域,文字

人类和AI在推理任务中的表现相似，Google DeepMi

...，揭示了当前人工智能（AI），特别是大型Transformer语言模型（LMs）在推理任务中的表现及其局限性。研究结果显示，尽管这些模型在处理自然语言方面表现卓越，但在复杂逻辑推理任务中，人类和语言模型都会受到语义内容合...……更多

2024-08-19 13:49:00局限性,推理,人类,任务,研究,模型

苹果AI震撼上线iPhone，进化版Siri却没有ChatG

...1到10。如图6所示，AFM-on-device在与Gemma-7B和Mistral-7B的比较中表现出相当或更优的性能。而AFM-server则显著优于DBRX-Instruct和GPT-3.5，甚至与GPT-4不相上下。值得注意的是，使用LLM评分会存在一些限制和偏见，例如长度偏见。数……更多

2024-08-01 09:40:00进化,模型,苹果,报告,技术,苹果