事实性,基准,中文,评测,事实,模型头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...排名第二。上海人工智能实验室在榜单发布同时表示：“中文场景下国内的模型更具优势，中文闭源大模型接近GPT-4 Turbo的水平。”OpenCompass 2.0全面量化模型在知识、语言、理解、推理和考试等五大能力维度的表现，客观中立地...……更多

2024-02-04 14:00:00司南,基座,前列,新一代,模型,评测

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonn

...理、数学推理、编程任务及视觉推理等任务上设立新行业基准而引发广泛讨论：Claude-3.5-Sonnet 已经取代OpenAI的GPT4o成为世界上”最聪明的AI“（Most Intelligent AI）了吗？回答这个问题的挑战在于我们首先需要一个足够挑战的智力测...……更多

2024-06-25 09:45:00奥林,奥林匹克,竞赛,模型,推理,能力

OpenAI入局AI搜索 SearchGPT演示中“翻车”

...司的官方演示却上演了类似谷歌Bard出糗的一幕，犯下了事实性错误。从技术角度看，“AI幻觉”（即AI编造语句通顺但事实逻辑错误的答案）仍是业界的一大难题。SearchGPT的发布彰显出OpenAI向搜索引擎扩张的野心，不过伟大的愿...……更多

2024-07-31 09:59:00演示,搜索,成本,搜索,错误,用户

清华教授唐杰：Scaling Laws虽被质疑，但至今仍是提

...革。其下一代模型在技术上可能解决目前ChatGPT中存在的事实性以及推理能力的缺陷，实现更精细的语义理解、多模态（文本、图像、语音、视频等）输入和输出，具备更强的个性化能力。”“人工智能的发展会更多瞄向通用人...……更多

2024-06-05 18:36:00清华,模型,教授,性能,方法,模型

openai发布多语言大规模多任务语言理解

...其他语言。MMMLU数据集核心涵盖范围广MMMLU数据集是同类基准中最广泛的基准之一，涵盖了从高中问题到高级专业和学术知识的多种任务。研究人员和开发人员在利用MMMLU数据集过程中，可以调用不同难度的问题，测试大预言模型...……更多

2024-09-24 22:07:00多语,大规,大规模,任务,语言,语言

山海启航，云知声迈向AGI新征程

...是一个多维度上细致评测模型和人类意图对齐水平的评测基准，。最新版本的山海大模型在AlignBench上得分为6.55分，达到了GPT4水平的86%，处于国内领先水平。医疗增强大模型能力不断增强，遥遥领先行业水平2023年6月，山海大...……更多

2024-02-04 11:00:00山海,征程,模型,山海,应用,技术

王兴“背后的男人”躬身入局，投资人最爱的创业者能否Open

...是新版Bing还是Bard，在回答问题时生成的内容中都还存在事实性错误，商业化路径等方面也还尚未明确，但其带来的震撼是实打实的。而这种震撼也引发了业界的思考：中国版ChatGPT何时能出？事实上，以百度为首的多家互联网公...……更多

2023-02-15 10:49:00王兴,投资人,创业者,背后,最爱,创业

大模型用于采购评标，专业“证据链”驱动专家精准决策

...投喂”的训练语料。在B端，企业通常拥有大量、私有的事实性知识，很多知识还是企业核心资产。通用大模型无法对上述知识数据“抓取”分析，就会导致事实性偏差、胡说八道急剧上升。具体到采购评标场景，不同采购人、...……更多

2024-09-29 11:45:00证据,模型,决策,驱动,采购,专家

GEO 服务商权威选型指南：基于第三方评测数据匹配全场景需求

...方案，助力企业精准对接适配的 GEO 服务能力。选型核心基准：第三方评测的四大关键量化维度第三方权威评测机构（2025 年 10 月发布）在评估 GEO 服务商时，通过可量化指标构建综合能力模型，企业选型需优先参考以下核心维...……更多

2025-10-24 10:43:00选型,服务商,第三方,场景,评测,需求

两大AI模型性能提升登上国际榜单

...rboard是由加州大学伯克利分校开发的评估LLM工具调用能力基准测试平台。作为目前大语言模型(LLM)最热门的研究方向之一，工具调用(Function-Calling)是为了让LLM理解，并能准确使用API(应用程序编程接口)，来执行更复杂而具体的任...……更多

2025-01-16 11:45:00模型,性能,国际,模型,多维度,伯克利分校

AI落地千行百业，存储痛点凸显，浪潮信息如何助力AI向实？

...AI应用场景的契合度。这一点，也是全球唯一的AI/ML存储基准测试——MLPerf所关注的本质。MLPerf存储基准测试面向AI/ML用户的痛点，即存储和计算的平衡及两者的有效利用。然而测试中存储架构的多样与存算节点的非标准化，导致...……更多

2024-11-08 09:46:00浪潮信息,痛点,浪潮,百业,落地,存储

重磅！OpenAI o1模型还没有实现真正的逻辑推理能力

...列美国前500名学生之列，并且在物理、生物和化学问题的基准测试（GPQA）中超过了人类博士水平的准确度。OpenAI团队上下对o1模型充满了信心，OpenAI的CEO 山姆·奥特曼在社交媒体上表示：“需要耐心等待的时刻结束了！”、“这...……更多

2024-09-18 15:01:00逻辑推理,重磅,推理,逻辑,模型,能力

全模态对齐框架align-anything来啦：实现跨模态指

... 支持多种开、闭源对齐评估：支持了 30 多个多模态评测基准，包括如 MMBench、VideoMME 等多模态理解评测，以及如 FID、HPSv2 等多模态生成评测训练框架北大对齐小组设计了高度模块化、扩展性以及简单易用的对齐训练框架，支持...……更多

2024-10-18 09:47:00模态,指令,框架,模态,模型,数据

全面开源浪潮信息发布千亿参数基础大模型“源2.0”

...智能算力基础设施产品的研发，2021年在业界率先推出了中文AI巨量模型“源1.0”，参数规模达2457亿，落地南京智算中心。此次发布的“源2.0”较前一版本实现了能力的全面提升。 ……更多

2023-11-28 07:46:00浪潮信息,浪潮,模型,参数,基础,信息

腾讯开源最大MoE大语言模型！3D大模型同时支持文/图生成，

...3D、视频等更多模态，今年8月在SuperCLUE-V多模态理解评测基准总榜中排名第一。文生图方面，今年5月，腾讯混元全面开源业界首个中文原生DiT架构文生图大模型，评测结果国内领先。还有今天宣布开源的文/图生3D模型，单张图30...……更多

2024-11-06 09:41:00模型,腾讯,全家,生成,同时,语言

科学家建立新评价基准，助力评估大模型数据分析能力

...更加符合预期的结果。整体来看，缺乏交互式数据分析的基准——是本次研究面临的最大问题之一。为了解决这一问题，他们以“斯坦福小镇”项目为启发，创建了“DECISION COMPANY”。“DECISION COMPANY”是数据分析领域的首个多代...……更多

2024-04-07 10:50:00立新,数据分析,基准,科学家,模型,评估

自动化、可复现，基于大语言模型群体智能的多维评估基准

...）也越来越强。因此，在多样的应用场景中对其进行性能基准测试已成为了一项重大挑战。目前最受欢迎的基准测试是 Chatbot Arena，它通过收集用户对模型输出的偏好来对 LLM 进行综合排名。然而，随着 LLM 逐渐落地于众多应用场...……更多

2024-10-23 12:03:00多维,基准,群体,模型,自动化,评估

如何让大模型输出更精准、更可靠的结果？

...但是也有技术缺陷。有时会产生“幻觉”，甚至会犯一些事实性错误。这是大模型技术逻辑带来的天然缺陷，大模型的技术机理是，通过大量的知识训练，基于概率最大的原则生成答案。那么这就带来了几个问题，公开的数据库...……更多

2024-05-13 15:03:00输出,模型,结果,模型,博坦,知识

关于LLM-as-a-judge范式，终于有综述讲明白了

...where to judge）。最后，我们归纳了评估 LLM 作为评判者的基准数据集，并强调了关键挑战和有希望的方向，旨在提供有价值的见解并启发这一有希望的研究领域的未来研究。论文链接：https://arxiv.org/abs/2411.16594 网站链接：https://llm...……更多

2024-12-04 09:49:00范式,模型,基准,偏见,数据,评估

谷歌苹果曝出LLM惊人内幕，自主识别错误却装糊涂！AI幻觉背

...码了正确答案，却持续生成错误答案。幻觉，如何定义？事实错误、偏见，以及推理失误，这些统称为「幻觉」。以往，大多数关于幻觉的研究，都集中在分析大模型的外部行为，并检查用户如何感知这些错误。然而，这些方法...……更多

2024-11-11 13:32:00幻觉,内幕,背后,错误,苹果,秘密

cnmo科技手机ai实力榜

...、文本处理、图片编辑三个方向。其中，AI助手测试包括中文普通话语音识别准确度、方言语音识别覆盖率、中文知识储备兼四则运算测试、中文完形填空、中文表述不当纠错、外部信息记忆能力、中文朗读争取性、中文朗读发...……更多

2024-07-06 13:11:00实力,手机,科技,测试,中文,三代

谁是苹果AI的“中国合伙人”？

...畴’，甚至其中的部分功能，在行业中已经早有应用。" 中文理解，哪家大模型占优苹果AI浮出水面，随之而来的则是另外一个问题，那就是在国内究竟选择谁作为合作伙伴最为适宜。之前，外界流传百度为国行版iPhone16、Mac系...……更多

2024-06-13 09:23:00合伙人,中国,苹果,苹果,模型,讯飞

全国政协委员齐向东：建议开展体系化大模型安全防护

...数据污染等手段，会使大模型输出背离主流价值观或包含事实性错误的内容。一些不法分子还会借助提示词注入、劫持、爬虫等手段，窃取大模型用户重要信息、敏感数据。”齐向东称。齐向东建议，从技术层面全面排查加固人...……更多

2025-03-06 19:17:00体系化,政协委员,安全防护,模型,防护,体系

AI大模型击碎阴谋论！登上Science封面，用聊天戳破谣言

...Turbo进行3轮对话，用证据驳斥阴谋论观点研究假设，基于事实性、纠正性信息的论据可能会显得无效，因为它们缺乏足够的深度和个性化。为了验证这一假设，研究人员利用了大语言模型的进步，这是一种AI，能够获取大量信息...……更多

2024-09-18 13:33:00谣言,阴谋,漏洞,封面,模型,阴谋

AMD的GPU跑AI模型终于Yes了？PK英伟达H100不带

...比评测报告，声称是首个直接对比 AMD 和英伟达 AI 集群的基准评测。该报告的数据来自 MLCommons，这是一个由供应商主导的评测机构。他们构建了一套 MLPerf AI 训练和推理基准。AMD Instinct 「Antares」 MI300X GPU 以及英伟达的「Hopper」H.……更多

2024-09-05 09:49:00英伟,模型,英伟,内存,推理,性能