事实性,基准,中文,评测,事实,模型头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...nAI o1模型（至少目前）还不是多模态大模型，同时在回答事实性问题时也不如其他模型。所以在图像互动、常识问答、互联网搜索方面，GPT-4o依然是更胜一筹的选择。当然，OpenAI明确表示未来会给这个模型增加联网、文件和图像...……更多

2024-09-13 13:34:00新时代,推理,逻辑,模型,模型,问题

清华发布2024年3月版《SuperBench大模型综合能力

...力评测中，文心一言4.0表现优异，位居国内第一，其中在中文推理、中文语言等评测上，文心一言遥遥领先，和其他模型拉开明显差距，中文理解上，文心一言4.0领先优势明显，领先第二名GLM-4 0.41分，GPT-4系列模型表现较差，排...……更多

2024-04-22 09:46:00评测报告,清华,模型,评测,能力,报告

多模态模型评测框架lmms-eval发布！全面覆盖，低成本，

...，执行这些数据集的全面评估变得非常耗时。此外，这些基准在训练期间也容易受到污染的影响。为此， LMMs-Eval 提出了 LMMs-Eval-Lite 来兼顾广覆盖和低成本。他们也设计了 LiveBench 来做到低成本和零数据泄露。LMMs-Eval-Lite: 广覆盖...……更多

2024-08-22 09:50:00模态,框架,模型,评测,污染,成本

“80后死亡率高”疑似是AI造谣，AI已经开始胡说八道了

...发布《DeepSeek与AI幻觉》报告，将AI幻觉分为两类，一类是事实性幻觉，指生成的内容与可验证的现实世界事实不一致。例如，模型错误地回答“糖尿病患者可以通过吃蜂蜜代替糖”。另一类则是忠实性幻觉，指的是AI生成的内容...……更多

2025-03-11 05:56:00八道,死亡率,幻觉,生成,模型,小昭

微软演示活动出现事实性错误

...导致其股价当天暴跌逾7%，但微软的演示活动同样出现了事实性错误。上周的科技圈掀起了一个聊天机器人的小高潮，微软和谷歌都试图通过展示早起版本的AI搜索来先发制人。微软更是宣布，该公司的AI搜索仅用48小时就吸引100...……更多

2023-02-15 14:03:00事实性,微软,演示,事实,错误,活动

20款国产大模型角逐“最强王者”

...海外最具公信力的大模型竞技场之一，遗憾的是该竞技场中文化程度相对不足。为此，Compass Arena的推出将有效填补这一领域的空白。相比考题固定的传统测评，中国大语言模型评测竞技场Compass Arena采用盲测、开放的测评模式，...……更多

2024-06-02 05:34:00王者,模型,国产,模型,竞技场,评测

iPhone可跑2B小钢炮！谷歌Gemma 2来袭，最强显微

...技场上的得分，已经超越了GPT-3.5和Mixtral 8x7B！在MMLU和MBPP基准测试中，它分别取得了56.1和36.6的优异成绩；比起前代模型Gemma 1 2B，它的性能超过了10%。小模型击败了大几个数量级的大模型，再一次印证了最近业界非常看好的小模...……更多

2024-08-02 09:55:00小钢炮,显微镜,大脑,模型,编码器,特征

更安全的AI，更容易被用户抛弃？｜产品观察

...言的概率会是此前的一般。“我们通过整理一系列复杂的事实性问题，测试Claude 2.1的诚实度。这些问题探究了模型的已知弱点。”Antropic表示。举例来说，拿一个信息错误的陈述句（“玻利维亚人口第五多的城市是蒙特罗”）和...……更多

2024-01-08 12:28:00观察,安全,用户,产品,用户,宪法

国产大模型首发中文逻辑推理，「天工大模型4.0」o1版来了

...务中，o1 的表现明显优于 GPT-4o。 o1 在具有挑战性的推理基准上比 GPT-4o 有了很大的改进。OpenAI 为大模型的能力开启了新方向：「能不能像人一样思考与推理」已经成为了评判它们能力的重要指标。厂商发布的新模型要是不带点...……更多

2024-11-28 10:00:00模型,逻辑推理,中文,推理,逻辑,国产

百川智能发布Baichuan4-Finance大模型，金融场

...学院新近发布的评测体系FLAME以及国内主流开源金融评测基准FinancelQ上均登上榜首。据介绍，此次发布的Baichuan4-Finance基于百川智能自主研发的全链路领域增强技术方案，涵盖了从数据集构建、模型预训练到微调和强化学习的完...……更多

2024-12-24 09:16:00百川,模型,场景,领先,能力,智能

零一万物大模型Yi-34B夺得全球开源评测“双料冠军”，已在

...含34B和6B两个版本。据HuggingFace英文开源社区平台和C-Eval中文评测的最新榜单，Yi-34B预训练模型取得了多项SOTA国际最佳性能指标认可，成为全球开源大模型“双料冠军”。零一万物创始人及CEO李开复博士表示:“零一万物坚定进军...……更多

2023-11-06 15:25:00阿里,万物,模型,评测,冠军,全球

清华郑纬民院士：AI for Science的出现，让高性能

...外，他还谈到人工智能计算机设计的三大平衡性原则、AI基准设计四大目标以及如何通过并行方法加速大规模预训练模型。为了完整体现郑纬民院士的分享及思考，在不改变原意的基础上，量子位对他的演讲内容进行了编辑整理...……更多

2023-01-11 05:00:00清华,院士,高性能,人工智能,模型,智能

百川智能发布baichuan3稳定语言模型

...U、GAOKAO和AGI-Eval中，Baichuan3都展现了出色的能力，尤其在中文任务上更是超越了GPT-4。而在数学和代码专项评测如MATH、HumanEval和MBPP中同样表现出色，证明了Baichuan3在自然语言处理和代码生成领域的强大实力。不仅如此，其在对...……更多

2024-01-29 19:57:00百川,模型,语言,智能,模型,百川

云从科技：大模型五虎与AI智能体的领航者

...型五虎？权威测评机构SuperCLUE此前发布了《中文大模型基准测评4月报告》，云从科技自主研发的从容大模型凭借其在多个领域的出色表现，赢得了行业内外的广泛关注，不仅成功晋升至SuperCLUE模型象限的【领导者象限】，更以...……更多

2024-08-08 17:45:00五虎,领航,模型,智能,科技,智能

RAG没有银弹！四级难度，最新综述覆盖数据集、解决方案，教你

...位于澳大利亚，再检索澳大利亚的多数党。查询仍然围绕事实性问题，但答案并没有明确地出现在任何某一个文本段落中，而是需要通过常识推理、结合多个事实来得出结论，所需的信息可能分散在多个段落中。主要难点1. 适...……更多

2024-11-22 09:54:00银弹,数据,姿势,难度,解决方案,方案

创新推出真实案件模拟听证

...案件审理，有力推动了西北五省（区）税务行政处罚裁量基准统一，防范税收执法风险，做到案结事了。 ……更多

2024-02-28 05:02:00案件,西安,特派,农产,案件,税务

AI安全守护计划启动！信通院牵头，AIIA安全治理委员会发布

...能治理展开，安全组主要开展大模型安全、合规等研究及基准测试。今年6月，中国信通院依托该委员会发起“人工智能安全守护计划”，包括建立威胁信息共享机制、开展AIGC真实内容来源可信工作、建立AI保险机制等。一、成...……更多

2024-07-25 09:26:00安全,信通,模型,评测,委员会,委员

透视2025丨中国AI模型厂商已在特定领域形成一定优势

...力。”具体来看，语言模型主观评测显示，目前针对一般中文场景的开放式生成任务，各大模型表现已趋于饱和。字节跳动、百度等国产模型表现优异。不过，在逻辑推理、观点表达等维度，国内厂商仍需进一步与国际巨头看齐...……更多

2024-12-26 21:56:00中国,模型,厂商,优势,领域,模型

对话北大赵东岩：为啥DeepSeek幻觉率这么高？用户如何避

...：大模型能做到既有创造力，又少幻觉吗？赵东岩：对于事实性幻觉，如回答某事实性问题出错，这个得看问题的复杂程度。有部分原因是模型输出的随机性导致的（也是模型有创造力的源泉），这方面随着模型能力的增强，幻...……更多

2025-03-05 15:54:00东岩,幻觉,北大,对话,用户,模型

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

...，一个用于评估多模态模型对长达一小时视频理解能力的基准数据集，包含多种任务。通过与现有模型对比，揭示当前模型在长视频理解上与人类水平的差距。2009年，李飞飞团队在CVPR上首次对外展示了图像识别数据集ImageNet，...……更多

2024-11-11 13:31:00团队,智能,空间,视频,模态,模型

检索总结能力超博士后，首个大模型科研智能体PaperQA2开

...，但在研究工作中使用仍然有很多限制。对于科研来说，事实性至关重要，而大模型会产生幻觉，有时会自信地陈述没有任何现有来源或证据的信息。另外，科学需要极其注重细节，而大模型在面对具有挑战性的推理问题时可能...……更多

2024-09-13 13:33:00博士后,模型,科研,博士,检索,能力

指令跟随大比拼！Meta发布多轮多语言基准Multi-IF：

【新智元导读】Meta全新发布的基准Multi-IF涵盖八种语言、4501个三轮对话任务，全面揭示了当前LLM在复杂多轮、多语言场景中的挑战。所有模型在多轮对话中表现显著衰减，表现最佳的o1-preview模型在三轮对话的准确率从87.7%下降...……更多

2024-11-26 09:51:00多语,大比,基准,指令,任务,语言

新闻传播业的生成式人工智能应用及其风险应对

...望利用智能工具提升生产力，放大人类记者在新闻深度和事实核查等方面的独特优势，发展解释性报道和建设性新闻，进而巩固行业边界。（三）智能化信息分发：从个性化走向定制化人工智能应用于平台型媒体，以场景化、个...……更多

2024-06-13 10:23:00传播业,人工智能,人工,生成,风险,传播

鄂维南院士领衔新作：大模型不止有RAG、参数存储，还有第3种

...有更好的性能和更快的推理速度；此外，Memory3 提高了事实性并减轻了幻觉，并能够快速适应专业任务。方法介绍记忆电路理论有助于确定哪些知识可以存储为显式记忆，以及哪种模型架构适合读取和写入显式记忆。研究者将...……更多

2024-07-11 09:33:00维南,领衔,院士,新作,模型,存储

AI界新晋王者被曝抄袭、作弊、做假，脸都丢光了

...最快抵达成功的方式。xAI在首页展示了Grok-1和其他模型的基准测试对比连“中国AI教父”李开复也没躲过捷径的诱惑。这位互联网的多年从业者，创新工场的掌舵人，同样不愿意错过风口。他在2023年3月宣布组建自己的大语言模...……更多

2023-12-20 00:10:00王者,抄袭,模型,万物,公司,数据

硅谷顶级VC的最新洞察：AI公司应该专注用户需求，而非模型构

...所分化。Michael Mignano：的确。近来每周都有新的模型发布基准测试结果，声称自己比其他所有模型都更出色，然后一周后又有另一家公司做出类似主张。这种现象几乎让人感觉，所有模型都在朝着同一个方向收敛，我们正经历这...……更多

2024-03-02 13:37:00硅谷,洞察,模型,顶级,需求,用户

起猛了，GPT-4o被谷歌新模型击败，ChatGPT官号：大

...比GPT-4o胜出54%，比Claude 3.5 Sonnet胜出59%。在多语言能力基准测试中，它在中文、日语、德语、俄语均排名第一。但是，在Coding、Hard Prompt Arena中，它还是打不过Claude 3.5 Sonnet、GPT-4o、Llama 405B等对手。这一……更多

2024-08-05 09:36:00一口,模型,一口气,模型,竞技场,竞技