照妖镜,基准,幻觉,模型,语言,示例头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

谷歌发布 FACTS Grounding 基准，AI 大语言

IT之家 12 月 18 日消息，谷歌 DeepMind 团队于 12 月 17 日发布博文，宣布推出 FACTS Grounding 基准测试，评估大型语言模型（LLMs）根据给定材料是否准确作答，并避免“幻觉”（即捏造信息）的能力，从而提升 LLMs 的事实准确性，增...……更多

2024-12-19 09:32:00照妖镜,基准,幻觉,模型,语言,示例

百万鲁棒数据训练，3D场景大语言模型新SOTA！IIT等发布

...3D场景理解中的鲁棒性和泛化能力，在多个3D多模态学习基准测试中取得了优异的性能，超越了以往的方法，且无需针对特定任务的微调。多模态大语言模型（Multi-modal Large Language Models, MLLMs）以文本模态为基础，将其它各种模态...……更多

2024-10-16 13:35:00模型,场景,训练,语言,数据,物体

清华领衔发布多模态评估MultiTrust：GPT-4可信度

...的研究人员联合撰写百页长文，发布名为MultiTrust的综合基准，首次从多个维度和视角全面评估了主流多模态大模型的可信度，展示了其中多个潜在安全风险，启发多模态大模型的下一步发展。论文标题：Benchmarking Trustworthiness of ...……更多

2024-07-25 09:31:00模态,清华,可信度,领衔,可信,几何

CMU&清华：让LLM自己合成数据来学习，特定任务性能同样大

...评估 SELF-GUIDE 的有效性，研究者从 Super-NaturalInstructions V2 基准中选择了 14 个分类任务和 8 个生成任务。研究者随机选择了一半任务用于超参数搜索，剩余的一半用于评估。在模型方面，研究者选择了 Vicuna-7b-1.5 作为输入生成、...……更多

2024-08-02 09:40:00清华,性能,任务,数据,学习,生成

OpenAI重拾规则系统，用「AI版机器人定律」守护大模型安

...。该团队通过实验表明，RBR 得到的安全性能与人类反馈基准相当，同时还能大幅减少拒绝安全提示词的情况。研究表明 RBR 适用于多种奖励模型，既能改善过度谨慎的奖励模型，也能改进（有时候）偏好不安全输出的奖励模型...……更多

2024-11-07 09:54:00定律,机器人,模型,规则,机器,安全

LLM取代的第一个编程语言竟是SQL？网友吵翻天

...是在推广自家产品。这位网友进一步质疑道：「当脱离了基准测试里的简单任务，需要做比较复杂的查询时，不会所有 AI 工具都失效了吧。」评论区也有很多工作中常用 SQL 的网友与他有同感：「AI 会写 SQL 与能写高效且性能优...……更多

2024-08-28 09:43:00编程语言,编程,语言,网友,数据,模型

87.8%准确率赶超GPT-4o登顶！谷歌DeepMind发

...动评分器 ( FLAMe-RM 和 FLAMe-Opt-RM）。在12个自动评分器评估基准中的8个基准上，FLAMe及其变体的自动评分性能优于用专有数据训练的GPT-4o、Gemini-1.5-Pro等模型。- 计算高效的多任务训练：引入了一种计算更为高效的方法，使用创新...……更多

2024-08-05 09:37:00准确率,模型,评估,评估,模型,数据

Meta祭出三篇最详尽Llama微调指南！千字长文，0基础小

...的输出。- 提高精度并处理边缘情况：微调可以用于纠正幻觉或错误，这些错误很难通过prompt和上下文学习来纠正。它还可以增强模型执行新技能或任务的能力，这些技能或任务很难在提示中表达。这个过程可以帮助纠正模型没...……更多

2024-08-27 12:03:00小白,长文,千字,基础,指南,训练

全模态对齐框架align-anything来啦：实现跨模态指

... 支持多种开、闭源对齐评估：支持了 30 多个多模态评测基准，包括如 MMBench、VideoMME 等多模态理解评测，以及如 FID、HPSv2 等多模态生成评测训练框架北大对齐小组设计了高度模块化、扩展性以及简单易用的对齐训练框架，支持...……更多

2024-10-18 09:47:00模态,指令,框架,模态,模型,数据

史上最严中文真实性评估：OpenAI o1第1豆包第2，其它

新的大语言模型（LLM）评估基准对于跟上大语言模型的快速发展至关重要。近日，淘宝天猫集团的研究者们提出了中文简短问答（Chinese SimpleQA），这是首个全面的中文基准，具有“中文、多样性、高质量、静态、易于评估”五...……更多

2024-11-22 09:51:00豆包,中文,真实性,评估,模型,中文

深挖大模型幻觉！哈佛大学最新报告：LLM等价于众包，只是在输

...究了大型语言模型在回答晦涩难懂和有争议问题时产生「幻觉」的原因，发现模型输出的准确性高度依赖于训练数据的质量和数量。研究结果指出，大模型在处理有广泛共识的问题时表现较好，但在面对争议性或信息不足的主题...……更多

2024-10-26 09:51:00哈佛大学,哈佛,等价,共识,幻觉,输出

谷歌苹果曝出LLM惊人内幕，自主识别错误却装糊涂！AI幻觉背

【新智元导读】大模型幻觉，究竟是怎么来的？谷歌、苹果等机构研究人员发现，大模型知道的远比表现的要多。它们能够在内部编码正确答案，却依旧输出了错误内容。到现在为止，我们仍旧对大模型「幻觉」如何、为何产...……更多

2024-11-11 13:32:00幻觉,内幕,背后,错误,苹果,秘密

多样任务真实数据，大模型在线购物基准Shopping MML

谁是在线购物领域最强大模型？也有评测基准了。基于真实在线购物数据，电商巨头亚马逊终于“亮剑”——联合香港科技大学、圣母大学构建了一个大规模、多任务评测基准Shopping MMLU，用以评估大语言模型在在线购物领域的...……更多

2024-11-21 09:45:00在线购物,基准,模型,任务,购物,数据

开源大模型杀疯了！Mistral新模型三分之一参数卷爆Lla

...的测评结果：Mistral Large 2性能具体如何，来看官方发布的基准测试结果。不到三分之一参数比肩Llama 3.1根据官方Blog，Mistral Large 2参数123B，专为单节点推理设计，在单节点上可实现大吞吐，上下文窗口为128k。代码能力方面，Mistra...……更多

2024-07-26 09:39:00模型,参数,模型,基准,问题,推理

代码模型自我进化超越GPT-4o蒸馏！UIUC伯克利等提出自

...，超过了参数量大10倍的CodeLlama-70B-Instruct。在全部的三项基准测试（代码生成、数据科学编程、代码编辑）中，SelfCodeAlign都战胜了之前最先进的指令微调方法OctoPack。此外，在HumanEval+上，SelfCodeAlign的性能超越了基于GPT-3.5……更多

2024-11-29 09:26:00伯克,伯克利,进化,模型,代码,方法

「学术版ChatGPT」登场！Ai2打造科研效率神器Open

...。为了方便自动化评估，团队还一道推出了全新的大规模基准ScholarQABench，覆盖了CS、生物、物理等多个学科，用于评价模型在引用准确性、涵盖度和质量的等方面的表现。由UWNLP和Ai2两大顶流机构联手，OpenScholar在开源方面几乎...……更多

2024-11-27 13:33:00神器,文献,效率,科研,学术,模型

21.5万张X光，78万个问题！德州大学NIH等联合发布医学

...法全面超越了MMQ和VQAMix这两个先进的医学VQA模型。表4 与基准模型的结果对比总结与讨论为了促进多模态大型语言模型在医学研究中的发展，作者对之前使用传统基于规则方法工作进行了延伸。利用基于LLM的方法，作者创建了一...……更多

2024-08-10 09:47:00德州,问答,视觉,医学,联合,数据

微软连发3款Phi-3.5模型：128K上下文，首用MoE架

...在多语言和多轮对话任务中表现出的性能不俗。它在许多基准测试中拥有较为先进的水平，并在长上下文代码理解任务中以明显优势超过了其它模型（Llama-3.1-8B-instruct和Mistral-7B-instruct）。▲Phi-3.5-mini-instruct在长上下文代码理解...……更多

2024-08-22 09:49:00上下文,微软,架构,模型,上下,性能