• 我的订阅
  • 头条热搜
谷歌发布 FACTS Grounding 基准,AI 大语言模型“幻觉照妖镜”
IT之家 12 月 18 日消息,谷歌 DeepMind 团队于 12 月 17 日发布博文,宣布推出 FACTS Grounding 基准测试,评估大型语言模型(LLMs)根据给定材料是否准确作答,并避免“幻觉”(即捏造信息)的能力,从而提升 LLMs 的事实准确性,增...……更多
百万鲁棒数据训练,3D场景大语言模型新SOTA!IIT等发布Robin3D
...3D场景理解中的鲁棒性和泛化能力,在多个3D多模态学习基准测试中取得了优异的性能,超越了以往的方法,且无需针对特定任务的微调。多模态大语言模型(Multi-modal Large Language Models, MLLMs)以文本模态为基础,将其它各种模态...……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...的研究人员联合撰写百页长文,发布名为MultiTrust的综合基准,首次从多个维度和视角全面评估了主流多模态大模型的可信度,展示了其中多个潜在安全风险,启发多模态大模型的下一步发展。论文标题:Benchmarking Trustworthiness of ...……更多
CMU&清华:让LLM自己合成数据来学习,特定任务性能同样大幅提升
...评估 SELF-GUIDE 的有效性,研究者从 Super-NaturalInstructions V2 基准中选择了 14 个分类任务和 8 个生成任务。研究者随机选择了一半任务用于超参数搜索,剩余的一半用于评估。在模型方面,研究者选择了 Vicuna-7b-1.5 作为输入生成、...……更多
OpenAI重拾规则系统,用「AI版机器人定律」守护大模型安全
...。 该团队通过实验表明,RBR 得到的安全性能与人类反馈基准相当,同时还能大幅减少拒绝安全提示词的情况。 研究表明 RBR 适用于多种奖励模型,既能改善过度谨慎的奖励模型,也能改进(有时候)偏好不安全输出的奖励模型...……更多
LLM取代的第一个编程语言竟是SQL?网友吵翻天
...是在推广自家产品。这位网友进一步质疑道:「当脱离了基准测试里的简单任务,需要做比较复杂的查询时,不会所有 AI 工具都失效了吧。」评论区也有很多工作中常用 SQL 的网友与他有同感:「AI 会写 SQL 与能写高效且性能优...……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
...动评分器 ( FLAMe-RM 和 FLAMe-Opt-RM)。在12个自动评分器评估基准中的8个基准上,FLAMe及其变体的自动评分性能优于用专有数据训练的GPT-4o、Gemini-1.5-Pro等模型。- 计算高效的多任务训练:引入了一种计算更为高效的方法,使用创新...……更多
Meta祭出三篇最详尽Llama微调指南!千字长文,0基础小白必备
...的输出。- 提高精度并处理边缘情况:微调可以用于纠正幻觉或错误,这些错误很难通过prompt和上下文学习来纠正。它还可以增强模型执行新技能或任务的能力,这些技能或任务很难在提示中表达。这个过程可以帮助纠正模型没...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
... 支持多种开、闭源对齐评估:支持了 30 多个多模态评测基准,包括如 MMBench、VideoMME 等多模态理解评测,以及如 FID、HPSv2 等多模态生成评测训练框架北大对齐小组设计了高度模块化、扩展性以及简单易用的对齐训练框架,支持...……更多
史上最严中文真实性评估:OpenAI o1第1豆包第2,其它全部不及格
新的大语言模型(LLM)评估基准对于跟上大语言模型的快速发展至关重要。近日,淘宝天猫集团的研究者们提出了中文简短问答(Chinese SimpleQA),这是首个全面的中文基准,具有“中文、多样性、高质量、静态、易于评估”五...……更多
深挖大模型幻觉!哈佛大学最新报告:LLM等价于众包,只是在输出「网络共识」
...究了大型语言模型在回答晦涩难懂和有争议问题时产生「幻觉」的原因,发现模型输出的准确性高度依赖于训练数据的质量和数量。研究结果指出,大模型在处理有广泛共识的问题时表现较好,但在面对争议性或信息不足的主题...……更多
谷歌苹果曝出LLM惊人内幕,自主识别错误却装糊涂!AI幻觉背后藏着更大秘密
【新智元导读】大模型幻觉,究竟是怎么来的?谷歌、苹果等机构研究人员发现,大模型知道的远比表现的要多。它们能够在内部编码正确答案,却依旧输出了错误内容。到现在为止,我们仍旧对大模型「幻觉」如何、为何产...……更多
多样任务真实数据,大模型在线购物基准Shopping MMLU开源
谁是在线购物领域最强大模型?也有评测基准了。基于真实在线购物数据,电商巨头亚马逊终于“亮剑”——联合香港科技大学、圣母大学构建了一个大规模、多任务评测基准Shopping MMLU,用以评估大语言模型在在线购物领域的...……更多
开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1
...的测评结果:Mistral Large 2性能具体如何,来看官方发布的基准测试结果。不到三分之一参数比肩Llama 3.1根据官方Blog,Mistral Large 2参数123B,专为单节点推理设计,在单节点上可实现大吞吐,上下文窗口为128k。代码能力方面,Mistra...……更多
代码模型自我进化超越GPT-4o蒸馏!UIUC伯克利等提出自对齐方法 | NIPS 2024
...,超过了参数量大10倍的CodeLlama-70B-Instruct。在全部的三项基准测试(代码生成、数据科学编程、代码编辑)中,SelfCodeAlign都战胜了之前最先进的指令微调方法OctoPack。此外,在HumanEval+上,SelfCodeAlign的性能超越了基于GPT-3.5……更多
「学术版ChatGPT」登场!Ai2打造科研效率神器OpenScholar,让LLM帮你搞定文献综述
...。为了方便自动化评估,团队还一道推出了全新的大规模基准ScholarQABench,覆盖了CS、生物、物理等多个学科,用于评价模型在引用准确性、涵盖度和质量的等方面的表现。由UWNLP和Ai2两大顶流机构联手,OpenScholar在开源方面几乎...……更多
21.5万张X光,78万个问题!德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA
...法全面超越了MMQ和VQAMix这两个先进的医学VQA模型。表4 与基准模型的结果对比总结与讨论为了促进多模态大型语言模型在医学研究中的发展,作者对之前使用传统基于规则方法工作进行了延伸。利用基于LLM的方法,作者创建了一...……更多
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...在多语言和多轮对话任务中表现出的性能不俗。它在许多基准测试中拥有较为先进的水平,并在长上下文代码理解任务中以明显优势超过了其它模型(Llama-3.1-8B-instruct和Mistral-7B-instruct)。▲Phi-3.5-mini-instruct在长上下文代码理解...……更多
科学家建立新评价基准,助力评估大模型数据分析能力
...更加符合预期的结果。整体来看,缺乏交互式数据分析的基准——是本次研究面临的最大问题之一。为了解决这一问题,他们以“斯坦福小镇”项目为启发,创建了“DECISION COMPANY”。“DECISION COMPANY”是数据分析领域的首个多代...……更多
AI 胡说八道怎么办?牛津大学开发了一种“测谎”方法
...方法,结果显示语义熵方法在检测编造方面显著优于其他基准方法。那么“语义熵”究竟是什么呢?抛开冗长的专业解释,我们可以将语义熵简单理解为概率统计的一种指标,用来测量一段答案中的信息是否一致。如果熵值较低...……更多
马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放
...参数的 LLM 原型 ——Grok-0。这个早期模型在标准 LM 测试基准上接近 LLaMA 2 (70B) 的能力,但只使用了一半的训练资源。之后,他们对模型的推理和编码能力进行了重大改进,最终开发出了 Grok-1,这是一款功能更为强大的 SOTA 语...……更多
...的交互(具身智能),通过交互在不同专业和科学的测试基准上表现出人类水平的智能。而针对幻觉,大模型有时会生成看似合理的编造或无意义的答案。在工作替代性方面,张钹表示,人工智能有助于推动经济增长,建筑、维...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...多种操作技能。在实验中,RoboMamba 在通用和机器人评估基准上展示了出色的推理能力,如图 2 所示。同时,我们的模型在模拟和现实世界实验中展示了令人印象深刻的操纵位姿预测能力,其推理速度比现有的机器人 MLLMs 快 7 倍...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...一款名为 MMed-Llama 3 的全新基座模型,以 8B 的尺寸在多项基准测试中超越了现有的开源模型,更加适合通过医学指令微调,适配到各种医学场景。 所有数据和代码、模型均已开源。MMedBench 上的准确率,图 d 展⽰了在 MMedC 上进...……更多
突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源
...的视频 LMM——LLaVA-Video。实验表明,LLaVA-Video 在多个视频基准上表现出色,展示了该数据集的有效性。 论文标题:VIDEO INSTRUCTION TUNING WITH SYNTHETIC DATA 论文链接:https://arxiv……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说了,但是依旧算...……更多
错误率从10%降至0.01%,领英全面分享LLM应用落地经验
...估多达 500 个日常对话并获取相关指标:整体质量得分、幻觉率、AI 违规、连贯性、风格等。自动评估工作目前仍在进行中。如果没有自动评估,工程师只能目测结果并在一组有限的示例上进行测试,并且要延迟 1 天以上才能了...……更多
LLM群体智能崛起,数学性能暴增11.6%!谷歌DeepMind四大机构联手新作
...,基于技能的方法在GSM8K数据集上的表现,优于CoT和随机基准方法,并强调了准确技能分配、相关上下文示例在有效问题解决中重要性。此外,基于技能方法与自洽性,带来了更好的性能。对于SC实验,研究人员从LLM中采样5个推...……更多
大幅减缓幻觉 百融云创大模型精度测评结果出炉
...越重要。百融云创参加的这场“考试”名叫检索增强生成基准测评,这是对大模型处理“幻觉问题”的能力测评,也是对大模型生成内容准确性的测评。尽管大模型带来令人兴奋的技术进步,但“幻觉”一直是制约其发展的主要...……更多
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
...过不断增加上下文长度(干扰图片的数量),将现有的VQA基准和简单图像识别集 (MNIST) 扩展为测试长上下文「提取推理」的示例。结果在简单VQA任务上,VLM的性能呈现出惊人的指数衰减。——LLM:原形毕露了家人们。而与实际研...……更多
更多关于科技的资讯:
别被厂商忽悠了!家用路由器选购大揭秘
打开购物网站搜路由器,满屏“穿墙王”“千兆路由”等夸张广告词令人眼花,一时间竟不知该如何挑选合适的路由器品牌和型号。其实家用路由器大多能满足日常需求
2025-04-27 22:34:00
作为潍坊地区汽车流通领域的领军企业,山东某汽车集团有限公司以50余家4S店的规模稳居区域市场龙头地位。随着企业规模扩张
2025-04-27 22:46:00
安丘农商银行:服务有深度 金融有温度
今年以来,安丘农商银行始终将满足客户需求作为金融服务的出发点和落脚点,通过积极开展外拓走访、优化厅堂服务以及创新多种宣传方式
2025-04-27 22:47:00
数字赋能文旅 仓山区将推出多项数字场景体验项目
福州新闻网4月27日讯(记者 谢敏 通讯员 仓萱 文/图)27日,记者从仓山区获悉,数字峰会期间,仓山区将推出多项数字场景体验项目
2025-04-27 22:49:00
朱雀玄武敕令再申请改48字新名字:户口本都放不下了
4月27日消息,据媒体报道,朱雀玄武敕令此前想把名字更改为“周天紫薇大帝”,这一申请未获通过。随后这位小伙在此提交改名申请
2025-04-27 23:04:00
“珍珠女王”白如芳逝世:年仅55岁
4月27日消息,据媒体报道,被誉为“珍珠女王”的知名珍珠艺术设计师、北京红桥商场芳华珠宝品牌创始人白如芳女士,因病于2025年4月23日逝世
2025-04-27 23:34:00
年轻人上桌,白酒慌了?
某种程度上,年轻人与白酒之间的关系,如今更像是一种双向试探:白酒不断靠近年轻人的消费场景,却始终在外围打转;年轻人愿意为创意买单
2025-04-27 23:36:00
博主曝华为首款鸿蒙PC:办公软件已基本解决
快科技4月27日消息,在3月举行的华为Pura先锋盛典及鸿蒙智行新品发布会上,华为常务董事、终端BG董事长余承东正式宣布
2025-04-27 20:04:00
再添天文利器!中国首个大型通用光谱望远镜JUST启动建设
快科技4月27日消息,据报道,上海交通大学JUST光谱望远镜基建项目在青海冷湖正式启动建设,标志着我国即将实现大型光谱望远镜从无到有的历史性突破
2025-04-27 20:04:00
全球首个在轨验证星载基站亮相科交会
大皖新闻讯 作为“平天星座”的首发卫星,“池州一号”卫星将于今年年底搭载“池州造”火箭发射升空。“池州一号”卫星由池州星移联信航天科技公司自主研发
2025-04-27 20:23:00
从显示技术到航天动力 蚌埠近200件创新成果闪耀“科交会”
大皖新闻讯 世界首片8.6代OLED玻璃基板彰显国内显示技术的领先实力,“蚌埠造”龙云发动机助力航空航天产业发展……第三届中国(安徽)科技创新成果转化交易会上
2025-04-27 20:23:00
OPPO担任人工智能终端工作组副组长单位
4月25日,人工智能终端产业发展研讨会暨人工智能终端工作组第一次全体大会召开,工业和信息化部副部长熊继军出席会议并致辞
2025-04-27 20:28:00
母亲节送礼攻略 | 野兽派萱草花系列新品
近日,高端艺术生活方式品牌野兽派发布2025母亲节主题大片《每个妈妈都喜欢花》。片中,国民演员赵雅芝与其儿子黄恺杰温情亮相
2025-04-27 20:45:00
何同学风波后复更:为一位女生制作单手键盘
快科技4月27日消息,此前,博主何同学因发布网约车司机求好评相关言论引发争议,不久何同学删博。今日晚间,沉寂两周后何同学复更
2025-04-27 21:04:00
中国青年报客户端讯(中青报·中青网记者 胡春艳 实习生 粟悦)在中国电影诞生120周年、世界电影诞生130周年之际,作为第15届北京国际电影节的重要组成部分
2025-04-27 21:14:00