• 我的订阅
  • 头条热搜
什么影响大模型安全?NeurIPS\'24新研究提出大模型越狱攻击新基准
全新大语言模型越狱攻击基准与评估体系来了。来自香港科技大学(Guangzhou)USAIL研究团队,从攻击者和防御者的角度探讨了什么因素会影响大模型的安全。提出攻击分析系统性框架JailTrackBench。JailTrackBench研究重点分析了不同...……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...专利产学研转化落地应用。以GPT-4o为代表的多模态大语言模型(MLLMs)因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手,还逐渐渗透到自动驾驶、医学诊断等各大应用领域,掀...……更多
全球AI安全评估测试有了新基准
本文转自:科技日报大模型安全领域两项国际标准发布全球AI安全评估测试有了新基准随着人工智能系统,特别是大语言模型成为社会各方面不可或缺的一部分,以一个全面的标准来解决它们的安全挑战变得至关重要。◎本报记...……更多
OpenAI o1强推理能提升安全性?长对话诱导干翻o1
最近,以 OpenAI o1 为代表的 AI 大模型的推理能力得到了极大提升,在代码、数学的评估上取得了令人惊讶的效果。OpenAI 声称,推理可以让模型更好的遵守安全政策,是提升模型安全的新路径。然而,推理能力的提升真的能解决...……更多
该实习生已在8月被辞退。近日有传闻称字节跳动大模型训练被实习生攻击,对此,字节跳动10月19日回应表示,经公司内部核实,确有商业化技术团队实习生发生严重违纪行为且已被辞退,但相关报道也存在部分夸大及失实信息...……更多
AI安全守护计划启动!信通院牵头,AIIA安全治理委员会发布三类模型安全评测
...治理框架、合规治理、赋能治理展开,安全组主要开展大模型安全、合规等研究及基准测试。今年6月,中国信通院依托该委员会发起“人工智能安全守护计划”,包括建立威胁信息共享机制、开展AIGC真实内容来源可信工作、建...……更多
一个弹窗整懵Claude,瞬间玩不转电脑了
...AI Agent点击弹窗,甚至直接导致任务失败。VLM(视觉语言模型)智能体很容易受到弹窗干扰,而这些弹窗属于人类可一眼识别并忽略的;将弹窗集成到Agent测试环境(如OSWorld和VisualWebArena中),平均攻击成功率为86%,并将任务成功...……更多
3秒让AI生成风险减少30%!复旦新研究拿下扩散模型概念移除新SOTA
让AI绘画模型变“乖”,现在仅需3秒调整模型参数。效果be like:生成的风险图片比以往最佳方法减少30%!像这样,在充分移除梵高绘画风格的同时,对非目标艺术风格几乎没有影响。在移除裸露内容上,效果达到“只穿衣服,...……更多
本文转自:法治日报随着人工智能技术的迅猛发展,大模型在各个领域的应用日益广泛。为全力筑牢人工智能安全防线,进一步提高大模型技术的安全风险防范能力,今年2月,中国信息通信研究院(以下简称中国信通院)联合3...……更多
惊掉下巴!被字节起诉800万实习生,拿下NeurIPS 2024最佳论文
...智元了解,字节商业化技术团队早在去年就把视觉自回归模型作为重要的研究方向,团队规划了VAR为高优项目,投入研究小组和大量资源。 除了VAR,团队还发表了LlamaGen等相关技术论文,新的研究成果也将在近期陆续放出。事...……更多
关于LLM-as-a-judge范式,终于有综述讲明白了
...往无法判断精妙的属性并提供令人满意的结果。大型语言模型 (LLM) 的最新进展启发了 “LLM-as-a-judge” 范式,其中 LLM 被用于在各种任务和应用程序中执行评分、排名或选择。本文对基于 LLM 的判断和评估进行了全面的调查,为推...……更多
一文看尽Meta开源大礼包!全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等
...【新智元导读】Meta最近开源了多个AI项目,包括图像分割模型SAM 2.1、多模态语言模型Spirit LM、自学评估器和改进的跨语言句子编码器Mexma等,提升了AI在图像处理和语音识别领域的能力,进一步推动了AI研究的进展。开源绝对是AI...……更多
...领域蕴藏的巨大潜力。随着人工智能技术的深度应用,大模型所面临的挑战也日益严峻。如何让AI更好为企业发展赋能,是当今社会面临的重大课题。加速推进行业发展天眼查专业版数据显示,截至目前,我国现有人工智能相关...……更多
中国信通院发布大模型安全基准测试报告 360智脑综合排名第一
...本文转自:中国新闻网近日,中国信息通信研究院发布大模型安全基准测试AI Safety Bench 2024年Q1的首轮测评报告(下称“测评报告”),结果显示,三六零集团自研的认知通用大模型360智脑综合排名第一。大模型安全基准测试AI Safety...……更多
深度剖析:谷歌、微软等AI巨头承诺的“自愿监管”做到了吗?
...达到最泡沫”之际做出的,各家公司都在竞相推出自己的模型,并使其比竞争对手的模型更大、更好。与此同时,我们也开始看到围绕版权和深度伪造等问题的争论。Geoffrey Hinton 等有影响力的科技人士组成的游说团也提出了人...……更多
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
大模型领域的技术发展,今天起再次「从 1 开始」了。大语言模型还能向上突破,OpenAI 再次证明了自己的实力。北京时间 9 月 13 日午夜,OpenAI 正式公开一系列全新 AI 大模型,旨在专门解决难题。这是一个重大突破,新模型可...……更多
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...题、增加候选选项、引入纯视觉输入设置)更严格地评估模型的多模态理解能力;模型在新基准上的性能下降明显,表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型(MLLMs)在各个排行榜上展现的性...……更多
谷歌新模型能识别人类情绪了!但不少人开始担心
...西12月6日消息,据TechCrunch报道,谷歌昨日发布了新一代AI模型PaliGemma 2,并宣称该模型具有情感识别的能力。谷歌表示,PaliGemma 2不仅能够分析图像并生成详细的图片描述,还能识别图像中人物的情感状态。据TechCrunch报道,要实...……更多
这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct
开源模型阵营又迎来一员猛将:Tülu 3。它来自艾伦人工智能研究所(Ai2),目前包含 8B 和 70B 两个版本(未来还会有 405B 版本),并且其性能超过了 Llama 3.1 Instruct 的相应版本!长达 73 的技术报告详细介绍了后训练的细节。在...……更多
2023 AI现状报告:GPT-4仍最强,监管方向缺乏全球共识
...越来越困难。由于基准变得不那么明确,用于评估大语言模型的“基于氛围”的方法在业界越来越普遍。·人工智能安全在2023年首次占据舞台中心。但人工智能界内部存在深刻分歧,世界各国政府采取的做法相互矛盾。挑战性在...……更多
打乱/跳过Transformer层会怎样?最新研究揭开其信息流动机制
...得出了结论。团队表示深入理解这些原理不仅能提高现有模型利用效率,还能帮助改进架构开发新的变体。谷歌DeepMind研究员、ViT作者Lucas Beyer看过后直接点了个赞:很棒的总结!尽管一些实验在之前的研究中已经被展示过了,...……更多
安全强化学习方法、理论与应用综述,慕工大、同济等深度解析
...种方法来处理安全强化学习的问题,可以大致分类为基于模型的方法和无模型的方法。1. 基于模型的安全强化学习方法:基于模型的安全强化学习方法通常依赖于对环境的建模,通过利用物理模型或近似模型进行推理和决策。这...……更多
下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用
【新智元导读】VQAScore是一个利用视觉问答模型来评估由文本提示生成的图像质量的新方法;GenAI-Bench是一个包含复杂文本提示的基准测试集,用于挑战和提升现有的图像生成模型。两个工具可以帮助研究人员自动评估AI模型的...……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
【新智元导读】谷歌DeepMind推出LLM自动评估模型FLAMe系列,FLAMe-RM-24B模型在RewardBench上表现卓越,以87.8%准确率领先GPT-4o。大语言模型都卷起来了,模型越做越大,token越来越多,输出越来越长。那么问题来了,如何有效地评估大...……更多
...消息,美国当地时间周三,谷歌发布了其新一代人工智能模型Gemini。Gemini反映了谷歌内部多年来在首席执行官桑达尔·皮查伊(Sundar Pichai)的监督和推动下所做的努力。此前负责Chrome和安卓业务的皮查伊是出了名的产品迷。2016...……更多
谷歌 AI 推出 CardBench 评估框架
...用的基数估计技术,依赖于启发式(Heuristic)方法和简化模型,例如假设数据统一和列独立。这些方法虽然计算效率高,但往往需要准确预测基数,在涉及多个表和过滤器的复杂查询中表现尤为明显。最新的数据驱动方法试图在...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...这是该团队在继 PMC-LLaMA 后,在持续构建开源医疗语言大模型的最新进展。该项目受到科创 2030—“新一代人工智能” 重大项目支持。在医疗领域中,大语言模型已经有了广泛的研究。然而,这些进展主要依赖于英语的基座模型...……更多
字节开源全栈AI编程基准,不小心曝光豆包代码大模型
豆包代码大模型,不小心给曝光了!在字节开源的代码大模型评估基准FullStack Bench里面,出现了此前字节未披露过的Doubao-Coder。不过目前还只是Preview版,还并没有上线。它在多种编程语言上的性能表现如下,可以看到在闭源模...……更多
多样任务真实数据,大模型在线购物基准Shopping MMLU开源
谁是在线购物领域最强大模型?也有评测基准了。基于真实在线购物数据,电商巨头亚马逊终于“亮剑”——联合香港科技大学、圣母大学构建了一个大规模、多任务评测基准Shopping MMLU,用以评估大语言模型在在线购物领域的...……更多
无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成
在长文本理解能力这块,竟然没有一个大模型及格!北大联合北京通用人工智能研究院提出了一个新基准数据集:LooGLE,专门用于测试和评估大语言模型(LLMs)长上下文理解能力。该数据集既能够评估LLMs对长文本的处理和检索...……更多
更多关于科技的资讯:
新闻纵深|“十四五 ”微记忆③:“丝网二代”的智造突围
阅读提示数智浪潮,奔涌而至。过去五年,人工智能等前沿科技,以不可逆转之势重塑千行百业。在安平,年轻的“丝网二代”逯千里
2025-12-17 08:09:00
国潮服饰消费热度 仍在上升
近期,在多地举行的时装周秀场上,马面裙等国潮服饰一经亮相就成为全场焦点;森马等传统服装品牌于近期宣布将推出国潮系列产品
2025-12-17 07:18:00
12月11日,我国自主研发的高空长航时多用途重型“九天苍穹”无人航空通用平台在陕西圆满完成首飞任务。这款性能位居全球前列的大型通用无人机横空出世
2025-12-17 07:35:00
记者走基层|手机没电没网 也能“硬核”付款
12月9日,雄安新区商务服务中心雄礼记商店内,市民孟令双(左)在手机关机的情况下,通过“碰一碰”完成购物付款。河北日报见习记者 康晓博摄“嘀”一声
2025-12-17 08:03:00
“2025年度十大新词语”16日发布,依次为:苏超、票根经济、杭州六小龙、现代化人民城市、育儿补贴、跨境支付通、对等关税
2025-12-16 14:07:00
中国联通三明分公司全力护航“音综王牌超级LIVE演唱会”通信网络畅通
开展专项通信保障工作东南网12月16日讯(通讯员 肖锦雯)密集的人流举起手机,试图捕捉舞台上的精彩瞬间,一场关于信号流畅度的保障已在观众看不见的地方悄然完成
2025-12-16 14:19:00
在国家大力推进现代化产业体系建设的宏伟蓝图下,科技创新与数字经济已成为驱动高质量发展的“双轮”。中国人寿财险江西省分公司主动融入时代潮流
2025-12-16 14:58:00
京东与国际铂金协会达成战略合作 成为其首个线上零售合作伙伴
近日,京东与国际铂金协会(PGI®)达成战略合作,成为其首个线上零售合作伙伴,双方将共同推动铂金首饰的线上消费体验升级
2025-12-16 15:17:00
服务“2030愿景”:中国AI营销平台王牌狮助推中沙数字经济务实合作
2025年12月11日,王牌狮团队在北京迎来沙特阿拉伯投资考察团,并进行了战略与技术交流。此次沙特投资考察团之行,重点关注以王牌狮AI营销智能体及建筑业垂直大模型阿拉丁ALDGPT为代表的中国数智化解决方案
2025-12-16 15:22:00
【宅男财经|专家面对面】对于近期AI换脸被滥用的问题,工业和信息化部电子科技委主任王江平12月16日接受宅男财经采访时表示
2025-12-16 18:16:00
济南市商务局携手阿里高德推“烟火济南支持计划”: 免商家开店费+精准流量扶持
鲁网12月16日讯12月16日,在高德扫街榜“烟火城市系列发布会·烟火济南”活动现场,济南市商务局、济南市工商联餐饮协会
2025-12-16 20:53:00
【宅男财经|专家面对面】泡泡玛特在国外广受欢迎,针对中国是否还会出现下一个LABUBU,中国广告协会会长、国际广告协会全球副主席张国华在接受宅男财经采访时表示
2025-12-16 21:57:00
雪博会最强指南!6.5折薅遍全球冰雪好物
12月18日至22日,第九届吉林雪博会将在长春东北亚国际博览中心举办,想一站式囤齐冰雪装备、淘遍特色好物?这份购物攻略请收好
2025-12-16 22:24:00
过去,客户经理找客户,靠的是跑园区、混商圈的经验和熟人脉;今天,打开“数智江南”App,就像打开了小微企业导航地图。这小小的转变
2025-12-17 00:05:00
江南时报讯 今年以来,泗阳农商银行坚持以客户为中心,将财富管理作为零售升级的重要方向,着力打造专业、规范、有温度的财富管理服务体系
2025-12-17 00:10:00