模型,基准,攻击,影响,安全,研究头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

国际组织WDTA首次就大模型安全发布国际标准，蚂蚁集团、Op

...，包括《生成式人工智能应用安全测试标准》和《大语言模型安全测试方法》两项国际标准。这是国际组织首次就大模型安全领域发布国际标准，代表全球人工智能安全评估和测试进入新的基准。据了解，这两项国际标准是由Ope...……更多

2024-04-17 13:40:00讯飞,国际,国际组织,国际标准,蚂蚁,模型

冰毒配方脱口而出，过去时态让GPT-4o防线崩塌！成功率从1

【新智元导读】最高端的大模型，往往需要最朴实的语言破解。来自EPFL机构研究人员发现，仅将一句有害请求，改写成过去时态，包括GPT-4o、Llama 3等大模型纷纷沦陷了。将一句话从「现在时」变为「过去时」，就能让LLM成功越...……更多

2024-07-22 09:44:00冰毒,而出,时态,成功率,防线,配方

meta推出ai检测套件，可帮助开发者检测自家AI安全性

...助开发者检测自家AI安全性，并“负责任地部署生成式AI模型与应用程序”。获悉，PurpleLlama套件目前提供“CyberSecEval”评估工具、LlamaGuard“输入输出安全分类器”，Meta声称，之后会有更多的工具加入这一套件。Meta介绍称，Purple...……更多

2023-12-09 11:07:00检测,套件,开发者,安全性,帮助,安全

自动化、可复现，基于大语言模型群体智能的多维评估基准

...BZUAI 等学术机构学者组成的开源组织，致力于发展大语言模型 (LLM)、世界模型 (World Model)、智能体模型 (Agent Model) 的技术以构建 AI 驱动的现实。Maitrix.org 此前成功开发了 Pandora 视频-语言世界模型、LLM Reasoners，以及……更多

2024-10-23 12:03:00多维,基准,群体,模型,自动化,评估

o3 压台登场：OpenAI 卷动推理 AI 模型风云，迈向

...，“12 Days of OpenAI”活动已拉上帷幕，OpenAI 的 o3 系列大模型压台登场，官方称在某些场景下，其推理能力非常接近通用人工智能（AGI）。名称最新的 AI 模型为何跳过 o2，叫做 o3 呢？OpenAI 公司首席执行官山姆・阿尔特曼（Sam Altm...……更多

2024-12-21 09:17:00巅峰,推理,模型,风云,模型,测试

科学家建立新评价基准，助力评估大模型数据分析能力

...术背景人员不可或缺的工具。以 GPT-4 为代表的大型语言模型，它们已经能够理解自然语言查询，并能生成相应的代码或分析，让自动数据分析变得更加接近现实。例如，Devin 的成功，激发了人们对基于大语言模型的自动数据分...……更多

2024-04-07 10:50:00立新,数据分析,基准,科学家,模型,评估

大模型集体失控！南洋理工新型攻击，主流AI无一幸免

... 萧箫发自凹非寺量子位 | 公众号 QbitAI业界最领先的大模型们，竟然集体“越狱”了！不止是GPT-4，就连平时不咋出错的Bard、Bing Chat也全线失控，有的要黑掉网站，有的甚至扬言要设计恶意软件入侵银行系统：这并非危言耸听...……更多

2023-11-08 09:09:00南洋,无一,理工,模型,集体,主流

Pika爆火，但AI视频还没到「GPT时刻」；首个GPT-4

...PT时刻」》AI视频背后有两条技术路线，一条基于Transformer模型，另一条基于扩散模型（Diffusion model）。尽管AI视频技术取得进展，但还未达到真正的GPT时刻，即AI视频融入视频生产工作流并满足广泛需求的阶段。目前AI视频领域的...……更多

2023-12-14 09:34:00模型,微软,人形,早报,机器人,机器

NeurIPS 2024最佳论文开奖！北大字节NUS夺冠，I

...为25.8%。从研究内容主题的整体分布来看，主要集中在大模型、文生图/文生视频、强化学习、优化这四大块。再细分来看，机器视觉、自然语言处理、强化学习、学习理论、基于扩散的模型是最热的5个话题。共计165000名参会者...……更多

2024-12-12 09:41:00字节,获奖,北大,论文,清单,论文

OpenAI重拾规则系统，用「AI版机器人定律」守护大模型安

在大算力和大数据让基于统计的 AI 模型真正变得强大且有用之前，基于规则的系统长期以来是语言模型的主导范式。顾名思义，基于规则的系统就是依赖人类编码的规则来执行决策。这种方式构建的 AI 虽然简单，但在某些特定...……更多

2024-11-07 09:54:00定律,机器人,模型,规则,机器,安全

史上最严中文真实性评估：OpenAI o1第1豆包第2，其它

新的大语言模型（LLM）评估基准对于跟上大语言模型的快速发展至关重要。近日，淘宝天猫集团的研究者们提出了中文简短问答（Chinese SimpleQA），这是首个全面的中文基准，具有“中文、多样性、高质量、静态、易于评估”五...……更多

2024-11-22 09:51:00豆包,中文,真实性,评估,模型,中文

全球首个！西电“玄知”密码大模型问世！

...科技大学计算机科学与技术学院沈玉龙教授团队在密码大模型方面取得突破性进展，研究成果以“玄知大模型”命名在西部网络安全大会上正式发布。2025年8月15日，第四届西部网络安全大会在陕西周至隆重召开。西电计算机科...……更多

2025-08-20 09:45:00西电,模型,密码,全球,密码学,密码

量化能让大模型“恢复记忆”，删掉的隐私版权内容全回来了

...4-bit量化，能让现有反学习/机器遗忘技术失灵！也就是大模型在人类要求下“假装”忘记了特定知识（版权、私人内容等），但有手段能让它重新“回忆”起来。最近，来自宾夕法尼亚州立大学、哈佛大学、亚马逊团队的一项新...……更多

2024-11-18 13:33:00模型,隐私,版权,记忆,内容,模型

OpenAI直播最后一天放出“王炸”：下一代推理模型o3亮相

...享直播活动的最后一天！周五，OpenAI发布了下一代的推理模型o3，这是今年早些时候发布的o1推理模型的升级版本。更准确地说，o3是一个模型系列——就像o1一样，同时有o3和o3-mini两个版本，后者是一款更小的精简版模型，针对...……更多

2024-12-21 17:02:00下一代,推理,模型,直播,模型,推理

文本图格式大一统！首个大规模文本边基准TEG-DB发布 |

...步发展；2. 文本图数据格式和实验设置不统一，难以进行模型之间的比较；3. 由于缺乏全面的基准测试和分析，对图模型处理边文本信息能力仍然了解的很欠缺。论文地址：https://arxiv.org/abs/2406.10310代码地址：https://github.com/Zhuofe...……更多

2024-11-09 13:34:00大规,本图,基准,大规模,文本,格式

商汤商量获SuperCLUE 9月评测总榜和子榜两项第一，A

...和子榜两项第一，AI智能体方向受瞩目近日，中文通用大模型综合性评测基准SuperCLUE发布9月总排行榜和各个分类任务榜单，商汤商量SenseChat 3.0 位列中文大模型总榜排名第一。在新增的AI Agent（AI智能体）子榜中，SenseChat 3.0 同样...……更多

2023-10-13 14:26:00商汤,评测,方向,智能,模型,商汤

科研也完了，AI暴虐170位人类专家！Nature子刊：大模

【新智元导读】知识密集型工作也败了！大型语言模型在预测神经科学结果方面超越了人类专家，平均准确率达到81%，而人类专家仅为63%；模型通过整合大量文献数据，展现出了惊人的前瞻性预测能力，预示着未来科研工作中...……更多

2024-12-09 09:50:00暴虐,准确率,模型,高达,完了,科研

Mamba作者新作：将Llama3蒸馏成混合线性 RNN

...功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分，实现了更好的上下文理解。然而，注意力机制的缺点是计算开销大，会随输入规模而二次增长，Transformer 也因此难以处理非常长的文本。...……更多

2024-09-03 09:59:00线性,新作,混合,作者,模型,线性

AI科学家太多，谁靠谱一试便知！普林斯顿新基准CORE-Be

...简单任务的准确率可以达到60%，最难任务准确率仅有21%大模型的能力越来越强，用户在一些重要的任务中也可以依赖大模型，比如说辅助做科研。不过现有科研辅助相关的基准测试都太简单，跟现实世界的任务差距还是比较大的...……更多

2024-09-26 13:38:00普林,普林斯顿,斯顿,准确率,基准,科学家

谷歌推出其最先进AI模型Gemini，希望击败GPT-4

...谷歌公司宣布推出其规模最大、功能最强大的新大型语言模型Gemini，其最强大的TPU（张量处理单元）系统“Cloud TPU v5p”以及来自谷歌云的人工智能超级计算机。v5p是今年早些时候全面推出的Cloud TPU v5e的更新版本，谷歌承诺其速...……更多

2023-12-07 10:21:00最先,模型,比斯,模型,哈萨,人工智能

又慢又贵？OpenAI推理模型“草莓”来了，GPT-5还有多

...12日，人工智能（AI）巨头OpenAI发布代号“草莓”的AI推理模型OpenAI o1系列，包括OpenAI o1-preview以及小版本的o1-mini。据OpenAI介绍， o1会花更多时间思考问题，然后再做出反应，就像人一样。通过训练学会了完善自己的思考过程，尝...……更多

2024-09-13 15:28:00多远,推理,草莓,模型,模型,思维

世界首次！智源研究院实现数字孪生心脏电功能超实时仿真

...关重要。传统的心脏电生理研究多依赖于实验室内的动物模型和临床数据，但这类方法往往受限于伦理问题、实验条件和数据获取的复杂性。随着计算技术的发展，计算机仿真成为了一种新兴且强大的研究工具。通过建立数学模...……更多

2024-11-29 09:27:00仿真,研究院,实时,心脏,功能,数字

2025 VDC安全与隐私分会：技术持续创新，夯实安全地基

...障碍类、后台弹广告类，风险应用识别等五类场景。检测模型自上线以来，已覆盖用户设备超1亿，日均检出超4万，累计识别恶意应用变种超470万次，识别能力提升到90%以上的同时，未发生过一例误报。vivo应用安全总监钱钰针...……更多

2025-10-13 11:04:00安全,地基,分会,隐私,技术,安全

迎战GPT-4V！谷歌PaLI-3视觉语言模型问世，更小、更

...况，这一举动引起了业界的广泛关注。然而，在视觉语言模型的角逐中，谷歌也不甘示弱。近日，Google Research、Google DeepMind 和 Google Cloud 共同推出了一个更小、更快、更强大的视觉语言模型（VLM）——PaLI-3，该模型与相似的体...……更多

2023-10-17 16:31:00更快,模型,视觉,语言,训练,模型

鬼手操控着你的手机？大模型GUI智能体易遭受环境劫持

...系四年级博士生，研究方向为自主智能体，推理，以及大模型的可解释性和知识编辑。该工作由上海交通大学与 Meta 共同完成。论文题目：Caution for the Environment: Multimodal Agents are Susceptible to Environmental Di……更多

2024-09-03 09:59:00模型,环境,智能,手机,环境,干扰