• 我的订阅
  • 头条热搜
全球AI安全评估测试有了新基准
...域两项国际标准发布全球AI安全评估测试有了新基准随着人工智能系统,特别是大语言模型成为社会各方面不可或缺的一部分,以一个全面的标准来解决它们的安全挑战变得至关重要。◎本报记者 崔 爽第27届联合国科技大会期间...……更多
中国信通院发布大模型安全基准测试报告 360智脑综合排名第一
...安全基准测试AI Safety Bench是中国信息通信研究院依托中国人工智能产业发展联盟(AIIA)安全治理委员会,联合17家单位发起的,秉持公平公正、产业应用和场景导向的原则,目标建立业内权威大模型安全中文基准测试体系。以提高...……更多
2023 AI现状报告:GPT-4仍最强,监管方向缺乏全球共识
·随着尖端人工智能系统变得更加强大和灵活,比较它们的能力越来越困难。由于基准变得不那么明确,用于评估大语言模型的“基于氛围”的方法在业界越来越普遍。·人工智能安全在2023年首次占据舞台中心。但人工智能界内...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...或者联系报道。本文的主要作者来自上海交通大学和上海人工智能实验室智慧医疗联合团队,共同第一作者为上海交通大学博士生邱芃铖和吴超逸,共同通讯作者为上海交通大学人工智能学院王延峰教授和谢伟迪副教授,这是该...……更多
安全强化学习方法、理论与应用综述,慕工大、同济等深度解析
...授、慕尼黑工业大学 Florian Walter 和 Alois Knoll 教授。随着人工智能(AI)的飞速发展,强化学习(Reinforcement Learning,RL)在诸多复杂决策任务中取得了显著的成功。我们在自动驾驶、机器人控制和推荐系统等实际应用中,越来越...……更多
国际组织WDTA首次就大模型安全发布国际标准,蚂蚁集团、OpenAI、科大讯飞等参编
...技术院(WDTA)发布了一系列突破性成果,包括《生成式人工智能应用安全测试标准》和《大语言模型安全测试方法》两项国际标准。这是国际组织首次就大模型安全领域发布国际标准,代表全球人工智能安全评估和测试进入新...……更多
本文转自:法治日报随着人工智能技术的迅猛发展,大模型在各个领域的应用日益广泛。为全力筑牢人工智能安全防线,进一步提高大模型技术的安全风险防范能力,今年2月,中国信息通信研究院(以下简称中国信通院)联合3...……更多
自动化、可复现,基于大语言模型群体智能的多维评估基准
...)也越来越强。因此,在多样的应用场景中对其进行性能基准测试已成为了一项重大挑战。目前最受欢迎的基准测试是 Chatbot Arena,它通过收集用户对模型输出的偏好来对 LLM 进行综合排名。然而,随着 LLM 逐渐落地于众多应用场...……更多
开闭源模型「大乱斗」:看看哪个智能体最能窥见人类真实意图
...通讯作者为从鑫与林衍凯,指导教师为刘知远副教授。在人工智能迅猛发展的今天,我们不断探索着机器的智能化,但却往往忽视了这些智能体如何深层地理解我们 —— 它们的创造者。我们人类在生活中的每一次互动,每一句...……更多
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
...但对于复杂的推理任务来说,这是一个重大进步,代表了人工智能能力的新水平。鉴于此,OpenAI 将计数器重置为 1,并将该系列模型命名为 OpenAI o1。重点在于,OpenAI 的大规模强化学习算法,教会模型如何在数据高度有效的训练...……更多
OpenAI新功能 “深度研究” 登场,人类终极考试的表现超过DeepSeek R1
....4%。这一测试由全球众多领域专家共同开发,目的是评估人工智能在广泛学科领域的表现,被视为衡量人工智能学术能力的前沿基准。该测试包含超过3000道多项选择题和简答题,涵盖从语言学到火箭科学、从古典学到生态学等10...……更多
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...zhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com具身智能是实现通用人工智能的必经之路,其核心是通过智能体与数字空间和物理世界的交互来完成复杂任务。近年来,多模态大模型和机器人技术得到了长足发展,具身智能成为全球科技和...……更多
openai发布多语言大规模多任务语言理解
...从而弥补了这一差距。MMMLU数据集意义MMMLU的发布解决了人工智能界的几个相关挑战。它提供了一种更具多样性和文化包容性的方法来评估模型,确保它们在高资源和低资源语言中都能表现出色。MMMLU的多任务特性突破了现有基准...……更多
OpenAI直播最后一天放出“王炸”:下一代推理模型o3亮相
...至少在某些条件下,o3模型可以接近实现AGI。AGI是“通用人工智能”(artificial general intelligence)的缩写,泛指能完成人类所能完成的任何任务的人工智能。OpenAI对此有着自己的定义:“在最具经济价值的工作上胜过人类的高度自主...……更多
o3 压台登场:OpenAI 卷动推理 AI 模型风云,迈向 AGI 新巅峰
...台登场,官方称在某些场景下,其推理能力非常接近通用人工智能(AGI)。名称最新的 AI 模型为何跳过 o2,叫做 o3 呢?OpenAI 公司首席执行官山姆・阿尔特曼(Sam Altman)在今天早上的直播活动,表示是为了规避和英国电信运营...……更多
从“智能涌现”到“超人类”,通往AGI巅峰的终极设想
...世界会多么接近他的科幻梦想。如今,我们生活在一个由人工智能(Artificial Intelligence, AI)渗透的世界里。AI系统在许多方面已超越阿西莫夫的想象——在家里,私人AI助手不仅可以帮你安排日程,还能根据你的心情推荐娱乐节...……更多
田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,成本暴跌97%
...论文地址:https://arxiv.org/abs/2410.10934v1研究人员提出了DevAI基准,为全新框架提供概念验证测试平台。包含55个真实的AI开发任务,带有详细的手动注释。通过对三个领先的智能体系统进行基准测试,发现它大大优于「LLM-as-a-Judge」...……更多
什么影响大模型安全?NeurIPS\\\'24新研究提出大模型越狱攻击新基准
...狱评估这一核心问题。越狱分析JailTrackBench近年来,随着人工智能的迅速发展,尤其是大语言模型(LLMs)的广泛应用,保障模型的安全性并防止其被恶意利用,已成为一个重要的议题。越狱攻击通过恶意指令诱导模型生成有害或...……更多
马斯克官宣Grok-2测试版!xAI将继续拥抱开源路线吗?
...颗重磅炸弹。当地时间8月11日晚,马斯克在X平台上透露人工智能模型Grok-2测试版将在不久后发布。事实上,马斯克在7月份就在X平台上确认,Grok-2将于8月发布,在回应用户关于训练数据的提问时,他表示该模型将在这方面做出...……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...衔的基础理论创新团队发起。长期以来,团队着眼于目前人工智能发展的瓶颈问题,探索原创性人工智能理论和关键技术,在智能算法的对抗安全理论和方法研究中处于国际领先水平,深入研究深度学习的对抗鲁棒性和数据利用...……更多
杭州日报讯 在科技的浪潮中,大模型人工智能(AI)的崛起,如同打开了潘多拉魔盒,释放出无限可能的同时,也带来了前所未有的挑战。从OpenAI的GPT系列到谷歌的BERT,再到国内的百度文心一言、阿里巴巴通义千问、腾讯混元...……更多
超级推理模型正面对垒:谷歌版o1发布次日,OpenAI o1下一代o3登场
来源:硬AI圣诞节前,人工智能巨头上演了一场精彩的推理模型攻防战。谷歌和OpenAI正面对垒,谷歌刚发布自家的先进推理模型挑战OpenAI的o1,第二天,OpenAI就推出了升级版的最强推理模型o3。美东时间12月20日周五,在为期12个...……更多
无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成
...能力这块,竟然没有一个大模型及格!北大联合北京通用人工智能研究院提出了一个新基准数据集:LooGLE,专门用于测试和评估大语言模型(LLMs)长上下文理解能力。该数据集既能够评估LLMs对长文本的处理和检索能力,又可以...……更多
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...MMMU)基准测试是一个综合性的数据集,能够评估多模态人工智能模型在需要特定学科知识和深思熟虑推理的大学水平任务上的表现。MMMU由来自大学考试、测验和教科书的1.15万个精心策划的多模态问题组成,涵盖了六个核心学科...……更多
5分钟完成最强超算10^25年工作,谷歌量子芯片重大突破,马斯克祝贺
...够解决未来问题的算法。当被问及「为什么离开了新兴的人工智能领域,转而专注于量子计算」时,Hartmut Neven 表示,两者都将被证明是这个时代最具变革性的技术,但先进的人工智能将从量子计算的接入中显著受益。这就是 Qua...……更多
开源大模型新的里程碑!Llama 3.1 模型准时发布
...源:网络斯坦福大学计算机科学系和电子工程系副教授、人工智能实验室主任吴恩达(AndrewNg)在社交媒体上称赞\"Meta和Llama团队对开源的巨大贡献\"。他表示:\"Llama3.1增加了上下文长度和改进了功能,是送给每个人的奇妙礼物...……更多
李彦宏称开源赶不上闭源?Meta发布最强开源模型,马斯克评价“还不错”
...不是与开源模型竞争,而是要超过所有人,打造最领先的人工智能。他提到,今年晚些时候发布的Llama 3-400B将在许多基准测试中领先,并已经在考虑Llama 4和5。英伟达高级科学家Jim Fan认为,Llama 3-400B以上的版本其将成为某种“分...……更多
神仙打架!谷歌新款大模型Gemini 和GPT-4谁能笑到最后?丨科技观察
封面新闻记者 马晓玉 边雪2022年底的人工智能的热潮是OpenAI的ChatGPT带来的,而2023年底,谷歌带着它的Gemini高调杀回人工智能圈。美国时间12月6日早间,谷歌发布了外界期待许久的大语言模型Gemini,在发布会现场,谷歌将Gemini的...……更多
...称《规范》)发布,旨在面向大数据、虚拟化、数据库、人工智能等不同计算场景评估系统性能,帮助客户从应用出发找到适合的算力支撑平台。据悉,与传统评测更看重CPU基础性能不同,《规范》是一款面向实际应用场景的评...……更多
关于LLM-as-a-judge范式,终于有综述讲明白了
摘要:评估和评价长期以来一直是人工智能 (AI) 和自然语言处理 (NLP) 中的关键挑战。然而,传统方法,无论是基于匹配还是基于词嵌入,往往无法判断精妙的属性并提供令人满意的结果。大型语言模型 (LLM) 的最新进展启发了 ...……更多
更多关于科技的资讯:
苹果史诗级大升级!iPhone 17系列关键信息汇总
2025年刚刚开始,今年旗舰手机的爆料消息就已经满天飞,其中最受关注的就是全新的iPhone 17系列了,毕竟近三代的苹果手机改变实在是太小
2025-02-10 07:46:00
三头六臂殷郊法相特效被吐槽 《封神第二部》辟谣找外包公司4500元制作
快科技2月10日消息,《封神第二部:战火西岐》上映后,网友吐槽最多的就是影片特效,槽点最密集的就是殷郊法相,三头六臂蓝色身体的殷郊
2025-02-10 07:46:00
“9”字辈家族再添新成员!深蓝S09首发亮相:超5米豪华6座SUV
快科技2月10日消息,2月9日,深蓝汽车全新中大型豪华SUV——深蓝S09正式发布,这是继该车型在2025年央视春晚亮相后的首次正式发布
2025-02-10 07:47:00
15.19万元起!深蓝S07/L07新增车型上市:搭载华为乾崑智驾
快科技2月10日消息,深蓝汽车宣布深蓝S07深蓝智驾AD PRO版和深蓝S07华为乾崑智驾ADS SE版正式上市。共推出7款车型
2025-02-10 07:47:00
南京数字货运平台企业做法入选“全国典型案例”——全社会物流成本,这样降下来□南京日报/紫金山新闻记者张甜甜周容璇中国物流与采购联合会日前公布首批有效降低全社会物流成本22个典型案例和38个优秀案例
2025-02-10 07:59:00
新春走基层 | 看超强“大脑”算向全国
本文转自:人民网-贵州频道人民网记者 高华“哪吒炼成肉身前,千万个碎片汇集在一起,那画面太震撼了!”“申公豹纵身一跃开启战斗时
2025-02-10 08:11:00
为什么抢购它?2025性价比超高的2款智能手表,用户高度推荐
随着科技的迅猛发展,智能手表已经成为现代生活中不可或缺的伴侣。它们不仅可以显示时间,更是健康监测、通讯、娱乐和生活助手的多功能设备
2025-02-10 10:53:00
小孩哥拿儿童手表认真拍摄小米SU7 Ultra 网友:小米潜在客户已经排到20年后了
快科技2月10日消息,有博主在小米体验店内看到,一名小孩哥透过围栏,用儿童手表认真拍摄小米SU7 Ultra漂亮的碳纤维尾翼
2025-02-10 08:17:00
中国监控摄像头2024年销量超5300万套 小米夺双第一
快科技2月10日消息,今日,研究机构洛图科技发布最新数据显示,2024年,中国监控摄像头消费级市场销量为5349万套,同比微增0
2025-02-10 08:17:00
40多万新车方程豹豹8被小孩引燃 车主又订了一辆:我就喜欢这车
快科技2月10日消息,近日,山东菏泽一网友发视频称,自己刚买不到一个月的新车,被一小孩放烟花引燃。按照这位车主的说法,自己刚买车不要一个月
2025-02-10 08:17:00
“你相信光吗?”随着近些年奥特曼IP风靡海内外,这个网络热梗同时众所周知。相信光的力量究竟有多大?春节假期前,一家成立于2014年的拼搭角色类玩具企业登陆港交所
2025-02-10 08:18:00
大模型赋能迁安钢铁“智变”全市精品钢材比重提高至45%河北日报讯(记者师源、汤润清)电脑“加料”,工人们从“炉前炼钢”变为“一键炼钢”
2025-02-10 08:43:00
刚上市就翻车 黑屏、变砖后!用户称RTX 5090运行中有烧焦味 英伟达虚惊一场
快科技2月10日消息,这RTX 5090才上市没多久,问题已经多到令人无语,什么黑屏、变砖、系统无法识别等....据外媒Tom's Hardware报道称
2025-02-10 09:17:00
男子微信用40万转账表情包套走8000元:官方呼吁警惕任何转账交易
2月10日消息,据国内媒体报道称,近日河南开封发生了一起诈骗案件,受害者牛女士在自家店内遭遇了一男一女两名嫌疑人的诈骗行为
2025-02-10 09:17:00
距全球影史票房榜1还差百亿!《哪吒2》北美区一票难求:海外博主看后强烈推荐
快科技2月10日消息,中国文化开始输出海外,并且越来越受老外的认可。《哪吒2》即将在海外上映,目前北美区真的一票难求(纽约
2025-02-10 09:17:00