基准,评估,测试,安全,全球,人工智能头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

全球AI安全评估测试有了新基准

...域两项国际标准发布全球AI安全评估测试有了新基准随着人工智能系统，特别是大语言模型成为社会各方面不可或缺的一部分，以一个全面的标准来解决它们的安全挑战变得至关重要。◎本报记者崔爽第27届联合国科技大会期间...……更多

2024-04-25 04:00:00基准,评估,测试,安全,全球,人工智能

中国信通院发布大模型安全基准测试报告 360智脑综合排名第一

...安全基准测试AI Safety Bench是中国信息通信研究院依托中国人工智能产业发展联盟(AIIA)安全治理委员会，联合17家单位发起的，秉持公平公正、产业应用和场景导向的原则，目标建立业内权威大模型安全中文基准测试体系。以提高...……更多

2024-04-10 20:16:00信通,基准,中国,模型,测试,报告

2023 AI现状报告：GPT-4仍最强，监管方向缺乏全球共

·随着尖端人工智能系统变得更加强大和灵活，比较它们的能力越来越困难。由于基准变得不那么明确，用于评估大语言模型的“基于氛围”的方法在业界越来越普遍。·人工智能安全在2023年首次占据舞台中心。但人工智能界内...……更多

2023-10-12 15:21:00共识,监管,现状,方向,报告,全球

迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测

...或者联系报道。本文的主要作者来自上海交通大学和上海人工智能实验室智慧医疗联合团队，共同第一作者为上海交通大学博士生邱芃铖和吴超逸，共同通讯作者为上海交通大学人工智能学院王延峰教授和谢伟迪副教授，这是该...……更多

2024-09-30 09:51:00多语,大规,模型,语料,基准,大规模

国际组织WDTA首次就大模型安全发布国际标准，蚂蚁集团、Op

...技术院（WDTA）发布了一系列突破性成果，包括《生成式人工智能应用安全测试标准》和《大语言模型安全测试方法》两项国际标准。这是国际组织首次就大模型安全领域发布国际标准，代表全球人工智能安全评估和测试进入新...……更多

2024-04-17 13:40:00讯飞,国际,国际组织,国际标准,蚂蚁,模型

安全强化学习方法、理论与应用综述，慕工大、同济等深度解析

...授、慕尼黑工业大学 Florian Walter 和 Alois Knoll 教授。随着人工智能（AI）的飞速发展，强化学习（Reinforcement Learning，RL）在诸多复杂决策任务中取得了显著的成功。我们在自动驾驶、机器人控制和推荐系统等实际应用中，越来越...……更多

2024-10-09 09:51:00同济,学习方法,深度,理论,方法,应用

360集团携手中国信通院共促人工智能安全发展

本文转自：法治日报随着人工智能技术的迅猛发展，大模型在各个领域的应用日益广泛。为全力筑牢人工智能安全防线，进一步提高大模型技术的安全风险防范能力，今年2月，中国信息通信研究院（以下简称中国信通院）联合3...……更多

2024-04-09 01:58:00信通,人工智能,中国,人工,智能,集团

自动化、可复现，基于大语言模型群体智能的多维评估基准

...）也越来越强。因此，在多样的应用场景中对其进行性能基准测试已成为了一项重大挑战。目前最受欢迎的基准测试是 Chatbot Arena，它通过收集用户对模型输出的偏好来对 LLM 进行综合排名。然而，随着 LLM 逐渐落地于众多应用场...……更多

2024-10-23 12:03:00多维,基准,群体,模型,自动化,评估

开闭源模型「大乱斗」：看看哪个智能体最能窥见人类真实意图

...通讯作者为从鑫与林衍凯，指导教师为刘知远副教授。在人工智能迅猛发展的今天，我们不断探索着机器的智能化，但却往往忽视了这些智能体如何深层地理解我们 —— 它们的创造者。我们人类在生活中的每一次互动，每一句...……更多

2024-08-14 09:39:00意图,模型,人类,智能,智能,任务

刚刚，OpenAI震撼发布o1大模型！强化学习突破LLM推理

...但对于复杂的推理任务来说，这是一个重大进步，代表了人工智能能力的新水平。鉴于此，OpenAI 将计数器重置为 1，并将该系列模型命名为 OpenAI o1。重点在于，OpenAI 的大规模强化学习算法，教会模型如何在数据高度有效的训练...……更多

2024-09-13 16:42:00推理,模型,极限,突破,学习,模型

全球首篇！调研近400篇文献，鹏城实验室&中大深度解析具身智

...zhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com具身智能是实现通用人工智能的必经之路，其核心是通过智能体与数字空间和物理世界的交互来完成复杂任务。近年来，多模态大模型和机器人技术得到了长足发展，具身智能成为全球科技和...……更多

2024-07-29 09:39:00中大,文献,调研,深度,实验室,实验

openai发布多语言大规模多任务语言理解

...从而弥补了这一差距。MMMLU数据集意义MMMLU的发布解决了人工智能界的几个相关挑战。它提供了一种更具多样性和文化包容性的方法来评估模型，确保它们在高资源和低资源语言中都能表现出色。MMMLU的多任务特性突破了现有基准...……更多

2024-09-24 22:07:00多语,大规,大规模,任务,语言,语言

从“智能涌现”到“超人类”，通往AGI巅峰的终极设想

...世界会多么接近他的科幻梦想。如今，我们生活在一个由人工智能（Artificial Intelligence， AI）渗透的世界里。AI系统在许多方面已超越阿西莫夫的想象——在家里，私人AI助手不仅可以帮你安排日程，还能根据你的心情推荐娱乐节...……更多

2023-12-01 09:21:00巅峰,终极,人类,智能,人类,系统

田渊栋团队新作祭出Agent-as-a-Judge！AI智能

...论文地址：https://arxiv.org/abs/2410.10934v1研究人员提出了DevAI基准，为全新框架提供概念验证测试平台。包含55个真实的AI开发任务，带有详细的手动注释。通过对三个领先的智能体系统进行基准测试，发现它大大优于「LLM-as-a-Judge」...……更多

2024-10-28 09:52:00审判,新作,团队,成本,智能,评估

$什么影响大模型安全？NeurIPS\\\'24新研究提出大模型越狱攻击新基准$

什么影响大模型安全？NeurIPS\'24新研究提出大模型越

...狱评估这一核心问题。越狱分析JailTrackBench近年来，随着人工智能的迅速发展，尤其是大语言模型（LLMs）的广泛应用，保障模型的安全性并防止其被恶意利用，已成为一个重要的议题。越狱攻击通过恶意指令诱导模型生成有害或...……更多

2024-11-01 09:29:00模型,基准,攻击,影响,安全,研究

马斯克官宣Grok-2测试版！xAI将继续拥抱开源路线吗？

...颗重磅炸弹。当地时间8月11日晚，马斯克在X平台上透露人工智能模型Grok-2测试版将在不久后发布。事实上，马斯克在7月份就在X平台上确认，Grok-2将于8月发布，在回应用户关于训练数据的提问时，他表示该模型将在这方面做出...……更多

2024-08-13 09:50:00马斯,马斯克,测试版,路线,测试,模型

清华领衔发布多模态评估MultiTrust：GPT-4可信度

...衔的基础理论创新团队发起。长期以来，团队着眼于目前人工智能发展的瓶颈问题，探索原创性人工智能理论和关键技术，在智能算法的对抗安全理论和方法研究中处于国际领先水平，深入研究深度学习的对抗鲁棒性和数据利用...……更多

2024-07-25 09:31:00模态,清华,可信度,领衔,可信,几何

潘多拉“模”盒的正确打开方式

杭州日报讯在科技的浪潮中，大模型人工智能（AI）的崛起，如同打开了潘多拉魔盒，释放出无限可能的同时，也带来了前所未有的挑战。从OpenAI的GPT系列到谷歌的BERT，再到国内的百度文心一言、阿里巴巴通义千问、腾讯混元...……更多

2024-04-24 06:31:00潘多拉,潘多,方式,模型,安全,发展

无一大模型及格！北大/通研院提出超难基准，评估长文本理解生

...能力这块，竟然没有一个大模型及格！北大联合北京通用人工智能研究院提出了一个新基准数据集：LooGLE，专门用于测试和评估大语言模型（LLMs）长上下文理解能力。该数据集既能够评估LLMs对长文本的处理和检索能力，又可以...……更多

2024-08-08 09:39:00基准,北大,生成,模型,文本,评估

MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤

...MMMU）基准测试是一个综合性的数据集，能够评估多模态人工智能模型在需要特定学科知识和深思熟虑推理的大学水平任务上的表现。MMMU由来自大学考试、测验和教科书的1.15万个精心策划的多模态问题组成，涵盖了六个核心学科...……更多

2024-09-18 13:31:00模态,史诗,基准,难度,问答,文本

5分钟完成最强超算10^25年工作,谷歌量子芯片重大突破,马

...够解决未来问题的算法。当被问及「为什么离开了新兴的人工智能领域，转而专注于量子计算」时，Hartmut Neven 表示，两者都将被证明是这个时代最具变革性的技术，但先进的人工智能将从量子计算的接入中显著受益。这就是 Qua...……更多

2024-12-11 09:53:00马斯,马斯克,量子,芯片,突破,工作

开源大模型新的里程碑！Llama 3.1 模型准时发布

...源：网络斯坦福大学计算机科学系和电子工程系副教授、人工智能实验室主任吴恩达（AndrewNg）在社交媒体上称赞\"Meta和Llama团队对开源的巨大贡献\"。他表示：\"Llama3.1增加了上下文长度和改进了功能，是送给每个人的奇妙礼物...……更多

2024-07-24 12:13:00模型,里程,里程碑,准时,模型,伯格

李彦宏称开源赶不上闭源？Meta发布最强开源模型，马斯克评价

...不是与开源模型竞争，而是要超过所有人，打造最领先的人工智能。他提到，今年晚些时候发布的Llama 3-400B将在许多基准测试中领先，并已经在考虑Llama 4和5。英伟达高级科学家Jim Fan认为，Llama 3-400B以上的版本其将成为某种“分...……更多

2024-04-20 11:00:00马斯,马斯克,李彦,模型,评价,模型

神仙打架！谷歌新款大模型Gemini 和GPT-4谁能笑到最

封面新闻记者马晓玉边雪2022年底的人工智能的热潮是OpenAI的ChatGPT带来的，而2023年底，谷歌带着它的Gemini高调杀回人工智能圈。美国时间12月6日早间，谷歌发布了外界期待许久的大语言模型Gemini，在发布会现场，谷歌将Gemini的...……更多

2023-12-07 16:15:00神仙,模型,观察,科技,模型,任务

面向实际应用评估系统性能《服务器算力算效评价规范》立项

...称《规范》）发布，旨在面向大数据、虚拟化、数据库、人工智能等不同计算场景评估系统性能，帮助客户从应用出发找到适合的算力支撑平台。据悉，与传统评测更看重CPU基础性能不同，《规范》是一款面向实际应用场景的评...……更多

2024-11-23 14:03:00实际,评估,性能,评价,服务器,应用

关于LLM-as-a-judge范式，终于有综述讲明白了

摘要：评估和评价长期以来一直是人工智能 (AI) 和自然语言处理 (NLP) 中的关键挑战。然而，传统方法，无论是基于匹配还是基于词嵌入，往往无法判断精妙的属性并提供令人满意的结果。大型语言模型 (LLM) 的最新进展启发了 ...……更多

2024-12-04 09:49:00范式,模型,基准,偏见,数据,评估

这才是真开源模型！公开后训练一切，性能超越Llama 3.1

开源模型阵营又迎来一员猛将：Tülu 3。它来自艾伦人工智能研究所（Ai2），目前包含 8B 和 70B 两个版本（未来还会有 405B 版本），并且其性能超过了 Llama 3.1 Instruct 的相应版本！长达 73 的技术报告详细介绍了后训练的细节。在...……更多

2024-11-26 09:44:00模型,性能,训练,模型,训练,数据

AMD大胜！全球超算新霸主出炉！美国军方用于模拟核爆及弹道导

...种新的洲际弹道导弹设计，并服务于高性能计算（HPC）和人工智能（AI）工作负载，或两者的融合。El Capitan的理论峰值（Rpeak）性能达到2.746百亿亿次浮点运算。然而，这一数字是在所有系统组件均以峰值速度运行且性能线性扩...……更多

2024-11-20 13:36:00核爆,弹道导弹,弹道,美国,军方,霸主

传openai全球招外包大军手把手训练chatgpt取代码农

...」工作——创建大量的图像、音频片段等信息，用来训练人工智能工具或自动驾驶汽车。另外的40%则是实打实的程序员，他们正在为OpenAI的模型「手搓」数据，从而让AI学习软件工程任务。此前，OpenAI一直是用从GitHub上抓取的...……更多

2023-01-30 17:19:00手把,大军,训练,代码,全球,代码

刚刚，谷歌宣布35岁Keras之父Francois Chol

...让很多人略微震惊。「今天，我们宣布 Keras 的创始人、人工智能领域的领军人物 Francois Chollet 将离开 Google，开始他职业生涯的新篇章。虽然我们对他的离去感到悲伤，但我们为他的巨大贡献感到无比自豪，并很高兴看到他的下...……更多

2024-11-15 09:53:00人工智能,人工,智能,任务,基准,开发

page 1/3334 首页上一页 12 3 4 5 6 下一页末页

更多关于科技的资讯：

决战四季度夺取全年胜丨从研发到商用浙江 “全链路”抢占机

刚刚闭幕的中央经济工作会议把“开展新技术新产品新场景大规模应用示范行动”作为2025年九大重点任务之一。瞄准机器人产业新赛道

2024-12-16 16:32:00

全球布局、绿色制造、价值共享：海信家电展现新质发展成果

12月8日，在上海证券报联合江苏省南通市人民政府共同举办的“南通科技金融与产业创新大会暨第六届上证最佳分析师评选颁奖仪式”上

2024-12-16 16:33:00

付费选座还须航空服务精细透明

乘客购买机票后，倾向于选择经济舱前排、紧急出口处座位以及部分过道或靠窗的座位，但实践中，这些“好座位”有时却被一些航空公司大量“锁座”而无法免费选择

2024-12-16 16:38:00

嘉里物流联网荣获《信报财经新闻》“上市公司卓越大奖”及IR

嘉里物流联网有限公司(“KLN”;股份代号0636.HK)过去一年在业务营运及投资者关系上均取得了杰出的表现,近日更荣获2024年《信报财经新闻》主板组别“上市公司卓越大奖”(“信报大奖”)

2024-12-16 16:39:00

银行搭台科企唱戏浦发北分做实做细科技金融“大文章”

近日,浦发银行因在2024年中国国际服务服贸交易会(以下简称“服贸会”)上的精彩表现,荣获服贸会“线下优秀展位”与金融服务专题展“最具人气奖”两项重量级奖项

2024-12-16 16:42:00

小鹏MONA M03上市三月交付破万：交付周期现已提前6周

快科技12月16日消息，何小鹏近日在视频中宣布，小鹏M03自上市以来连续三个月交付量破万，累计交付已达40,000台，且每周稳定交付约4000台

2024-12-16 16:49:00

央视曝光假借机票退改签诈骗套路：说退300元结果被骗20万

快科技12月16日消息，据央视新闻报道，广东汕头警方近日公布一起案件，提醒大家如果航班延误或取消，有自称民航局“工作人员”主动打来电话办理退改签手续

2024-12-16 16:49:00

东哥给力！又一位京东小哥退休：每月养老金4392元 15年挣

快科技12月16日消息，国内快递小哥退休后每月养老金有多少，这引起了网友的围观。近日，宿迁刘从江大爷的第一笔退休工资到账了

2024-12-16 16:49:00

微信大力治理“仿冒”账号：12万个账号被驳回、处理

快科技12月16日消息，微信宣布，公众平台对仿冒官方机构、新闻媒体、行政区域及职业资质的行为展开了持续且深入的治理行动

2024-12-16 16:49:00

男子把100个耳机藏腰间伪装成“马赛克腹肌”入境

快科技12月16日消息，近日，据官方视频发布，拱北海关所属青茂海关查获一起旅客绑藏100个耳机进境案。视频中，一名身穿黑色短袖

2024-12-16 16:49:00

月薪1万4的ChatGPT要来了！OpenAI自曝其达博士级

博士级别的ChatGPT可能要来了，但价格比每月工资还高？！这是真的。OpenAI CFO最新接受采访时表示，他们为每月2000美元的人工智能产品订阅费敞开大门

2024-12-16 16:49:00

揭秘闲徕游戏架设全过程，大神操作看这里

游戏架设，绝非简单的软件安装，而是一场技术与细节的较量，每一个步骤都蕴含着大神们的智慧与经验。大神们在游戏架设的前期准备中就展现出了专业性

2024-12-16 16:53:00

阜阳英飞源智慧能源有限公司正式投产

本文转自：人民网-安徽频道12月7日，深圳英飞源充电及储能装备生产基地项目投产仪式在园区新能源产业园顺利举行，市领导及相关部门负责人

2024-12-16 17:12:00

线路智能巡检、AI安全哨兵……看思晗科技如何“智”胜未来

消费日报网讯（记者罗颖□赵雨娇李炅伟）成都思晗科技股份有限公司是一家以物联网、通信、AI等共性技术为支撑，为能源领域基础通信设施建设

2024-12-16 17:14:00

苏州移动参加2024苏州市新型工业化生态促进大会

近日，由苏州市工业和信息化局指导，苏州市智能制造产业联盟主办的“2024苏州市新型工业化生态促进大会暨苏州市智能制造产业联盟第二届三次会员大会”在南京大学苏州校区隆重举行

2024-12-16 17:14:00

头条订阅服务