• 我的订阅
  • 头条热搜
中国信通院发布大模型安全基准测试报告 360智脑综合排名第一
本文转自:中国新闻网近日,中国信息通信研究院发布大模型安全基准测试AI Safety Bench 2024年Q1的首轮测评报告(下称“测评报告”),结果显示,三六零集团自研的认知通用大模型360智脑综合排名第一。大模型安全基准测试AI Safet...……更多
...范能力,今年2月,中国信息通信研究院(以下简称中国信通院)联合360集团,发起大模型安全基准测试SafetyAI Bench制定工作。大模型安全基准测试秉持“公平公正、产业应用、选型参考”原则,采用科学严谨的测试方法,评估大...……更多
日前,“2024中国信通院ICT深度观察报告会”人工智能伙伴分论坛在京召开。会上,“CAICT人工智能伙伴计划”启动。未来,中国信通院将与合作伙伴紧密围绕国家重大需求,在政策研究、标准制定、开放共享、行业赋能以及国...……更多
AI安全守护计划启动!信通院牵头,AIIA安全治理委员会发布三类模型安全评测
...、安全组两个工作组,近百家单位加入,主任单位由中国信通院牵头,副主任单位包括多家知名企业和高校。其中,治理组工作围绕AI治理框架、合规治理、赋能治理展开,安全组主要开展大模型安全、合规等研究及基准测试。...……更多
...记者10日从中国信息通信研究院了解到,今年6月来,中国信通院选取多款通用大模型和医疗健康行业大模型开展效能评估工作,结果显示,通用大模型在医学知识广度方面具有一定优势,医疗健康行业大模型在特定医疗任务上表...……更多
浪潮科技作为首批成员单位加入信通院“政务大模型推进中心”
12月21日,"2024中国信通院ICT深度观察报告会政企数字化转型论坛"在北京召开。此次论坛聚焦政企数字化转型,浪潮科技作为首批成员单位受邀出席“政务大模型推进中心”成立仪式。中国信通院作为国内IT领域重要权威机构...……更多
中国信通院发布《代码大模型》标准
...,据人工智能产业发展联盟AIIA消息,2024年1月25日,中国信通院联合中国工商银行牵头发布《智能化软件工程技术和应用要求第1部分:代码大模型》标准,该标准适用于企业在代码大模型的研发、评估和验收等过程中,为代码大...……更多
...促人工智能应用以人为本,智能向善。近日,在2025中国信通院深度观察报告会主论坛上,首批17家企业正式签署《承诺》。《承诺》凝聚产业界守护人工智能安全、促进人工智能向善的基本共识,旨在共同应对技术变革带来的复...……更多
...性进一步凸显。记者从中国信息通信研究院(简称“中国信通院”)获悉,DeepSeek国产化适配测试工作已正式启动,将推动AI软硬件协同效能提升。据介绍,本次测评工作旨在为DeepSeek系列模型在多硬件多场景下的适配部署提供参考...……更多
「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」
...性消息——结果没多久,Reflection 70B就被打假了:公布的基准测试结果和他们的独立测试之间存在显著差异。无论是AI研究者,还是第三方评估者,都无法复现Matt Shumer所声称的结果。根据Artificial Analysis的数据,Reflection 70B在基准...……更多
...水电装备、安全应急装备等重点行业装备领域,发挥中国信通院在数字孪生、人工智能、大数据等信息技术领域的创新优势,开展基于数据科学的装备模型构建、仿真、验证等工作,致力于为产业界提供一批基于模型的装备优化...……更多
...全性方面的问题已经受到业内高度关注。今年8月,中国信通院发文称,近年来,以大模型为核心的人工智能技术飞速发展,成为数字经济增长新动能。然而,作为新质生产力的大模型在安全性方面仍存在较多缺陷,这为其大规...……更多
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
【新智元导读】普林斯顿大学新发布的CORE-Bench基准测试,通过270个基于90篇跨学科科学论文的任务,可评估AI智能体在计算可重复性方面的表现,最简单任务的准确率可以达到60%,最难任务准确率仅有21%大模型的能力越来越强,...……更多
AI大模型加持,智能眼镜重获新生!AI眼镜概念股掀涨停潮
...验证,AI眼镜有望加速进入规模化商用阶段。日前,中国信通院泰尔终端实验室联合S–DreamLab,首发RayBan-MetaWayfarer智能眼镜测试报告,对该智能眼镜的性能、可用性、可靠性等方面都进行了测试。与此同时,多模态大模型、芯片...……更多
本文转自:人民网12月27日,2024人工智能赋能新型工业化大会在北京召开,中国信息通信研究院发布《人工智能治理蓝皮书(2024年)》,引发业界和学界的广泛关注。报告指出,近年来,人工智能技术颠覆性、跨越式突破引发...……更多
南京经开区举行大模型产业发展推进会
...目签约落地,“智谷杯”大模型应用创新大赛颁奖,中国信通院大模型“样板间工程”优秀案例颁证,“可信AI”大模型评估最新结果发布……南京经开区力推大模型和产业融合,不断丰富产业生态,增强产业发展韧劲,正在加...……更多
首家!数势科技通过中国信通院数据指标管理平台技术要求专项测试
2024年5月10日,在中国信息通信研究院(以下简称“中国信通院”)组织的首批数据指标管理平台技术要求专项测试中,北京数势云创科技有限公司(以下简称“数势科技”)顺利完成了数据指标管理平台技术要求专项测试的全...……更多
嘉为蓝鲸荣誉入选信通院汽车云市场图谱
...格局。历经严格的框架讨论、评估、遴选多个环节,中国信通院汽车云工作组发布了《汽车云市场图谱1.0》,全方位展示在汽车云领域处于领先地位的代表性企业。嘉为科技旗下研运解决方案品牌嘉为蓝鲸荣誉上榜云服务厂商优...……更多
突发!谷歌发布史上最强大模型Gemini,打爆GPT-4
...的高效Gemini版本(1.8B/3.25B)其中Gemini Ultra一上来就在32个基准测试中拿下30个SOTA,并且第一个在MMLU基准上达到人类专家水平。而Gemini Pro从今天起,就会在Bard中实装上线。 同时,谷歌Gemini团队还公布了一份60页的详细技术报告...……更多
中国信通院与联想集团联合发布《中国企业智能化成熟度报告(2022)》 助力高质量发展行稳致远
...自:人民日报1月11日,中国信息通信研究院(简称“中国信通院”)与联想集团共同发布《中国企业智能化成熟度报告(2022)》(简称《报告》)。《报告》提出兼具实用性和可操作性的智能化转型方法论,致力于帮助广大企...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...一款名为 MMed-Llama 3 的全新基座模型,以 8B 的尺寸在多项基准测试中超越了现有的开源模型,更加适合通过医学指令微调,适配到各种医学场景。 所有数据和代码、模型均已开源。MMedBench 上的准确率,图 d 展⽰了在 MMedC 上进...……更多
完美运行DeepSeek-R1 671B:摩尔线程MTT S4000通过中国信通院AI芯片和大模型适配验证
快科技5月7日消息,作为国家权威技术验证平台,中国信通院构建了AI芯片与大模型协同适配的标准化体系,并开展适配验证工作。经中国信通院检测,摩尔线程自主研发的训推一体计算卡MTT S4000,在推理场景下与DeepSeek-R1 671B大...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...要好。 最后,与开源模型一起,Mistral还贡献了一个开源基准测试MM-MT-Bench,用于在实际场景中评估视觉语言模型。技术细节当前的多模态大模型基本上都是:模态编码器 + 投影模块 + 大语言模型主干。如果需要多模态输出,后...……更多
代码模型自我进化超越GPT-4o蒸馏!UIUC伯克利等提出自对齐方法 | NIPS 2024
...,超过了参数量大10倍的CodeLlama-70B-Instruct。在全部的三项基准测试(代码生成、数据科学编程、代码编辑)中,SelfCodeAlign都战胜了之前最先进的指令微调方法OctoPack。此外,在HumanEval+上,SelfCodeAlign的性能超越了基于GPT-3.5……更多
苹果AI震撼上线iPhone,进化版Siri却没有ChatGPT!47页技术报告揭秘自研模型
...示了AFM-server在HuggingFace OpenLLM排行榜V1,以及HELM-Lite v1.5.0基准上的结果。可以看到,AFM预训练模型有着强大的语言和推理能力,从而为后训练和特征微调提供了坚实的基础。后训练 人类评估对于苹果AI的应用场景来说,人类评估...……更多
微软华人团队发布全新基准AGIEval,专为人类考试而生
随着语言模型的能力越来越强,现有的这些评估基准实在有点小儿科了,有些任务的性能都甩了人类一截。通用人工智能(AGI)的一个重要特点是模型具有处理人类水平任务的泛化能力,而依赖于人工数据集的传统基准测试并...……更多
自动化、可复现,基于大语言模型群体智能的多维评估基准
...)也越来越强。因此,在多样的应用场景中对其进行性能基准测试已成为了一项重大挑战。目前最受欢迎的基准测试是 Chatbot Arena,它通过收集用户对模型输出的偏好来对 LLM 进行综合排名。然而,随着 LLM 逐渐落地于众多应用场...……更多
2023 AI现状报告:GPT-4仍最强,监管方向缺乏全球共识
...变得更加强大和灵活,比较它们的能力越来越困难。由于基准变得不那么明确,用于评估大语言模型的“基于氛围”的方法在业界越来越普遍。·人工智能安全在2023年首次占据舞台中心。但人工智能界内部存在深刻分歧,世界各...……更多
OpenAI o1 模型 PlanBench 规划能力实测:准确率 97.8%
... 日消息,来自亚利桑那州立大学的科研团队利用 PlanBench 基准,测试了 OpenAI o1 模型的规划能力。研究结果表明 o1 模型取得了长足的进步,但仍然存在很大的局限性。PlanBench 基准简介PlanBench 开发于 2022 年,用于评估人工智能系...……更多
OpenAI新功能 “深度研究” 登场,人类终极考试的表现超过DeepSeek R1
...泛学科领域的表现,被视为衡量人工智能学术能力的前沿基准。该测试包含超过3000道多项选择题和简答题,涵盖从语言学到火箭科学、从古典学到生态学等100多个学科领域。 由此也可以看出,DeepSeek确实让OpenAI感觉到压力不小...……更多
更多关于科技的资讯:
【宅男财经|专家面对面】据媒体报道,近日,重庆市市场监管局制定发布了《无堂食外卖经营服务规范》团体标准。据悉,该标准系全国首个聚焦“无堂食外卖”全链条服务的团体标准
2025-07-02 18:23:00
中国蓝新闻讯 美国调整跨境电商小包裹关税后,全托管模式“退潮”,众多跨境电商卖家纷纷转向新的出口模式。新模式下,如何开辟新渠道
2025-07-02 21:31:00
江南时报讯 6月30日,扬州市低空飞行服务中心对公众开放服务,实现“低空有人和无人驾驶航空器”一体化管理,为低空飞行爱好者
2025-07-02 22:33:00
MiniMax进化论:一群「偏执者」的破浪前行
全球开源前二,来自中国大模型的Aha时刻。如果一个技术用3年时间,从默默无闻到改变世界,我们称其为第N次工业革命;如果这个技术从论文到落地的过程中
2025-07-02 13:31:00
【2025 融惠GO】 提质焕新,权益升级 平安保理打造酒店业全链路解决方案
在国家“双循环”战略的深入推进下,国内消费市场持续释放活力,商旅经济迎来新一轮增长。作为产业链核心枢纽的酒店业,不仅联动建筑
2025-07-02 11:28:00
在TM Forum DTW Ignite 2025期间,自智网络产业峰会成功举办,浪潮通信信息参编的《Autonomous Networks Implementation Guide》(自智网络产业白皮书7
2025-07-02 11:49:00
河北日报讯(王永晨、张倩梅)自今年3月邢台市获批开展省内包车客运标志牌电子化应用试点以来,该市聚焦企业需求,构建“政策+技术+服务”机制
2025-07-02 11:50:00
智慧之眼护航海缆生产:浪潮软件集团赋能工厂智造
在江苏省南通市某海缆制造厂商的智能化生产线上,一卷卷用于海底通信与能源传输的特种电缆正匀速通过铠装工序。铠装钢带作为海缆的"钢铁护甲"
2025-07-02 11:50:00
瑞幸咖啡美国纽约开店,全球化战略再落关键一子
6月30日,瑞幸咖啡位于美国纽约曼哈顿的两家 PICK UP 快取店开启试营业。首日,两家门店客流涌动,热闹非凡,这不仅彰显了瑞幸咖啡品牌在美国的吸引力和市场潜力
2025-07-02 11:58:00
日前,中国社会科学院经济研究所课题组在京召开研讨会。会上发布《看见:短视频时代的生活服务业——短视频、直播平台上中小微企业的成长新路径》(以下简称《报告》)
2025-07-02 14:00:00
“这些都是我们专门为‘美加墨’世界杯设计的球迷助威服,每个国家基本上都推出了2至4款。”近日,在义乌国际商贸城三区,丹娜丝进出口有限公司董事长温从见拿出几件新款球服展示
2025-07-02 14:51:00
一品威客平台上线15周年:初心如磐,向新而行
2025年7月1日,一品威客网平台迎来了上线15周年的重要里程碑。值此之际,平台以“初心如磐,向新而行”为主题,凝聚共识
2025-07-02 15:00:00
在消费理性回归的背景下,护肤行业正悄然发生结构性变化:曾经主打“体验感”与“视觉冲击”的产品标签,如今逐渐让位于更清晰
2025-07-02 15:00:00
雷军返场直播,王腾连夜从吐鲁番赶回北京暖场,网友期待回应小米YU7配置争议
7月2日晚8点,小米创办人雷军将举行返场直播,分享小米YU7上市背后的故事,同时集中回答一下大家关心的问题。为了配合这次直播
2025-07-02 17:36:00
慕思荣膺2025年度中国家具十大品牌,创新引领健康睡眠新时代
日前,慕思凭借其卓越的创新能力、领先的技术研发实力以及持续的产品革新能力,成功入选“2025年度中国家具十大品牌”,并荣获“2025年度中国家具床垫十大品牌”称号
2025-07-02 17:48:00