信通,基准,中国,模型,测试,报告头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

全球AI安全评估测试有了新基准

...型安全领域两项国际标准发布全球AI安全评估测试有了新基准随着人工智能系统，特别是大语言模型成为社会各方面不可或缺的一部分，以一个全面的标准来解决它们的安全挑战变得至关重要。◎本报记者崔爽第27届联合国科技...……更多

2024-04-25 04:00:00基准,评估,测试,安全,全球,人工智能

2024可信云大会成功召开，天翼云携手产业各界共绘AI未来！

...标准化协会主办，中国信息通信研究院（以下简称“中国信通院”）承办的2024可信云大会在北京成功召开。大会主论坛上，中国信通院携手天翼云共同发布《央国企云上数智实践指南（2024）》，天翼云科技有限公司助理总经理...……更多

2024-07-26 11:45:00云大,天翼,可信,产业,成功,天翼

多模态模型评测框架lmms-eval发布！全面覆盖，低成本，

...，执行这些数据集的全面评估变得非常耗时。此外，这些基准在训练期间也容易受到污染的影响。为此， LMMs-Eval 提出了 LMMs-Eval-Lite 来兼顾广覆盖和低成本。他们也设计了 LiveBench 来做到低成本和零数据泄露。LMMs-Eval-Lite: 广覆盖...……更多

2024-08-22 09:50:00模态,框架,模型,评测,污染,成本

反击OpenAI，谷歌放出最强悍大模型Gemini

...指领先水平的大模型）。图源：谷歌技术报告在权威MMMU基准测试中，Gemini Ultra获得了59.4%的SOTA分数。这项基准测试是经典的多模态测试，由跨不同领域的多模式任务组成，能够体现大模型的深度推理能力，而推理过程本身，需...……更多

2023-12-07 10:31:00强悍,模型,模态,模型,训练,能力

【产业互联网周报】字节回应被曝秘密利用OpenAI；英特尔预

...的经济价值，其中我国将突破30万亿元，占比超过四成。信通院启动《大模型数据开发管理能力评价方法总体要求》编制工作12月12日，为破解大模型训练数据发展瓶颈，深入推进人工智能数据高质量发展，由中国信息通信研究院...……更多

2023-12-18 22:02:00马斯,英特,英华,马斯克,英特尔,阿里

精准狙击Llama 3.1？Mistral AI开源Larg

...量低于 Llama 3.1 的 4050 亿，但两者性能接近。并且在多个基准测试中与 GPT-4o、Anthropic 的 Claude 3.5 Sonnet 媲美。今年 2 月，Mistral AI 推出了最初的 Large 模型，其上下文窗口包含 32,000 个 token，新版模型在此……更多

2024-07-26 09:36:00模型,基准,多语,测试,性能,生成

AI+隐私计算助力保险创新，“隐语”入选信通院大数据优秀案例

AI+隐私计算助力保险创新，“隐语”入选信通院大数据优秀案例近日，中国信通院发布了2023 大数据“星河”案例榜单，蚂蚁集团“基于‘隐语联合定价方案’实现新能源车险精算定价”项目获得数据要素流通优秀案例。（图：...……更多

2023-12-14 13:48:00信通,隐语,隐私,案例,数据,数据

商汤又“夺金”！SuperCLUE-V多模态大模型基准发布1

...日新·商量”又拿了金牌！今日，中文多模态大模型测评基准SuperCLUE-V发布10月榜单：商汤日日新·商量多模态大模型（SenseChat-Vision5.5）凭借多个任务上的出色表现，总得分位列国内大模型第一梯队，智夺金牌。商量多模态大模型...……更多

2024-10-14 13:34:00商汤,模态,基准,模型,模型,能力

钉钉入选信通院首批“企业级数智化AI融合推进计划”成员单位

...0发布暨企业级数智化AI应用研讨会”在京召开。会上中国信通院发布企业数智化成熟度IOMM3.0标准、《央国企数智化转型发展研究报告（2024）》，正式启动“企业级数智化AI融合推进计划”，钉钉作为首批成员单位入选该计划，...……更多

2024-04-04 17:30:00智化,信通,级数,成员,单位,企业

AMD跑大模型终于Yes！MI300X对比NVIDIA H1

...The Information发布的评测报告，AMD的Instinct MI300X GPU在AI推理基准测试中的表现与NVIDIA的H100 GPU相当，显示出AMD在高性能AI计算领域的进步。这份评测报告由MLCommons提供数据，在测试中，AMD的MI300X GPU以及NVIDIA的……更多

2024-09-05 11:09:00逊色,模型,测试,评测报告,戈麦斯,领域

GPT-4劲敌，谷歌进入高能+高产模式

....5 Pro官方测试数据Gemini 1.5 Pro大大超过Gemini 1.0 Pro，在27项基准（共31项）上表现更好，特别是在数学、科学和推理（+28.9%），多语言（+22.3%），视频理解（+11.2%）和代码（+8.9%）等领域。即使是对比Gemini 系列的高端产品Gemini……更多

2024-02-21 14:05:00劲敌,高产,模式,模型,上下文,处理

刚刚，OpenAI震撼发布o1大模型！强化学习突破LLM推理

...草莓大模型。它拥有真正的通用推理能力。在一系列高难基准测试中展现出了超强实力，相比 GPT-4o 有巨大提升，让大模型的上限从「没法看」直接上升到优秀水平，不专门训练直接数学奥赛金牌，甚至能在博士级别的科学问答...……更多

2024-09-13 16:42:00推理,模型,极限,突破,学习,模型

MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤

...入设置）更严格地评估模型的多模态理解能力；模型在新基准上的性能下降明显，表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型（MLLMs）在各个排行榜上展现的性能不断提升，例如GPT-4o在大学水平...……更多

2024-09-18 13:31:00模态,史诗,基准,难度,问答,文本

AMD的GPU跑AI模型终于Yes了？PK英伟达H100不带

...比评测报告，声称是首个直接对比 AMD 和英伟达 AI 集群的基准评测。该报告的数据来自 MLCommons，这是一个由供应商主导的评测机构。他们构建了一套 MLPerf AI 训练和推理基准。AMD Instinct 「Antares」 MI300X GPU 以及英伟达的「Hopper」H.……更多

2024-09-05 09:49:00英伟,模型,英伟,内存,推理,性能

中国信通院发布信息通信业（ICT）十大趋势

本文转自：中国工业报行业资讯中国信通院发布信息通信业（ICT）十大趋势 ■ 中国工业报记者曹雅丽近日，中国信息通信研究院（以下简称中国信通院）主办的2023中国信通院ICT＋深度观察报告会主论坛在京举办，中国信...……更多

2023-01-31 10:13:00信通,通信业,中国,趋势,通信,信息

国产ai大模型首批评估名单公布

...IA/PG0110-2023）标准于2024年1月25日正式发布，该标准由中国信通院与中国工商银行联合牵头发起，涵盖通用能力、专用场景能力和应用成熟度三大部分，包括100多个能力要求。此次验证，依据标准开展，评价指标覆盖6大通用能力...……更多

2024-06-12 09:54:00模型,评估,国产,名单,模型,能力

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构

...理方面同样不足。为此他们提出了一种多模态的视觉推理基准，并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型，似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说了，但是依旧算...……更多

2024-08-08 16:23:00模态,领衔,基准,推理,视觉,能力

微软发布旗下最小语言模型phi-2

...代码等等场景。该模型完全基于高质量数据进行训练，在基准测试中的表现比同类模型高出10倍。微软今年9月更新发布了Phi-1.5版本，同样为13亿参数，可以写诗、写电子邮件和故事，以及总结文本。在常识、语言理解和推理的基...……更多

2023-11-17 14:00:00微软,旗下,模型,语言,模型,微软

谷歌 AI 推出 CardBench 评估框架

...之家 9 月 3 日消息，谷歌 AI 研究人员最新推出了 CardBench 基准，主要为学习型基数估计（cardinality estimation）满足系统评估框架需求。CardBench 基准是个综合评估框架，包含 20 个不同真实数据库中的数千次查询，大大超过了以往的...……更多

2024-09-04 09:48:00框架,评估,数据,模型,基准,查询

用过GPT-4 Turbo以后，我们再也回不去了

...了不到十分钟。GPT-4 Turbo 具有创纪录的准确率，在 PyLLM 基准上，GPT-4 Turbo 的准确率是 87%，而 GPT-4 的准确率是 52%，这是在速度几乎快了四倍多的情况下（每秒 48 token）实现的。至此，生成式 AI 的竞争似乎进入了新的阶段。很多...……更多

2023-11-08 18:08:00模型,测试,用户,代码,基准,尝试

智慧芽垂直领域大模型通过国家网信办“双备案”

...、C-Eval，以及智慧芽面向业内首次提出的专利大模型测试基准（Patent-bench）的测评结果显示，智慧芽垂直领域大模型在问答、总结、写作、翻译、分类等方面能力整体优于商业通用大模型。图：智慧芽垂直领域大模型专业考试成...……更多

2024-08-15 14:22:00模型,智慧,领域,国家,模型,智慧

首批！蔚领时代完成大模型数字人基础能力分级测试

...。近日，蔚领时代的蔚领AI互动数字人系统顺利完成中国信通院人工智能研究所组织的大模型数字人基础能力分级测试。蔚领时代也成为首批完成相关测试的元宇宙企业。数字人是通过人工智能技术生成的虚拟人物，具有人类的...……更多

2024-11-05 09:55:00模型,能力,数字,基础,测试,时代

市政府与北京首都在线科技股份有限公司

...北京首都在线科技股份有限公司负责提供性能测试与测评基准设计和执行不同大模型在不同硬件平台的性能测试，输出性能测试评估报告；建立性能测评基准，成为行业通用参考标准。庆阳市政府根据《庆阳市“东数西算”算力...……更多

2024-04-12 01:59:00北京,市政府,市政,首都,股份,科技

Databricks推出目前最强开源 AI

...大语言模型DBRX，号称是“目前最强开源AI”，据称在各种基准测试中都超越了“市面上所有的开源模型”。从官方新闻稿中得知，DBRX是一个基于Transformer的大语言模型，采用MoE（MixtureofExperts）架构，具备1320亿个参数，并在12TToke...……更多

2024-04-01 12:06:00模型,基准,测试,语言,英伟,训练

菲尔兹奖得主亲测GPT-4o，经典过河难题破解失败！最强Cl

...-4o开刀，去解决动物过河难题。在此，他给出了一个新的基准——废话比率（crapness ratio），即LLM给出的总答案与正确答案之间的比率。经过测试，Gowers发现大模型的废话比率可以达到5倍。一开始，他先给出了一个农民带2只鸡...……更多

2024-07-01 08:58:00菲尔,得主,难题,经典,农夫,模型

马斯克官宣Grok-2测试版！xAI将继续拥抱开源路线吗？

...价比。根据xAI公布的数据，在GSM8K、HumanEval和MMLU等一系列基准测试中，Grok-1的表现超过了Llama-2-70B和GPT-3.5，不过与第一梯队的GPT-4差距还很明显。图源：xAI来到Grok-1.5，情况已大为改观。Grok-1.5不仅具有改进的推理能力和128k的……更多

2024-08-13 09:50:00马斯,马斯克,测试版,路线,测试,模型

英伟达h100gpu在mlperf基准测试创造6项新记录

...消息，英伟达今天发布新闻稿，表示旗下的H100GPU在MLPerf基准测试中创造了6项新记录。IT之家今年6月报道，3584 个H100GPU群在短短11分钟内完成了基于GPT-3的大规模基准测试。MLPerfLLM基准测试是基于OpenAI的GPT-3模型进行的，包含1750亿...……更多

2023-11-10 02:18:00英伟,新记录,基准,测试,英伟,基准