评测,评估,体系,结果,模型,评测头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

《科创板日报》5月31日讯（记者朱凌）直至五月尾声，AI应用市场的火热态势依旧不减。30日，基于混元大模型的AI助手App“腾讯元宝”上线，标志着BAT终于在AI消费C端应用领域聚首。据介绍，自2023年9月首次亮相以来，腾讯混...……更多

2024-05-31 18:07:00腾讯,陪练,元宝,语音,模型,评测

AI快讯：国常会审议通过人工智能+行动意见，斑马智行发布元神

...型，RedOne在8个主要的SNS任务上平均提升14.02%，在SNS双语评测基准上提升7.56%。同时，在线上测试中，相较于单任务微调的基线模型，RedOne将有害内容检测(Harmful Content Detection)中的曝光率降低11.23%，将浏览后搜索(Post-view Se……更多

2025-08-04 19:12:00元神,人工智能,斑马,常会,人工,快讯

全球权威评测榜单BIRD：蚂蚁数科超越谷歌等公司位居第一

9月26日，据全球权威评测基准BIRD-Bech官网，蚂蚁数科的数据分析智能体Agentar-SQL超越AT&T（美国电话电报公司）、谷歌云、腾讯云、阿里云等诸多国内外厂商，位居全球第一。这也是中国公司在该榜单上取得的最高成绩。BIRD-Be...……更多

2025-09-26 16:48:00蚂蚁,评测,权威,全球,公司,模型

自带副驾屏的腾势N7，座舱智能化体验如何？

...其智能化体验有着不小期待。本期咱们借CC-1000T智能座舱评测体系，看看自带副驾屏的腾势N7，会带来怎样的座舱智能化体验。一、什么是CC-1000T智能座舱评价体系CC-1000T是车云研究院与合作伙伴从消费者体验角度出发，共同研发...……更多

2024-05-27 13:50:00座舱,体验,智能,座舱,智能,空调

阿里QwQ-32B API接口服务上线国家超算互联网：零门槛

...理模型，基于Qwen2.5-32B+强化学习构建。据官方公示的基准评测结果，在测试数学能力的 AIME24 评测集上，以及评估代码能力的LiveCodeBench中，QwQ-32B表现与DeepSeek-R1相当，远胜于o1-mini 及相同尺寸的R1蒸馏模型。QwQ-32B API调用服务具……更多

2025-03-09 13:46:00阿里,门槛,接口,互联网,互联,国家

全球AI安全评估测试有了新基准

...案“蚁天鉴”，用于人工智能生成内容的安全性和真实性评测、大模型智能化风控、可解释性检测等。此次发布的《大语言模型安全测评方法》，便是基于“蚁天鉴”人工智能安全检测体系的应用实践，与全球生态伙伴交流编制...……更多

2024-04-25 04:00:00基准,评估,测试,安全,全球,人工智能

安兔兔评测PC版正式发布：电脑强不强不服跑个分

快科技9月12日消息，安兔兔宣布，全新的安兔兔评测PC版已经正式发布。与Android版本测试流程相似，安兔兔评测PC版测试项目同样包括了CPU、GPU、Memroy（内存和存储）和UX（用户体验）四大项，通过模拟多种复杂场景最终得到电...……更多

2024-09-12 07:46:00评测,电脑,测试,评测,性能,电脑

推理成本直降99%！百川智能「1+3」矩阵揭秘，两张4090

...n4-Air用到的高质量通用训练数据和训练技巧，都在里面！评测结果显示，在使用百川智能优质通用训练数据与企业专有数据混合微调后，模型在金融、教育、医疗等场景下的专业细分任务的平均可用率高达96%。相比不混合通用数...……更多

2024-11-04 09:50:00百川,矩阵,旗舰,推理,模型,成本

AI大模型也高考？成绩单出来了，星火综合第一

...人工智能大模型进行了高考作文、数学、物理三个科目的评测，并公布了成绩。我们来一起回顾一下：首先进行的是高考作文的评测。在搜狐科技的评测中，三位资深语文教师作为权威专家为各大模型的作文打分。腾讯元宝和...……更多

2024-06-12 09:29:00星火,成绩单,模型,成绩,高考,综合

人工智能也能“察言观色”

...能交互量表，能有效地改善传统单一量表、一对一访谈等评测方法存在的人力成本高、周期跨度长、环境干扰大、标准不统一、结果不真实的弊端。”蒋贻顺说，为了提高产品的准确性，前期经过多次分析论证，之后还征集志愿...……更多

2024-01-16 02:05:00人工智能,人工,智能,人工智能,智能,人工

重磅！TeleAI 完成首个全国产化万卡万参大模型训练

...一。作为新一代版本，TeleChat2-115B 在9月最新公布的 C-Eval 评测 Open Access 模型综合榜单中，以 86.9 分的成绩排名第一。其通用能力较 TeleChat 系列模型提升近 30%，特别是在工具使用、逻辑推理、数学计算、代码生成和长文写作等方...……更多

2024-09-30 09:50:00万卡,重磅,模型,国产,训练,模型

360智脑7b参数模型采用3.4万亿tokens训练

...源模型文本长度最长的。360表示，他们在OpenCompass的主流评测数据集上验证了模型性能，包括C-Eval、AGIEval、MMLU、CMMLU、HellaSwag、MATH、GSM8K、HumanEval、MBPP、BBH、LAMBADA，考察的能力包括自然语言理解、知识、数学计算和推……更多

2024-04-14 01:04:00模型,训练,参数,模型,文本,评测

中国电信人工智能研究院携手智源研究院推动开源社区发展

...1.5-72）。经过微调的对话模型进行了客观、自动化的能力评测，评测结果显示，总分上Tele-FLM完成了对GPT-3.5-Turbo的超越。在分项得分中，Tele-FLM在总共的11个分项中有十项达到或超过GPT-3.5-Turbo水平。仅今年，中国电信人工智能研...……更多

2024-04-30 20:00:00研究院,中国电信,研究,人工智能,中国,人工

中关村科金1+N新品系列亮相，为企业打造大模型强人工智能应用

...通信研究院人工智能研究中心、人工智能关键技术和应用评测工业和信息化部重点实验室联合主办的“重构未来产业智能跃迁”2023大模型产业前沿论坛上，中关村科金正式发布了国内首个企业知识大模型、AgentGraph应用开发平台...……更多

2023-11-24 09:56:00中关,中关村,人工智能,人工,模型,新品

关于LLM-as-a-judge范式，终于有综述讲明白了

...中，进行开放式生成，推理过程以及各种新兴 NLP 任务的评测。（2）对齐：对齐技术通常需要大量人工标注的成对偏好数据来训练奖励或者策略模型，通过引入 LLM-as-a-judge 技术，采用更大的模型或者策略模型本身作为评估者，...……更多

2024-12-04 09:49:00范式,模型,基准,偏见,数据,评估

万元内的高性价比专业卡——AMD Radeon Pro W7

...MCD的方案，和桌面RX 7900系列产品完全一致。而我们今天评测的Radeon Pro W7700则在核心的配置上基本与消费级桌面版的Radeon RX 7700相仿。 ▲AMD Radeon Pro 7000系全家福，Radeon Pro W7700是面向中高端专业应用市场的显卡产品。在……更多

2023-11-14 17:06:00性价比,显卡,专业,性能,测试,专业

RTX3090可跑，360AI团队开源视频模型FancyVi

...置。论文还在 UCF-101 和 MSR-VTT Benchmark 上进行了 Zero-shot 的评测，在衡量生成视频丰富性的 IS 指标和文本一致性的 CLIPSIM 指标均取得了 SOTA 结果。此外，论文还基于 FancyVideo 模型的 T2V 和 I2V 能力分别和前人方法……更多

2024-08-27 09:52:00红衣,大叔,模型,团队,视频,生成

让AI去高考，豆包等四款大模型考上文科“一本”

...获国内头筹在极客公园最新发布的高考新课标Ⅰ卷大模型评测报告中，GPT-4o以562分排名文科总分第一。国内产品中，字节跳动旗下的豆包拔得头筹，成绩是542.5分。据介绍，本次评测以新课标Ⅰ卷为考题，与河南省考卷完全相同...……更多

2024-06-26 11:14:00豆包,一本,文科,模型,高考,模型

昆仑万维SkyReels团队正式发布并开源SkyReels-

...水平，无明显扭曲或损坏。在SkyReels-Bench的T2V多维度人工评测集下，SkyReels-V2在指令遵循和一致性得到最高水准，同时在视频质量和运动质量上保持第一梯队。2. VBench1.0结果在VBench1.0自动化评估中，SkyReels-V2在总分(83.9%)和质量分(8.……更多

2025-04-21 13:53:00万维,昆仑,团队,生成,视频,模型

推动“AI+工业” 山东开展行业大模型揭榜挂帅

...型产品体系。引导符合条件的大模型产品积极参与国家级评测认证，增强大模型产品行业认可度与公信力。加大行业大模型产品推广应用，深度拓展应用场景，提升产业链智能化水平。事实上，自去年以来，山东省大模型产业加...……更多

2025-02-09 23:39:00山东,模型,工业,行业,模型,行业

联想小新Pro14 AI超能本2024 评测：创作和娱乐全能

...，我们就为大家带来一款AI PC：联想小新Pro14 AI超能本的评测体验。作为一款针对年轻用户群体设计的笔记本，联想小新Pro14 AI超能本2024在外观设计上保持了小新系列的简约时尚风格，轻薄便携的机身使得它成为移动办公和学习...……更多

2024-05-16 13:49:00超能,全能,评测,创作,娱乐,超能

开年领跑乘云智胜华为云开年采购季携Flexus X实例：解

...遥遥领先同规格友商实例根据华为云官方和第三方的对比评测，Flexus云服务器X实例基础模式GeekBench跑分1.6于业界独享型实例，性能模式跑分超友商旗舰C6/R6/G6，与C7持平。其实Flexus云服务器X实例有100+的规格组合，给企业选择实...……更多

2025-03-05 12:47:00开年,云开,华为,实例,实践,能力

麦芒30评测：大模型赋能，一键解锁AI能体验

...运算，智慧生活等等，新功能品目繁多，欣欣向荣。今天评测的产品，便是麦芒品牌的首款AI手机，一句话总结它的产品亮点：麦芒30内置搭载星辰大模型，拥有“6100mAh高密度海量大电池、轻薄耐摔机身、1.5K双曲臻彩屏，以及AI...……更多

2024-07-19 16:51:00一键,麦芒,模型,评测,体验,麦芒

CPU超越i9-14900HX、核显强于RTX 4060！R

...发布了搭载锐龙AI Max系列APU的ROG幻X 2025平板笔记本。本次评测采用的是系列中最强的锐龙AI Max + 395！锐龙AI Max + 395的CPU部分包含16个Zen5核心，32线程，加速频率5.1GHz，拥有64MB三级缓存，以及16MB二级缓存。规格参数与桌面版锐龙9 .……更多

2025-03-27 18:05:00模型,评测,内存,显存,带宽,性能