评测,评估,体系,结果,模型,评测头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

面向实际应用评估系统性能《服务器算力算效评价规范》立项

...客户从应用出发找到适合的算力支撑平台。据悉，与传统评测更看重CPU基础性能不同，《规范》是一款面向实际应用场景的评价基准，以服务器整机为评测对象，构建20多个基础性能和应用性能评测指标，其中应用性能涵盖数据...……更多

2024-11-23 14:03:00实际,评估,性能,评价,服务器,应用

通义千问系列AI开源模型升至Qwen2：5个尺寸，最高 12

...，训练数据中增加了 27 种语言相关的高质量数据；多个评测基准上的领先表现；代码和数学能力显著提升；增大了上下文长度支持，最高达到 128K tokens（Qwen2-72B-Instruct）。模型基础信息Qwen2 系列包含 5 个尺寸的预训练和指令微...……更多

2024-06-07 09:32:00通义,模型,尺寸,模型,训练,上下文

看似客观的第三方评测能信吗

...自：西宁晚报在互联网平台上，针对各类商品的“第三方评测”十分常见。评测机构和博主通过测试相关产品，并就质量、价格、服务等方面作出排行，为消费者提供购物参考。记者调查发现，评测机构所使用的检测方法和标准...……更多

2023-02-22 01:46:00第三方,客观,评测,评测,机构,消费

零一万物大模型Yi-34B夺得全球开源评测“双料冠军”，已在

...4B和6B两个版本。据HuggingFace英文开源社区平台和C-Eval中文评测的最新榜单，Yi-34B预训练模型取得了多项SOTA国际最佳性能指标认可，成为全球开源大模型“双料冠军”。零一万物创始人及CEO李开复博士表示:“零一万物坚定进军全...……更多

2023-11-06 15:25:00阿里,万物,模型,评测,冠军,全球

腾讯开源最大MoE大语言模型！3D大模型同时支持文/图生成，

...界开源模型Llama3.1-405B、Mixtral-8x22B等相比，在多学科综合评测集、中英文NLP任务、代码、数学等9大维度，混元Large实现全面领先。混元Large包含高质量合成数据、专家特定的学习率缩放、KV缓存压缩、长上下文处理能力、广泛的基...……更多

2024-11-06 09:41:00模型,腾讯,全家,生成,同时,语言

中国移动5g手机综合评测结果公布

中国移动近日公布了2023年度5G手机综合评测结果，32款热门机型接受了从通信能力到用户口碑的全方位考核，小米和荣耀分别在高端和中端市场夺得冠军，展现了国产手机的强大实力。5G手机测评体系，用户体验为先中国移动的5...……更多

2024-01-18 09:59:00评测结果,中国,中国移动,评测,移动,结果

从AI搜索到语音陪练，腾讯元宝全面评测来了！大模型C端玩家谁

《科创板日报》5月31日讯（记者朱凌）直至五月尾声，AI应用市场的火热态势依旧不减。30日，基于混元大模型的AI助手App“腾讯元宝”上线，标志着BAT终于在AI消费C端应用领域聚首。据介绍，自2023年9月首次亮相以来，腾讯混...……更多

2024-05-31 18:07:00腾讯,陪练,元宝,语音,模型,评测

自带副驾屏的腾势N7，座舱智能化体验如何？

...其智能化体验有着不小期待。本期咱们借CC-1000T智能座舱评测体系，看看自带副驾屏的腾势N7，会带来怎样的座舱智能化体验。一、什么是CC-1000T智能座舱评价体系CC-1000T是车云研究院与合作伙伴从消费者体验角度出发，共同研发...……更多

2024-05-27 13:50:00座舱,体验,智能,座舱,智能,空调

新增电动车、新能源车跑分，2022鲁大师“牛角尖”榜单前瞻

...厂商最优秀最顶尖的产品的奖项。依据鲁大师专业大数据评测，为硬件品牌颁发最优秀最顶尖奖项。2022“牛角尖”增设了哪些奖项？据相关人士透露，2022年鲁大师“牛角尖”颁奖颁奖盛典相较往届，在手机领域增加了不少细分...……更多

2022-12-21 06:00牛角尖,牛角,新能源,前瞻,电动车,电动

全球AI安全评估测试有了新基准

...案“蚁天鉴”，用于人工智能生成内容的安全性和真实性评测、大模型智能化风控、可解释性检测等。此次发布的《大语言模型安全测评方法》，便是基于“蚁天鉴”人工智能安全检测体系的应用实践，与全球生态伙伴交流编制...……更多

2024-04-25 04:00:00基准,评估,测试,安全,全球,人工智能

推理成本直降99%！百川智能「1+3」矩阵揭秘，两张4090

...n4-Air用到的高质量通用训练数据和训练技巧，都在里面！评测结果显示，在使用百川智能优质通用训练数据与企业专有数据混合微调后，模型在金融、教育、医疗等场景下的专业细分任务的平均可用率高达96%。相比不混合通用数...……更多

2024-11-04 09:50:00百川,矩阵,旗舰,推理,模型,成本

AI大模型也高考？成绩单出来了，星火综合第一

...人工智能大模型进行了高考作文、数学、物理三个科目的评测，并公布了成绩。我们来一起回顾一下：首先进行的是高考作文的评测。在搜狐科技的评测中，三位资深语文教师作为权威专家为各大模型的作文打分。腾讯元宝和...……更多

2024-06-12 09:29:00星火,成绩单,模型,成绩,高考,综合

安兔兔评测PC版正式发布：电脑强不强不服跑个分

快科技9月12日消息，安兔兔宣布，全新的安兔兔评测PC版已经正式发布。与Android版本测试流程相似，安兔兔评测PC版测试项目同样包括了CPU、GPU、Memroy（内存和存储）和UX（用户体验）四大项，通过模拟多种复杂场景最终得到电...……更多

2024-09-12 07:46:00评测,电脑,测试,评测,性能,电脑

人工智能也能“察言观色”

...能交互量表，能有效地改善传统单一量表、一对一访谈等评测方法存在的人力成本高、周期跨度长、环境干扰大、标准不统一、结果不真实的弊端。”蒋贻顺说，为了提高产品的准确性，前期经过多次分析论证，之后还征集志愿...……更多

2024-01-16 02:05:00人工智能,人工,智能,人工智能,智能,人工

中关村科金1+N新品系列亮相，为企业打造大模型强人工智能应用

...通信研究院人工智能研究中心、人工智能关键技术和应用评测工业和信息化部重点实验室联合主办的“重构未来产业智能跃迁”2023大模型产业前沿论坛上，中关村科金正式发布了国内首个企业知识大模型、AgentGraph应用开发平台...……更多

2023-11-24 09:56:00中关,中关村,人工智能,人工,模型,新品

360智脑7b参数模型采用3.4万亿tokens训练

...源模型文本长度最长的。360表示，他们在OpenCompass的主流评测数据集上验证了模型性能，包括C-Eval、AGIEval、MMLU、CMMLU、HellaSwag、MATH、GSM8K、HumanEval、MBPP、BBH、LAMBADA，考察的能力包括自然语言理解、知识、数学计算和推……更多

2024-04-14 01:04:00模型,训练,参数,模型,文本,评测

重磅！TeleAI 完成首个全国产化万卡万参大模型训练

...一。作为新一代版本，TeleChat2-115B 在9月最新公布的 C-Eval 评测 Open Access 模型综合榜单中，以 86.9 分的成绩排名第一。其通用能力较 TeleChat 系列模型提升近 30%，特别是在工具使用、逻辑推理、数学计算、代码生成和长文写作等方...……更多

2024-09-30 09:50:00万卡,重磅,模型,国产,训练,模型

中国电信人工智能研究院携手智源研究院推动开源社区发展

...1.5-72）。经过微调的对话模型进行了客观、自动化的能力评测，评测结果显示，总分上Tele-FLM完成了对GPT-3.5-Turbo的超越。在分项得分中，Tele-FLM在总共的11个分项中有十项达到或超过GPT-3.5-Turbo水平。仅今年，中国电信人工智能研...……更多

2024-04-30 20:00:00研究院,中国电信,研究,人工智能,中国,人工

关于LLM-as-a-judge范式，终于有综述讲明白了

...中，进行开放式生成，推理过程以及各种新兴 NLP 任务的评测。（2）对齐：对齐技术通常需要大量人工标注的成对偏好数据来训练奖励或者策略模型，通过引入 LLM-as-a-judge 技术，采用更大的模型或者策略模型本身作为评估者，...……更多

2024-12-04 09:49:00范式,模型,基准,偏见,数据,评估

万元内的高性价比专业卡——AMD Radeon Pro W7

...MCD的方案，和桌面RX 7900系列产品完全一致。而我们今天评测的Radeon Pro W7700则在核心的配置上基本与消费级桌面版的Radeon RX 7700相仿。 ▲AMD Radeon Pro 7000系全家福，Radeon Pro W7700是面向中高端专业应用市场的显卡产品。在……更多

2023-11-14 17:06:00性价比,显卡,专业,性能,测试,专业

RTX3090可跑，360AI团队开源视频模型FancyVi

...置。论文还在 UCF-101 和 MSR-VTT Benchmark 上进行了 Zero-shot 的评测，在衡量生成视频丰富性的 IS 指标和文本一致性的 CLIPSIM 指标均取得了 SOTA 结果。此外，论文还基于 FancyVideo 模型的 T2V 和 I2V 能力分别和前人方法……更多

2024-08-27 09:52:00红衣,大叔,模型,团队,视频,生成