评测,评估,体系,结果,模型,评测头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

百川智能发布baichuan3稳定语言模型

...布超千亿参数的大语言模型Baichuan3。在多个权威通用能力评测如CMMLU、GAOKAO和AGI-Eval中，Baichuan3都展现了出色的能力，尤其在中文任务上更是超越了GPT-4。而在数学和代码专项评测如MATH、HumanEval和MBPP中同样表现出色，证明了Baichua...……更多

2024-01-29 19:57:00百川,模型,语言,智能,模型,百川

小米SU7供应商嘉晨电子拟IPO 雷军背后入股｜企业创新评测

...月申请上市辅导验收，对于嘉晨电子的IPO之路，企业创新评测实验室将持续关注。“企业创新评测实验室”：由专注新兴产业与资本的权威媒体《科创板日报》发起，旨在研究公司科创实力，凭借企业科创力评估模型，从技术质...……更多

2024-04-10 00:29:00雷军,小米,实验室,评测,背后,供应商

多模态竞技场对标90B Llama 3.2！Pixtral

...OpenAI，Mistral最近压力不小。端侧小模型端不出来，对比评测的结果又遭到质疑。上个月震撼登场的自家首款多模态大模型Pixtral 12B，也疑似遇到了成绩不如人的窘境。不过世间纷扰，留待时间之中去见分晓。毕竟Mistral AI当年也...……更多

2024-11-20 09:43:00模态,竞技场,竞技,报告,技术,模态

做好数字化转型，“专精特新”企业需要用好“评测罗盘”

...的怎么样？01 想要飞过数字化的“沧海”，离不开这块“评测罗盘”尽管中国数字经济整体正处于高速发展阶段，但对于“专精特新”及更多普通中小企业来说，数字化转型进程仍难言乐观。根据中国电子技术标准化研究院发...……更多

2023-02-20 11:56:00罗盘,评测,数字,企业,数字,企业

刷榜跑分？AI评测不应走偏路线

...型“高分低能”是怎么做到的？原因其实很简单，那就是评测中出现了数据污染和泄露。简单来说，榜单排名类似于有第三方“考官”出了一个题库，题库中大量考题针对性测评大模型各个方面的能力，而有的“考生”提前拿到...……更多

2024-03-22 02:41:00评测,路线,模型,考官,题库,考生

自动驾驶元年临近知行汽车科技能否跟上技术迭代？｜企业创新评

...研发支出实现技术的更新迭代值得持续关注。“企业创新评测实验室”：一级市场及科创板权威媒体科创板日报联合智慧芽发起，旨在研究公司科创实力，凭借企业科创力评估模型，从技术质量、专利布局、技术影响力、公司竞...……更多

2024-04-02 20:25:00知行,迭代,实验室,驾驶,评测,实验

面向实际应用评估系统性能《服务器算力算效评价规范》立项

...客户从应用出发找到适合的算力支撑平台。据悉，与传统评测更看重CPU基础性能不同，《规范》是一款面向实际应用场景的评价基准，以服务器整机为评测对象，构建20多个基础性能和应用性能评测指标，其中应用性能涵盖数据...……更多

2024-11-23 14:03:00实际,评估,性能,评价,服务器,应用

AI界新晋王者被曝抄袭、作弊、做假，脸都丢光了

...比如，谷歌引以为傲的MMLU，是一个由伯克利大学主导的评测，囊括阅读理解、大学数学以及物理和社会科学等57项测验。但如果说，这些题目，是可以事先得知的呢？9月，中国人民大学与伊利诺伊大学香槟分校联合推出了一个...……更多

2023-12-20 00:10:00王者,抄袭,模型,万物,公司,数据

通义千问系列AI开源模型升至Qwen2：5个尺寸，最高 12

...，训练数据中增加了 27 种语言相关的高质量数据；多个评测基准上的领先表现；代码和数学能力显著提升；增大了上下文长度支持，最高达到 128K tokens（Qwen2-72B-Instruct）。模型基础信息Qwen2 系列包含 5 个尺寸的预训练和指令微...……更多

2024-06-07 09:32:00通义,模型,尺寸,模型,训练,上下文

看似客观的第三方评测能信吗

...自：西宁晚报在互联网平台上，针对各类商品的“第三方评测”十分常见。评测机构和博主通过测试相关产品，并就质量、价格、服务等方面作出排行，为消费者提供购物参考。记者调查发现，评测机构所使用的检测方法和标准...……更多

2023-02-22 01:46:00第三方,客观,评测,评测,机构,消费

零一万物大模型Yi-34B夺得全球开源评测“双料冠军”，已在

...4B和6B两个版本。据HuggingFace英文开源社区平台和C-Eval中文评测的最新榜单，Yi-34B预训练模型取得了多项SOTA国际最佳性能指标认可，成为全球开源大模型“双料冠军”。零一万物创始人及CEO李开复博士表示:“零一万物坚定进军全...……更多

2023-11-06 15:25:00阿里,万物,模型,评测,冠军,全球

腾讯开源最大MoE大语言模型！3D大模型同时支持文/图生成，

...界开源模型Llama3.1-405B、Mixtral-8x22B等相比，在多学科综合评测集、中英文NLP任务、代码、数学等9大维度，混元Large实现全面领先。混元Large包含高质量合成数据、专家特定的学习率缩放、KV缓存压缩、长上下文处理能力、广泛的基...……更多

2024-11-06 09:41:00模型,腾讯,全家,生成,同时,语言

中国移动5g手机综合评测结果公布

中国移动近日公布了2023年度5G手机综合评测结果，32款热门机型接受了从通信能力到用户口碑的全方位考核，小米和荣耀分别在高端和中端市场夺得冠军，展现了国产手机的强大实力。5G手机测评体系，用户体验为先中国移动的5...……更多

2024-01-18 09:59:00评测结果,中国,中国移动,评测,移动,结果

从AI搜索到语音陪练，腾讯元宝全面评测来了！大模型C端玩家谁

《科创板日报》5月31日讯（记者朱凌）直至五月尾声，AI应用市场的火热态势依旧不减。30日，基于混元大模型的AI助手App“腾讯元宝”上线，标志着BAT终于在AI消费C端应用领域聚首。据介绍，自2023年9月首次亮相以来，腾讯混...……更多

2024-05-31 18:07:00腾讯,陪练,元宝,语音,模型,评测

自带副驾屏的腾势N7，座舱智能化体验如何？

...其智能化体验有着不小期待。本期咱们借CC-1000T智能座舱评测体系，看看自带副驾屏的腾势N7，会带来怎样的座舱智能化体验。一、什么是CC-1000T智能座舱评价体系CC-1000T是车云研究院与合作伙伴从消费者体验角度出发，共同研发...……更多

2024-05-27 13:50:00座舱,体验,智能,座舱,智能,空调

全球AI安全评估测试有了新基准

...案“蚁天鉴”，用于人工智能生成内容的安全性和真实性评测、大模型智能化风控、可解释性检测等。此次发布的《大语言模型安全测评方法》，便是基于“蚁天鉴”人工智能安全检测体系的应用实践，与全球生态伙伴交流编制...……更多

2024-04-25 04:00:00基准,评估,测试,安全,全球,人工智能

推理成本直降99%！百川智能「1+3」矩阵揭秘，两张4090

...n4-Air用到的高质量通用训练数据和训练技巧，都在里面！评测结果显示，在使用百川智能优质通用训练数据与企业专有数据混合微调后，模型在金融、教育、医疗等场景下的专业细分任务的平均可用率高达96%。相比不混合通用数...……更多

2024-11-04 09:50:00百川,矩阵,旗舰,推理,模型,成本

AI大模型也高考？成绩单出来了，星火综合第一

...人工智能大模型进行了高考作文、数学、物理三个科目的评测，并公布了成绩。我们来一起回顾一下：首先进行的是高考作文的评测。在搜狐科技的评测中，三位资深语文教师作为权威专家为各大模型的作文打分。腾讯元宝和...……更多

2024-06-12 09:29:00星火,成绩单,模型,成绩,高考,综合

安兔兔评测PC版正式发布：电脑强不强不服跑个分

快科技9月12日消息，安兔兔宣布，全新的安兔兔评测PC版已经正式发布。与Android版本测试流程相似，安兔兔评测PC版测试项目同样包括了CPU、GPU、Memroy（内存和存储）和UX（用户体验）四大项，通过模拟多种复杂场景最终得到电...……更多

2024-09-12 07:46:00评测,电脑,测试,评测,性能,电脑

人工智能也能“察言观色”

...能交互量表，能有效地改善传统单一量表、一对一访谈等评测方法存在的人力成本高、周期跨度长、环境干扰大、标准不统一、结果不真实的弊端。”蒋贻顺说，为了提高产品的准确性，前期经过多次分析论证，之后还征集志愿...……更多

2024-01-16 02:05:00人工智能,人工,智能,人工智能,智能,人工

中关村科金1+N新品系列亮相，为企业打造大模型强人工智能应用

...通信研究院人工智能研究中心、人工智能关键技术和应用评测工业和信息化部重点实验室联合主办的“重构未来产业智能跃迁”2023大模型产业前沿论坛上，中关村科金正式发布了国内首个企业知识大模型、AgentGraph应用开发平台...……更多

2023-11-24 09:56:00中关,中关村,人工智能,人工,模型,新品

360智脑7b参数模型采用3.4万亿tokens训练

...源模型文本长度最长的。360表示，他们在OpenCompass的主流评测数据集上验证了模型性能，包括C-Eval、AGIEval、MMLU、CMMLU、HellaSwag、MATH、GSM8K、HumanEval、MBPP、BBH、LAMBADA，考察的能力包括自然语言理解、知识、数学计算和推……更多

2024-04-14 01:04:00模型,训练,参数,模型,文本,评测

重磅！TeleAI 完成首个全国产化万卡万参大模型训练

...一。作为新一代版本，TeleChat2-115B 在9月最新公布的 C-Eval 评测 Open Access 模型综合榜单中，以 86.9 分的成绩排名第一。其通用能力较 TeleChat 系列模型提升近 30%，特别是在工具使用、逻辑推理、数学计算、代码生成和长文写作等方...……更多

2024-09-30 09:50:00万卡,重磅,模型,国产,训练,模型

中国电信人工智能研究院携手智源研究院推动开源社区发展

...1.5-72）。经过微调的对话模型进行了客观、自动化的能力评测，评测结果显示，总分上Tele-FLM完成了对GPT-3.5-Turbo的超越。在分项得分中，Tele-FLM在总共的11个分项中有十项达到或超过GPT-3.5-Turbo水平。仅今年，中国电信人工智能研...……更多

2024-04-30 20:00:00研究院,中国电信,研究,人工智能,中国,人工

关于LLM-as-a-judge范式，终于有综述讲明白了

...中，进行开放式生成，推理过程以及各种新兴 NLP 任务的评测。（2）对齐：对齐技术通常需要大量人工标注的成对偏好数据来训练奖励或者策略模型，通过引入 LLM-as-a-judge 技术，采用更大的模型或者策略模型本身作为评估者，...……更多

2024-12-04 09:49:00范式,模型,基准,偏见,数据,评估

万元内的高性价比专业卡——AMD Radeon Pro W7

...MCD的方案，和桌面RX 7900系列产品完全一致。而我们今天评测的Radeon Pro W7700则在核心的配置上基本与消费级桌面版的Radeon RX 7700相仿。 ▲AMD Radeon Pro 7000系全家福，Radeon Pro W7700是面向中高端专业应用市场的显卡产品。在……更多

2023-11-14 17:06:00性价比,显卡,专业,性能,测试,专业

推动“AI+工业” 山东开展行业大模型揭榜挂帅

...型产品体系。引导符合条件的大模型产品积极参与国家级评测认证，增强大模型产品行业认可度与公信力。加大行业大模型产品推广应用，深度拓展应用场景，提升产业链智能化水平。事实上，自去年以来，山东省大模型产业加...……更多

2025-02-09 23:39:00山东,模型,工业,行业,模型,行业

RTX3090可跑，360AI团队开源视频模型FancyVi

...置。论文还在 UCF-101 和 MSR-VTT Benchmark 上进行了 Zero-shot 的评测，在衡量生成视频丰富性的 IS 指标和文本一致性的 CLIPSIM 指标均取得了 SOTA 结果。此外，论文还基于 FancyVideo 模型的 T2V 和 I2V 能力分别和前人方法……更多

2024-08-27 09:52:00红衣,大叔,模型,团队,视频,生成

让AI去高考，豆包等四款大模型考上文科“一本”

...获国内头筹在极客公园最新发布的高考新课标Ⅰ卷大模型评测报告中，GPT-4o以562分排名文科总分第一。国内产品中，字节跳动旗下的豆包拔得头筹，成绩是542.5分。据介绍，本次评测以新课标Ⅰ卷为考题，与河南省考卷完全相同...……更多

2024-06-26 11:14:00豆包,一本,文科,模型,高考,模型