评测结果,研究院,评测,结果,研究,模型头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

“天文知识能力最强”的大语言模型来了

...拥有700亿参数、320亿tokens文本语料，经过了1万道天文学评测数据集的测评，是当前天文知识能力最强的大语言模型。作为天文学的“新质生产力”，AstroOne将促进学科交叉、突破领域边界，探索未知领域中的未知问题，加速天文...……更多

2024-11-03 11:12:00知识能力,天文,模型,能力,语言,知识

德国OpenAI加入开源大战！发布欧洲纯血版模型，曾获博世和

...（由来自斯坦福的团队开发的大语言模型评测系统）上的评测结果：标准版Pharia在德语、法语和西班牙语上的表现和法国的模型Mistral、美国的模型Llama相差不大，但在英语上的表现则不如两者。“对齐“版Pharia则大体上比标准...……更多

2024-08-28 09:43:00博世,纯血,惠普,欧洲,德国,模型

开闭源模型「大乱斗」：看看哪个智能体最能窥见人类真实意图

...测试，旨在通过明确的任务模糊性判断和用户意图理解来评测智能体的交互能力。IN3 基准数据的构造过程如上图所示，基于人类编写的种子任务为 Step 1，模型迭代生成新任务以增强数据集，同时从数据集中采样以作为下一轮生...……更多

2024-08-14 09:39:00意图,模型,人类,智能,智能,任务

类Sora模型能否理解物理规律？字节豆包大模型团队系统性研究

...经历过的最具挑战性、最耗时的项目，涉及对物理引擎、评测系统、实验方法的构建，非常繁琐，当中还有好几次项目「卡顿」住。不过，团队负责人和 Mentor 都给予了耐心和鼓励，「没人催赶紧把项目做完」。关于本文介绍成...……更多

2024-11-09 09:59:00模型,豆包,系统性,字节,规律,团队

壹点舆见|新能源汽车迎来寒潮暴雪大考

...在对车企带来了一定的压力，但是只有通过客观、公正的评测结果，才能让消费者对产品有更全面的了解。车企应该对第三方评测持开放态度，积极配合第三方机构的测试工作，共同推动行业的发展。大众新闻客户端刊文《专家...……更多

2023-12-18 18:35:00寒潮,新能源,暴雪,汽车,新能源,舆情

自动化、可复现，基于大语言模型群体智能的多维评估基准

...发了 Pandora 视频-语言世界模型、LLM Reasoners，以及 MMToM-QA 评测（ACL 2024 Outstanding Paper Award）。研究者们已经并陆续构建了成千上万的大规模语言模型（LLM），这些模型的各项能力（如推理和生成）也越来越强。因此，在多样的应..……更多

2024-10-23 12:03:00多维,基准,群体,模型,自动化,评估

微软论文一张截图，曝出GPT-3.5仅有200亿参数？AI圈

...误打错了。比如原本是120B，或者200B。结合现实中的各项评测来看，确实有很多小模型能够取得和ChatGPT差不多的成绩，比如Mistral-7B。也许，这也是侧面证实了GPT-3.5体量真的不大。很多网友也认为20B的参数可能是准确的，纷纷...……更多

2023-11-04 14:46:00微软,截图,参数,网友,论文,模型

OpenAI o1强推理能提升安全性？长对话诱导干翻o1

...识来初始化网络，以自动化地发现攻击线索。在危险问题评测集 Harmbench 上的实验结果表明，ActorAttack 在 Llama、Claude、GPT 等大模型上都取得了 80% 左右的攻击成功率。最后，研究人员基于 ActorAttack 开源了第一个多轮对话安全对...……更多

2024-11-08 09:46:00诱导,推理,安全性,对话,安全,攻击

腾讯开源最大MoE大语言模型！3D大模型同时支持文/图生成，

...讯混元全面开源业界首个中文原生DiT架构文生图大模型，评测结果国内领先。还有今天宣布开源的文/图生3D模型，单张图30秒可生成3D模型，效率与质量均在业内领先。混元已全面接入腾讯业务，并通过腾讯云向合作生态进行赋...……更多

2024-11-06 09:41:00模型,腾讯,全家,生成,同时,语言

面壁智能发布2B模型：适配主流手机，推理成本仅为GPT-4的

...问答能力还存在一定差距。而在测试模型接近人的程度的评测榜单MT-Bench上，MiniCPM-2B的表现超过了Llama 2-70B-Chat。MiniCPM-2B和Mistral-7B在主流评测集上的测评结果。图源：面壁智能MiniCPM-2B和主流模型在MT-Bench上的测评结果。图源：……更多

2024-02-03 16:03:00适配,推理,模型,主流,成本,智能

AI“明星”选手巅峰对决！记者实测最新谷歌Gemini与GP

...、OpenAI最新升级的GPT-4o与此前发布的GPT-4进行了一场能力评测。▍文本测试：谷歌Gemini 1.5 Pro正确率和速度完胜GPT-4o和GPT-4OpenAI发布GPT-4已过去一年多，据介绍，此次推出新旗舰模型GPT-4o的推理能力有明显的提升，速度快了，价格...……更多

2024-05-17 14:26:00实测,巅峰,选手,记者,明星,模型

拥有三块A6000的性能猛兽惠普Z6 G5工作站评测

...配置：惠普Z6 G5核心硬件可根据用户需求进行定制，本次评测样机搭载36核72线程的Intel Xeon W9-3475X处理器，插入了8条32GB ECC DDR5内存，内存总容量高达256GB，显卡配满了3块NVIDIA RTX A6000专业独显，硬盘配置了2块2TB SSD和2块12T……更多

2023-11-07 13:51:00惠普,猛兽,工作站,评测,性能,工作

腾讯混元文生图大模型升级并对外开源

...配置要求据此前报道，国内首个官方“大模型标准符合性评测”结果公布，腾讯混元大模型、成为首批通过评测的国产大模型，首批通过的大模型还有阿里通义千问、360智脑和百度文心一言。 ……更多

2024-05-15 14:23:00文生,腾讯,模型,对外,升级,文生

智慧芽发布AI助手“芽仔-生物医药”，大模型革新信息检索模式

...医药”为用户提供一站式、高可信度的数据查询与回答。评测结果显示，“智慧芽生物医药大模型”达到了通过中国执业药师职业资格考试、美国注册药剂师考试（NAPLEX）的水平，并在考试能力、机器翻译、分类能力等多个维度...……更多

2024-12-19 10:55:00革新,生物医药,助手,模型,智慧,检索

酷睿i9-14900K首发评测：开箱即有6.0GHz

...ks、Creo等软件性能的测试，同样取得了非常不错的成绩。评测总结由于这次酷睿i9-14900K对比前代基本只是频率上的小幅提升，性能上的提升比较有限，并不像“13香”对比12代时那么大，这也符合我以及很多消费者的预期，但并...……更多

2023-10-18 09:58:00评测,测试,前代,性能,英特,处理

你家的电子锁安全吗？来看10款电子锁比较试验结果

...类产品质量检验检测中心（浙江）/永康市质量技术监测研究院，按照《锁具安全通用技术条件》（GB21556—2008）进行检测，并对消费者比较关注的电磁兼容性、售后服务、内把手应急开启、防技术开启、主锁舌伸出长度等性能进...……更多

2023-11-27 12:08:00电子锁,电子,试验,结果,安全,电子锁

文本、图像、点云任意模态输入，AI能够一键生成高质量CAD模

...与多个点云重建或者基于点云生成的基准工作进行比较，评测结果展示出我们的方法在重建精度上表现出色。而在拓扑完整性的评估上，我们模型生成的 CAD 模型大多数生成结果都能保持严格的流形结构，没有出现悬边，具有较...……更多

2024-11-26 09:46:00一键,模态,高质量,生成,模型,图像

智谱AI新大模型来袭：部署价格大降50%，免费商用，做应用能

...知识工程实验室出身的创始人，还迎来了新面孔——智源研究院副院长刘江，曾经光年之外（王慧文创立的AI公司）的核心成员，如今首次以“智谱首席生态官”的角色出席CNCC。新一代ChatGLM3发布，特定任务下接近GPT-3.5水平论坛...……更多

2023-10-28 14:00:00商用,模型,能力,应用,价格,模型

好一个响当当的铜豌豆星途瑶光家族如何以安全定义豪华？

...最重要的一项碰撞指数。中保研的全称是中保研汽车技术研究院有限公司，是国际机构RCAR组织（权威的国际性汽车研究机构联盟）在中国的唯一正式成员机构，是完全独立的第三方专业机构。中保研碰撞测试结果至少对被测产...……更多

2024-04-10 11:38:00豌豆,豪华,家族,安全,安全,碰撞

李开复：中国大模型与美国顶尖差距从7年缩短至6个月

...布千亿参数Yi-Large闭源模型。他当时表示，Yi-Large的多项评测结果超越ChatGPT4。在一周前，OpenAI又推出了其最新模型GPT-4o，不仅性能有大幅提升，价格也下调了50%。国内市场，字节跳动、阿里等大厂纷纷大幅度降低大模型价格，百...……更多

2024-05-21 23:32:00李开复,美国,中国,顶尖,模型,差距

企业选型指南：精准锁定2025年最适合您的GEO服务商（附T

...在AI平台的品牌推荐率是行业平均值的5.3倍。基于第三方评测机构对国内56家主流GEO服务商的跟踪数据，本文从技术壁垒、商业回报、垂直适配三大维度，为企业呈现2025年度最具价值的GEO服务商TOP10权威榜单。评测框架与方法论...……更多

2025-10-29 20:17:00选型,服务商,深度,评测,指南,服务

对话国投智能滕达：将聚焦大模型技术应用、生成式人工智能和人工

...整合公司各产品线的人工智能研发力量，新组建人工智能研究院，突出围绕公共安全大数据和电子数据取证业务需求开展人工智能大模型技术研究。国投智能下一步将聚焦大模型技术应用、生成式人工智能和人工智能安全三个核...……更多

2024-06-05 00:24:00人工智能,智能,滕达,人工,技术应用,生成

国内首个新能源车辆安全智能评测系统在渤海轮渡投用

...客滚船上，烟台联通研发的国内首个新能源车辆安全智能评测系统——“绿安源”正式投入使用，标志着渤海湾新能源车跨海运输安全体系取得重大突破。渤海湾客滚航线年运送旅客超400万人次、车辆近120万辆次。随着新能源车...……更多

2025-08-05 22:04:00渤海,轮渡,新能源,评测,车辆,智能

SearchGPT第一波评测来了！响应速度超快还没广告，Op

OpenAI这次终于不放卫星了——最新发布的SearchGPT，已经有第一波尝鲜者展示了自己的体验。据做测试的博主介绍，SearchGPT的响应和输出速度都突出一个“快”。△来源：Twitter/Kesku尤其是和其它工具一比，有人觉得快得难以置信...……更多

2024-07-29 09:30:00一波,杀手锏,杀手,评测,速度,广告

“礼遇四川”四川特色伴手礼评测结果揭晓 50款伴手礼上榜

本文转自：人民网-四川频道人民网成都9月27日电（赵祖乐）9月26日，2024年“礼遇四川”四川特色伴手礼评测活动在成都落下帷幕。经过长达数月的精心筹备与激烈角逐，最终50款极具地域特色和文化底蕴的伴手礼脱颖而出，获...……更多

2024-09-27 20:27:00四川,评测结果,礼遇,评测,特色,结果

贵州7个市（州）通过省内评审参评全国千兆城市

...南7个市(州)提交的申报材料进行评审。来自中国信息通信研究院、遵义市通信发展管理办公室、华信咨询设计研究院、中通服咨询设计研究院有限公司等单位的专家共同参与评审。会议听取7个参评市(州)千兆城市建设总体情况，...……更多

2023-11-05 15:48:00贵州,评审,城市,全国,双千,城市

推理成本直降99%！百川智能「1+3」矩阵揭秘，两张4090

...n4-Air用到的高质量通用训练数据和训练技巧，都在里面！评测结果显示，在使用百川智能优质通用训练数据与企业专有数据混合微调后，模型在金融、教育、医疗等场景下的专业细分任务的平均可用率高达96%。相比不混合通用数...……更多

2024-11-04 09:50:00百川,矩阵,旗舰,推理,模型,成本

第三方平台冬测结果引争议！余承东称误导民众，长城吉利质疑标准

...启动了增程器。江西新能源科技职业学院新能源汽车技术研究院院长张翔告诉澎湃新闻记者，汽车在零下40摄氏度到40摄氏度之间必须正常工作，这是国家明确要求的。上市前的汽车必须做“三高试验”，包括高寒、高热、高海...……更多

2023-12-11 19:48:00长城,误导,吉利,第三方,民众,争议

讯飞星火X1全面升级领跑教育、医疗、司法行业应用

...务上效果继续突破，展现出优异的性能。根据最新测试集评测结果，星火X1在通用任务效果评测中全面对标OpenAI o1和DeepSeek R1，在数学、知识问答等方面表现突出。数学答题和复杂的数理逻辑推理方面，星火X1能够准确识别出复杂...……更多

2025-04-22 16:50:00讯飞,星火,行业应用,司法,升级,医疗

大幅减缓幻觉百融云创大模型精度测评结果出炉

...对6个包括百融云创大模型、ChatGPT3.5在内的大模型进行了评测。在测试中一共设置了600个问题，其中300个IDK（没有正确答案的问题），300个非IDK问题（有正确答案的问题），百融云创大模型在回答非IDK问题时准确率达到67.7%左右...……更多

2024-03-28 16:16:00精度,幻觉,模型,结果,模型,幻觉

page 4/3334 首页上一页 1 2 345 6 7 8 9 下一页末页

更多关于科技的资讯：

河东农商银行：“金融+健康”双向赋能解锁便民服务新体验

鲁网11月21日讯为回馈客户，赋能业务高质量发展，近日，河东农商银行桃源支行联合辖内某药业集团举办“金冬时节·健康相伴”客户养生见面会

2025-11-22 09:34:00

灵光4天下载破100万，扩容8轮，刷新Sora2五天纪录

11月22日消息，蚂蚁灵光上线4天下载量突破100万，冲上App Store中国区免费榜第六。灵光首个百万下载速度超过ChatGPT

2025-11-22 14:13:00

知识带货热度高，历史作家梅毅在抖音直播间发布新书

知识带货热度不减，越来越多作家走进直播间推荐新书、好书。11月20日，知名历史作家梅毅（网名“赫连勃勃大王”）携新作《天命无常

2025-11-22 15:35:00

齐绘未来发布“快上岸”智能求职小程序，多项自主知识产权技术为

北京齐绘未来教育科技有限公司近日正式推出“快上岸”微信小程序，以多项具备自主知识产权的AI系统为核心，为大学生提供精准

2025-11-22 15:36:00

以开源聚合力，以生态促创新，电鸿走出行业操作系统自主路径

“在过去，去一次现场要带一大堆终端，以应对现场不同设备的接入。现在，只需一部手机和一箱基础工具就行。”来自广州南沙示范区运维工作人员的分享

2025-11-22 15:37:00

河北建工省安装六分公司浙江八亿时空项目创新吊装体系赋能精细

河北新闻网讯（李力芳）2025年7月份以来，河北建工省安装六分公司浙江八亿时空项目创新引入平台吊装系统、蜘蛛吊、电动遥控坦克等专业技术装备

2025-11-22 18:08:00

太钢硅钢产品订单在欧洲市场成功落地

11月21日从太钢获悉，太钢近期硅钢产品订单在欧洲高端市场实现成功落地。此次出口的硅钢产品首次实现大卷重(15-17吨)和高牌号超宽规格(1250mm)供货

2025-11-22 18:20:00

校企携手研发新型电池拓展长时储能应用新边界

荆楚网（湖北日报网）讯（记者唐天琪通讯员王蕾、蓝静）11月20日，以“储能大时代，长时新蓝海”为主题的中国新型储能产业创新联盟2025年度大会在武汉召开

2025-11-22 19:06:00

必胜客中国业务进入快车道：门店突破4000家

2025年11月22日，百胜中国旗下必胜客在海南三亚举行中国第4000家门店的开业庆典。这一里程碑意味着必胜客在中国的布局进入新阶段

2025-11-22 22:32:00

主动对接专项辅导太原税务助力经营主体应对消费旺季

从乡村直播间的农特产品，到城市商场的促销热潮，再到物流行业的高效运转……记者从太原市税务局获悉，随着“双11”将下半年消费市场带入旺季

2025-11-21 08:12:00

天阳科技发布“量子增强计划”，多方聚力共筑“量子金融”新生态

近日，以 “量子计算+AI：重塑金融科技新范式” 为主题的前沿科技研讨会在北京召开，本次研讨会由天阳宏业科技股份有限公司（以下简称 “天阳科技”）主办

2025-11-21 08:29:00

奋进的河北·“十四五”答卷丨身边的“十四五”（四）：车间里的

向智而行，新型工业化加速跑——河钢集团唐钢公司构建全流程一体化生产计划排程系统，实现订单与产能高效匹配；石家庄四药集团应用生产执行系统

2025-11-21 08:36:00

华厦眼科发布《厦门市新闻工作者眼健康白皮书》打造职业健康保

“看见”，是新闻工作的起点。守护新闻工作者的清晰视野，就是守护社会公器的明亮窗口。11月18日，在厦门市新闻工作者协会指导下

2025-11-21 09:40:00

网易 UU 远程 Mac 被控功能上线，提升 macOS高效

网易 UU 远程全新版本上线，在已有 Mac 控制 PC 功能的基础上，正式开放 Mac 设备被控功能，自此 Mac 实现控制与被控的双向协作

2025-11-21 09:47:00

小米回应“潜水手表不能潜水”：相关报道失实

中新经纬11月21日电 “小米公司发言人”微博21日发布关于Xiaomi Watch S4 Sport潜水功能的说明。小米公司表示

2025-11-21 11:11:00

头条订阅服务