评测结果,研究院,评测,结果,研究,模型头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

“天文知识能力最强”的大语言模型来了

...拥有700亿参数、320亿tokens文本语料，经过了1万道天文学评测数据集的测评，是当前天文知识能力最强的大语言模型。作为天文学的“新质生产力”，AstroOne将促进学科交叉、突破领域边界，探索未知领域中的未知问题，加速天文...……更多

2024-11-03 11:12:00知识能力,天文,模型,能力,语言,知识

德国OpenAI加入开源大战！发布欧洲纯血版模型，曾获博世和

...（由来自斯坦福的团队开发的大语言模型评测系统）上的评测结果：标准版Pharia在德语、法语和西班牙语上的表现和法国的模型Mistral、美国的模型Llama相差不大，但在英语上的表现则不如两者。“对齐“版Pharia则大体上比标准...……更多

2024-08-28 09:43:00博世,纯血,惠普,欧洲,德国,模型

开闭源模型「大乱斗」：看看哪个智能体最能窥见人类真实意图

...测试，旨在通过明确的任务模糊性判断和用户意图理解来评测智能体的交互能力。IN3 基准数据的构造过程如上图所示，基于人类编写的种子任务为 Step 1，模型迭代生成新任务以增强数据集，同时从数据集中采样以作为下一轮生...……更多

2024-08-14 09:39:00意图,模型,人类,智能,智能,任务

类Sora模型能否理解物理规律？字节豆包大模型团队系统性研究

...经历过的最具挑战性、最耗时的项目，涉及对物理引擎、评测系统、实验方法的构建，非常繁琐，当中还有好几次项目「卡顿」住。不过，团队负责人和 Mentor 都给予了耐心和鼓励，「没人催赶紧把项目做完」。关于本文介绍成...……更多

2024-11-09 09:59:00模型,豆包,系统性,字节,规律,团队

壹点舆见|新能源汽车迎来寒潮暴雪大考

...在对车企带来了一定的压力，但是只有通过客观、公正的评测结果，才能让消费者对产品有更全面的了解。车企应该对第三方评测持开放态度，积极配合第三方机构的测试工作，共同推动行业的发展。大众新闻客户端刊文《专家...……更多

2023-12-18 18:35:00寒潮,新能源,暴雪,汽车,新能源,舆情

自动化、可复现，基于大语言模型群体智能的多维评估基准

...发了 Pandora 视频-语言世界模型、LLM Reasoners，以及 MMToM-QA 评测（ACL 2024 Outstanding Paper Award）。研究者们已经并陆续构建了成千上万的大规模语言模型（LLM），这些模型的各项能力（如推理和生成）也越来越强。因此，在多样的应..……更多

2024-10-23 12:03:00多维,基准,群体,模型,自动化,评估

微软论文一张截图，曝出GPT-3.5仅有200亿参数？AI圈

...误打错了。比如原本是120B，或者200B。结合现实中的各项评测来看，确实有很多小模型能够取得和ChatGPT差不多的成绩，比如Mistral-7B。也许，这也是侧面证实了GPT-3.5体量真的不大。很多网友也认为20B的参数可能是准确的，纷纷...……更多

2023-11-04 14:46:00微软,截图,参数,网友,论文,模型

OpenAI o1强推理能提升安全性？长对话诱导干翻o1

...识来初始化网络，以自动化地发现攻击线索。在危险问题评测集 Harmbench 上的实验结果表明，ActorAttack 在 Llama、Claude、GPT 等大模型上都取得了 80% 左右的攻击成功率。最后，研究人员基于 ActorAttack 开源了第一个多轮对话安全对...……更多

2024-11-08 09:46:00诱导,推理,安全性,对话,安全,攻击

腾讯开源最大MoE大语言模型！3D大模型同时支持文/图生成，

...讯混元全面开源业界首个中文原生DiT架构文生图大模型，评测结果国内领先。还有今天宣布开源的文/图生3D模型，单张图30秒可生成3D模型，效率与质量均在业内领先。混元已全面接入腾讯业务，并通过腾讯云向合作生态进行赋...……更多

2024-11-06 09:41:00模型,腾讯,全家,生成,同时,语言

面壁智能发布2B模型：适配主流手机，推理成本仅为GPT-4的

...问答能力还存在一定差距。而在测试模型接近人的程度的评测榜单MT-Bench上，MiniCPM-2B的表现超过了Llama 2-70B-Chat。MiniCPM-2B和Mistral-7B在主流评测集上的测评结果。图源：面壁智能MiniCPM-2B和主流模型在MT-Bench上的测评结果。图源：……更多

2024-02-03 16:03:00适配,推理,模型,主流,成本,智能

AI“明星”选手巅峰对决！记者实测最新谷歌Gemini与GP

...、OpenAI最新升级的GPT-4o与此前发布的GPT-4进行了一场能力评测。▍文本测试：谷歌Gemini 1.5 Pro正确率和速度完胜GPT-4o和GPT-4OpenAI发布GPT-4已过去一年多，据介绍，此次推出新旗舰模型GPT-4o的推理能力有明显的提升，速度快了，价格...……更多

2024-05-17 14:26:00实测,巅峰,选手,记者,明星,模型

拥有三块A6000的性能猛兽惠普Z6 G5工作站评测

...配置：惠普Z6 G5核心硬件可根据用户需求进行定制，本次评测样机搭载36核72线程的Intel Xeon W9-3475X处理器，插入了8条32GB ECC DDR5内存，内存总容量高达256GB，显卡配满了3块NVIDIA RTX A6000专业独显，硬盘配置了2块2TB SSD和2块12T……更多

2023-11-07 13:51:00惠普,猛兽,工作站,评测,性能,工作

腾讯混元文生图大模型升级并对外开源

...配置要求据此前报道，国内首个官方“大模型标准符合性评测”结果公布，腾讯混元大模型、成为首批通过评测的国产大模型，首批通过的大模型还有阿里通义千问、360智脑和百度文心一言。 ……更多

2024-05-15 14:23:00文生,腾讯,模型,对外,升级,文生

智慧芽发布AI助手“芽仔-生物医药”，大模型革新信息检索模式

...医药”为用户提供一站式、高可信度的数据查询与回答。评测结果显示，“智慧芽生物医药大模型”达到了通过中国执业药师职业资格考试、美国注册药剂师考试（NAPLEX）的水平，并在考试能力、机器翻译、分类能力等多个维度...……更多

2024-12-19 10:55:00革新,生物医药,助手,模型,智慧,检索

酷睿i9-14900K首发评测：开箱即有6.0GHz

...ks、Creo等软件性能的测试，同样取得了非常不错的成绩。评测总结由于这次酷睿i9-14900K对比前代基本只是频率上的小幅提升，性能上的提升比较有限，并不像“13香”对比12代时那么大，这也符合我以及很多消费者的预期，但并...……更多

2023-10-18 09:58:00评测,测试,前代,性能,英特,处理

你家的电子锁安全吗？来看10款电子锁比较试验结果

...类产品质量检验检测中心（浙江）/永康市质量技术监测研究院，按照《锁具安全通用技术条件》（GB21556—2008）进行检测，并对消费者比较关注的电磁兼容性、售后服务、内把手应急开启、防技术开启、主锁舌伸出长度等性能进...……更多

2023-11-27 12:08:00电子锁,电子,试验,结果,安全,电子锁

文本、图像、点云任意模态输入，AI能够一键生成高质量CAD模

...与多个点云重建或者基于点云生成的基准工作进行比较，评测结果展示出我们的方法在重建精度上表现出色。而在拓扑完整性的评估上，我们模型生成的 CAD 模型大多数生成结果都能保持严格的流形结构，没有出现悬边，具有较...……更多

2024-11-26 09:46:00一键,模态,高质量,生成,模型,图像

智谱AI新大模型来袭：部署价格大降50%，免费商用，做应用能

...知识工程实验室出身的创始人，还迎来了新面孔——智源研究院副院长刘江，曾经光年之外（王慧文创立的AI公司）的核心成员，如今首次以“智谱首席生态官”的角色出席CNCC。新一代ChatGLM3发布，特定任务下接近GPT-3.5水平论坛...……更多

2023-10-28 14:00:00商用,模型,能力,应用,价格,模型

好一个响当当的铜豌豆星途瑶光家族如何以安全定义豪华？

...最重要的一项碰撞指数。中保研的全称是中保研汽车技术研究院有限公司，是国际机构RCAR组织（权威的国际性汽车研究机构联盟）在中国的唯一正式成员机构，是完全独立的第三方专业机构。中保研碰撞测试结果至少对被测产...……更多

2024-04-10 11:38:00豌豆,豪华,家族,安全,安全,碰撞

李开复：中国大模型与美国顶尖差距从7年缩短至6个月

...布千亿参数Yi-Large闭源模型。他当时表示，Yi-Large的多项评测结果超越ChatGPT4。在一周前，OpenAI又推出了其最新模型GPT-4o，不仅性能有大幅提升，价格也下调了50%。国内市场，字节跳动、阿里等大厂纷纷大幅度降低大模型价格，百...……更多

2024-05-21 23:32:00李开复,美国,中国,顶尖,模型,差距

企业选型指南：精准锁定2025年最适合您的GEO服务商（附T

...在AI平台的品牌推荐率是行业平均值的5.3倍。基于第三方评测机构对国内56家主流GEO服务商的跟踪数据，本文从技术壁垒、商业回报、垂直适配三大维度，为企业呈现2025年度最具价值的GEO服务商TOP10权威榜单。评测框架与方法论...……更多

2025-10-29 20:17:00选型,服务商,深度,评测,指南,服务

对话国投智能滕达：将聚焦大模型技术应用、生成式人工智能和人工

...整合公司各产品线的人工智能研发力量，新组建人工智能研究院，突出围绕公共安全大数据和电子数据取证业务需求开展人工智能大模型技术研究。国投智能下一步将聚焦大模型技术应用、生成式人工智能和人工智能安全三个核...……更多

2024-06-05 00:24:00人工智能,智能,滕达,人工,技术应用,生成

国内首个新能源车辆安全智能评测系统在渤海轮渡投用

...客滚船上，烟台联通研发的国内首个新能源车辆安全智能评测系统——“绿安源”正式投入使用，标志着渤海湾新能源车跨海运输安全体系取得重大突破。渤海湾客滚航线年运送旅客超400万人次、车辆近120万辆次。随着新能源车...……更多

2025-08-05 22:04:00渤海,轮渡,新能源,评测,车辆,智能

SearchGPT第一波评测来了！响应速度超快还没广告，Op

OpenAI这次终于不放卫星了——最新发布的SearchGPT，已经有第一波尝鲜者展示了自己的体验。据做测试的博主介绍，SearchGPT的响应和输出速度都突出一个“快”。△来源：Twitter/Kesku尤其是和其它工具一比，有人觉得快得难以置信...……更多

2024-07-29 09:30:00一波,杀手锏,杀手,评测,速度,广告

“礼遇四川”四川特色伴手礼评测结果揭晓 50款伴手礼上榜

本文转自：人民网-四川频道人民网成都9月27日电（赵祖乐）9月26日，2024年“礼遇四川”四川特色伴手礼评测活动在成都落下帷幕。经过长达数月的精心筹备与激烈角逐，最终50款极具地域特色和文化底蕴的伴手礼脱颖而出，获...……更多

2024-09-27 20:27:00四川,评测结果,礼遇,评测,特色,结果

贵州7个市（州）通过省内评审参评全国千兆城市

...南7个市(州)提交的申报材料进行评审。来自中国信息通信研究院、遵义市通信发展管理办公室、华信咨询设计研究院、中通服咨询设计研究院有限公司等单位的专家共同参与评审。会议听取7个参评市(州)千兆城市建设总体情况，...……更多

2023-11-05 15:48:00贵州,评审,城市,全国,双千,城市

推理成本直降99%！百川智能「1+3」矩阵揭秘，两张4090

...n4-Air用到的高质量通用训练数据和训练技巧，都在里面！评测结果显示，在使用百川智能优质通用训练数据与企业专有数据混合微调后，模型在金融、教育、医疗等场景下的专业细分任务的平均可用率高达96%。相比不混合通用数...……更多

2024-11-04 09:50:00百川,矩阵,旗舰,推理,模型,成本

第三方平台冬测结果引争议！余承东称误导民众，长城吉利质疑标准

...启动了增程器。江西新能源科技职业学院新能源汽车技术研究院院长张翔告诉澎湃新闻记者，汽车在零下40摄氏度到40摄氏度之间必须正常工作，这是国家明确要求的。上市前的汽车必须做“三高试验”，包括高寒、高热、高海...……更多

2023-12-11 19:48:00长城,误导,吉利,第三方,民众,争议

讯飞星火X1全面升级领跑教育、医疗、司法行业应用

...务上效果继续突破，展现出优异的性能。根据最新测试集评测结果，星火X1在通用任务效果评测中全面对标OpenAI o1和DeepSeek R1，在数学、知识问答等方面表现突出。数学答题和复杂的数理逻辑推理方面，星火X1能够准确识别出复杂...……更多

2025-04-22 16:50:00讯飞,星火,行业应用,司法,升级,医疗

大幅减缓幻觉百融云创大模型精度测评结果出炉

...对6个包括百融云创大模型、ChatGPT3.5在内的大模型进行了评测。在测试中一共设置了600个问题，其中300个IDK（没有正确答案的问题），300个非IDK问题（有正确答案的问题），百融云创大模型在回答非IDK问题时准确率达到67.7%左右...……更多

2024-03-28 16:16:00精度,幻觉,模型,结果,模型,幻觉

page 4/3000 首页上一页 1 2 345 6 7 8 9 下一页末页

更多关于科技的资讯：

丰台怡海中学无人驾驶实训教学项目落地

11月28日，AI驭见未来——怡海教育&加州伯克利大学机器人自动驾驶大赛ROAR实训基地揭牌仪式在北京市丰台区怡海中学（北校区）举行

2025-12-02 12:04:00

鹭江茶桌仔 | “全球第一”为何相中厦门？

●杨炯上周末，在珠海的亚洲通航展上，奥捷龙航空科技有限公司格外引人注目。虽然已多次到珠海参展，但这次它“来自厦门”。这一全球市场份额第一的德国旋翼机品牌

2025-12-02 08:18:00

博物馆进入“沉浸时代”，感官残障观众如何“入场”

视障文化博物馆“触摸文明”展厅。中青报·中青网记者李怡蒙/摄如今，许多博物馆将视觉、听觉、触觉等多种感知方式融合，创造出多层次

2025-12-02 05:43:00

烟台联通举办客服人员心理健康专题讲座

胶东在线12月1日讯为加强对一线客服员工的人文关怀，帮助员工有效应对工作压力，提升情绪管理与自我调适能力，11月26日

2025-12-02 06:42:00

现代物流网络布局与供应链弹性提升的关联

摘要：本文分析现代物流网络布局与供应链弹性提升的内在关联，探讨节点布局合理性、线路连接多样性、资源整合协同性对供应链冗余能力

2025-12-02 07:09:00

管理会计在企业战略决策中的应用研究

摘要：本文聚焦管理会计在企业战略决策中的应用，首先解析其与战略决策的内在关联，即通过整合财务与非财务信息，为战略制定提供系统性支持

2025-12-02 07:10:00

警惕境外组织利用恶意SDK收集敏感信息国家安全机关提示

中国网12月2日讯据国家安全部官微消息，国家安全部提示，SDK（软件开发工具包）是一套为特定软件框架、硬件平台或操作系统提供的开发工具集合

2025-12-02 07:26:00

全球首创全动压空气轴承产业化成果发布，开启高端制造新纪元

北京讯—— 2025年11月28日，“全球首创全动压空气轴承产业化成果发布会”在北京首钢园香格里拉酒店圆满落幕。此次盛会标志着我国在超精密制造领域取得了重大突破

2025-12-02 07:32:00

联通超清电视狂欢双十一，临沂IPTV用户喜获iPhone17

鲁网12月1日讯一年一度的双十一购物狂欢盛宴圆满收官，在这场全民消费热潮中，山东联通精心策划的“双十一福利再升级”活动脱颖而出

2025-12-01 11:12:00

千里运荔藏巧思现代加盟终端拓新局

“就算失败，我也想知道，自己倒在距离终点多远的地方。”电视剧《长安的荔枝》中这句掷地有声的台词，精准道出了当下创业者选择加盟之路时的执着与忐忑

2025-12-01 12:23:00

赛事总奖金160万元！WCI国际冠军赛苏州完美收官

2025年坦克世界国际冠军赛（WCI）11月30日在苏州阳澄国际电竞馆落下帷幕。来自中国、欧洲、北美和亚太地区的八支顶尖战队经过激烈角逐

2025-12-01 13:58:00

2025年北京市中小学生电子与信息创意实践活动圆满举行

当AI小球听懂指令，当智能车驰骋赛场，当电路在指尖点亮创意……孩子们像科学家一样思考，像工程师一样实践。11月30日，2025年北京市中小学生电子与信息创意实践活动在北京市第十四中学(畿辅校区)火热开幕

2025-12-01 14:26:00

烟台联通创新应用高压直流供电技术破解高铁5G基站供电瓶颈

胶东在线12月1日讯在青烟威荣高铁5G覆盖扩容工程建设中，烟台联通成功应用高压直流供电技术创新方案，有效解决了牟平北山隧道西口

2025-12-02 05:00:00

海尔智慧家庭成立创新实验室布局好房子住居生态

海尔智慧家庭战略持续强化、开放和加速布局，又交出新成果。11 月 28日，以“AI 新纪元共筑智慧家”为主题的海尔智慧家庭生态创新研讨会在北京召开

2025-12-01 14:51:00

海尔智慧家庭新成果：2025物联网大会斩获两项大奖

海尔智慧家庭持续强化、开放并加速智慧居住领域战略布局，如今再添重磅新成果。11 月 29 日，在首届全球万物智联数字经济可持续发展大会暨2025（第十届）世界物联网大会上

2025-12-01 14:51:00

头条订阅服务