多维,基准,群体,模型,自动化,评估头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

南通农商银行：AI赋能搭建普惠展业平台操作“百宝箱”

...和优化“展业小助手”程序建设，进一步实现重复性劳动自动化处理，强化科技赋能，深化业务营销支持，进一步将平台优势转化为业务动能，服务客户、赋能基层、创新发展，实现用户体验、业务效率和经营价值的同步提升。...……更多

2024-11-27 21:59:00普惠,百宝,农商,南通,百宝箱,银行

科学家建立新评价基准，助力评估大模型数据分析能力

...更加符合预期的结果。整体来看，缺乏交互式数据分析的基准——是本次研究面临的最大问题之一。为了解决这一问题，他们以“斯坦福小镇”项目为启发，创建了“DECISION COMPANY”。“DECISION COMPANY”是数据分析领域的首个多代...……更多

2024-04-07 10:50:00立新,数据分析,基准,科学家,模型,评估

五大数字员工已上岗！讯飞星火让每个岗位都用上大模型

...快速构建可落地的智能体应用。反过来看企业端，企业对自动化、智能化工具的需求旺盛也在推动大模型应用落地的加速。目前，很多企业的现状是，大量有效数据被存储在企业内部但无法真正作为决策者选择的支撑，因此在技...……更多

2024-07-01 09:24:00讯飞,星火,模型,岗位,员工,数字

传openai全球招外包大军手把手训练chatgpt取代码农

...高级的编程技能。他们的作用是，编写OpenAI期待实现的「自动化」基本代码。具体来说，其中的60%从事「数据标注」工作——创建大量的图像、音频片段等信息，用来训练人工智能工具或自动驾驶汽车。另外的40%则是实打实的...……更多

2023-01-30 17:19:00手把,大军,训练,代码,全球,代码

刚刚，OpenAI震撼发布o1大模型！强化学习突破LLM推理

...草莓大模型。它拥有真正的通用推理能力。在一系列高难基准测试中展现出了超强实力，相比 GPT-4o 有巨大提升，让大模型的上限从「没法看」直接上升到优秀水平，不专门训练直接数学奥赛金牌，甚至能在博士级别的科学问答...……更多

2024-09-13 16:42:00推理,模型,极限,突破,学习,模型

AI卷翻科研！DeepMind 36页报告：全球实验室被「A

...真正瓶颈问题；而非企图让人类科学家已擅长的任务实现自动化。随着AI推动科学变得更经济高效，社会对于科学和科学家的需求也会随之增加。和其他行业不同，科学的需求几乎是无限的，而科技也并不会降低对科学家的需求...……更多

2024-11-27 18:23:00科学家,实验室,科研,指数,实验,科学

迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测

...一款名为 MMed-Llama 3 的全新基座模型，以 8B 的尺寸在多项基准测试中超越了现有的开源模型，更加适合通过医学指令微调，适配到各种医学场景。所有数据和代码、模型均已开源。MMedBench 上的准确率，图 d 展⽰了在 MMedC 上进...……更多

2024-09-30 09:51:00多语,大规,模型,语料,基准,大规模

“AI医生”来了，未来将应用于哪些场景？

...二人民医院脊柱关节外科康复医学科护士长康丹：一些自动化的任务，如智能导诊、药物分配等重复性和机械性的护理任务，正在被自动化系统取代。但是也需要特别警惕护理伦理、护理的数据安全和患者的隐私保护等问题。...……更多

2025-02-24 06:59:00场景,医生,应用,医生,儿科医生,医院

关于LLM-as-a-judge范式，终于有综述讲明白了

...where to judge）。最后，我们归纳了评估 LLM 作为评判者的基准数据集，并强调了关键挑战和有希望的方向，旨在提供有价值的见解并启发这一有希望的研究领域的未来研究。论文链接：https://arxiv.org/abs/2411.16594 网站链接：https://llm...……更多

2024-12-04 09:49:00范式,模型,基准,偏见,数据,评估

「世界开源新王」跌落神坛？重测跑分暴跌实锤造假，2人团队光速

...性消息——结果没多久，Reflection 70B就被打假了：公布的基准测试结果和他们的独立测试之间存在显著差异。无论是AI研究者，还是第三方评估者，都无法复现Matt Shumer所声称的结果。根据Artificial Analysis的数据，Reflection 70B在基准...……更多

2024-10-08 09:47:00神坛,光速,团队,世界,模型,基准

清华UCSD提出全新微调方法，8B小模型媲美GPT-4o！科

...进的代理模型。模型输入包括每个加利福尼亚州县的28天多维特征以及24维的州级初始条件，用于描述流行病状态。模型输出未来28天的流行病状态预测。四个自定义数据集主要由多项选择题构成，而其中的气候科学数据集还包含...……更多

2024-12-03 13:34:00正确率,清华,模型,全新,科学,方法

NeurIPS 2024 Oral | 小参数，大作为！揭秘

...是，HydraLoRA 的非对称架构摆脱了手动干预的需求，通过自动化的方式优化了任务间的学习过程。 ……更多

2024-10-22 09:57:00对称,架构,性能,参数,矩阵,任务

图像为纸机械为笔：山东建院智振视控团队绘就振捣新画卷

...致的返工，大幅缩短施工周期；减少人工成本上，它实现自动化监测与数据分析，降低对人工经验的依赖，减少因人工监督不足引发的质量问题；在提升施工质量方面，精准控制振捣频率、时间和力度，有效避免蜂窝、麻面等质...……更多

2025-06-09 10:17:00山东,画卷,图像,团队,机械,施工

位列第一梯队，腾讯混元再度领跑国内大模型

...模型在学术、产业与用户侧的广泛应用，构建了多层次、多维度的综合性测评基准，由十大基础任务组成，包括逻辑推理、代码、语言理解、长文本、角色扮演等。本次报告选取了国内外具有代表性的32个大模型4月份的版本，通...……更多

2024-05-06 16:52:00腾讯,梯队,模型,腾讯,模型,能力

精准狙击Llama 3.1？Mistral AI开源Larg

...量低于 Llama 3.1 的 4050 亿，但两者性能接近。并且在多个基准测试中与 GPT-4o、Anthropic 的 Claude 3.5 Sonnet 媲美。今年 2 月，Mistral AI 推出了最初的 Large 模型，其上下文窗口包含 32,000 个 token，新版模型在此……更多

2024-07-26 09:36:00模型,基准,多语,测试,性能,生成

指令跟随大比拼！Meta发布多轮多语言基准Multi-IF：

【新智元导读】Meta全新发布的基准Multi-IF涵盖八种语言、4501个三轮对话任务，全面揭示了当前LLM在复杂多轮、多语言场景中的挑战。所有模型在多轮对话中表现显著衰减，表现最佳的o1-preview模型在三轮对话的准确率从87.7%下降...……更多

2024-11-26 09:51:00多语,大比,基准,指令,任务,语言

六维力/力矩传感器的结构

...AGR）为4.54%。由于电动车(EV)销量的成长、各种制造流程的自动化程度不断提高以提高效率和生产力，以及消费性电子产品和穿戴式装置的日益普及，该市场正在经历稳定成长。高工机器人产业研究所（GGII）数据显示，2022年中国...……更多

2024-05-14 11:04:00力矩,传感器,结构,传感器,力矩,机器人

这才是真开源模型！公开后训练一切，性能超越Llama 3.1

...lu 3 系列模型明显优于同等规模的其它模型。8B 模型在各基准上的表现70B 模型在各基准上的表现 Tülu 3 是如何炼成的？Ai2 在预训练语言模型的基础上，通过四个阶段的后训练方法生成 Tülu 3 模型（见图 1）。这套训练流程结合...……更多

2024-11-26 09:44:00模型,性能,训练,模型,训练,数据

2025年，智能人才招聘系统将全面颠覆企业招聘生态！

...招聘过程中，利用大数据、人工智能等技术实现招聘流程自动化、智能化的一种新型招聘模式。“但需要注意的是，并不是应用了大数据、人工智能等技术的招聘系统就可以称之为智能化招聘系统。”用友大易相关负责人在接受...……更多

2024-12-27 09:45:00招聘,颠覆,企业招聘,生态,人才招聘,智能

月狐数据发布中国市场首份《AIGC应用app智能化评测报告》

...及23个二级指标构成，采用了500道封闭题和开放题，结合自动化测试和专家评分的形式对各大AIGC应用产品进行打分。评估结果显示，文心一言app智能化综合指数位居第一，其次是讯飞星火app、豆包app。拆分二级指标来看，文心一...……更多

2024-03-14 17:06:00数据发布,评测报告,中国,评测,智能,报告

CMU清华教LLM练成数学高手，LeanSTaR训练模型边思

...会在简单的算术上犯蠢。然而，LLM的数学能力弱，不代表自动化的定理证明器对数学没用。前段时间陶哲轩也曾在采访中强调，使用。这是一股不可小觑的力量。最近，CMU和清华的一项研究就致力于让LLM的「自然语言思维链」和...……更多

2024-08-10 09:47:00顶新,成数,清华,模型,训练,高手

Mamba作者新作：将Llama3蒸馏成混合线性 RNN

...。由此产生的混合模型包含四分之一的注意力层，在聊天基准测试中实现了与原始 Transformer 相当的性能，并且在聊天基准测试和一般基准测试中优于使用数万亿 token 从头开始训练的开源混合 Mamba 模型。此外，该研究还提出了一...……更多

2024-09-03 09:59:00线性,新作,混合,作者,模型,线性

Llama 4训练已开启！Meta科学家最新采访，揭秘Lla

...型参数量和训练token数的最佳比率。如果你希望在论文的基准测试中得到最优模型，那么Chinchilla本身没有问题；但Meta要发布的旗舰模型还需要更高的推理效率。因此，我们选择增加训练的token数，并增加训练时长，让模型达到「...……更多

2024-07-29 09:33:00科学家,训练,科学,模型,训练,基准

企企通：AI赋能，重塑未来供应链与采购新生态

...供了技术支持，有力驱动采购流程从传统模式向智能化、自动化、高效化的形态转变，提升供应链的透明度、灵动性和响应速度。1、AI技术赋能供应链智能化升级，实现效率提升与成本优化人工智能（AI）以其卓越的数据处理能...……更多

2024-03-20 10:00:00供应链,生态,采购,供应,采购,供应

教育部上线国家智慧教育平台：科大讯飞AI求职助手入选

...布、简历筛选、笔试测评、视频面试及录用通知等全流程自动化处理，通过算法优化实现高效人岗匹配。智能人才库管理支持非结构化简历文本的关键信息抽取与标签化处理，结合行业知识图谱自动推荐匹配候选人，显著降低人...……更多

2025-03-29 09:06:00讯飞,教育部,教育,教育平台,助手,智慧

人形机器人会跳舞和空翻还不够？通用具身智能仿真平台“格物”发

...上海大学副教授叶林奇在发布会上介绍，格物采用了模型自动化适配、自适应课程学习、前馈引导的强化学习、虚实贯通和在线学习等关键技术。无需编程直接可用，能一键式生成；同时支持全构型通用，支持代码多机复用和无...……更多

2025-03-21 12:58:00空翻,人形,用具,机器人,仿真,不够

2025开年精选的招聘管理系统排名整理！

...业对于招聘管理系统的需求更加迫切，希望通过智能化、自动化的工具提高招聘效率和质量，优化招聘流程，降低管理成本。为此，我们特别整理了2025年开年精选的招聘管理系统排名，以供企业参考和选择。招聘管理系统排名...……更多

2025-01-08 00:02:00开年,管理系统,招聘,系统,管理,管理

OpenAI劲敌来了！这款大模型多项测试超越GPT-4o，号

...融服务等领域的客户来说尤为重要。3.5 Sonnet还可以用于自动化视觉数据处理任务，增强医疗保健、金融服务、媒体和娱乐工作任务中的数据分析。Anthropic表示，公司致力于“每隔几个月就显著改善智能、速度和成本之间的权衡...……更多

2024-06-21 12:43:00劲敌,模型,智能,测试,模型,前代

比瓴科技荣获2023年度网络安全新星企业代表

...库为核心，增强式LLM、需求识别及决策引擎为驱动，通过自动化安全需求识别、标签筛选的方式向用户提供轻量化、便捷式的安全威胁建模能力，为企业安全开发活动赋能。安全专家知识库基于核心内容交付团队十数年安全行业...……更多

2024-09-13 10:00:00新星,代表,年度,安全,科技,企业

多样任务真实数据，大模型在线购物基准Shopping MML

谁是在线购物领域最强大模型？也有评测基准了。基于真实在线购物数据，电商巨头亚马逊终于“亮剑”——联合香港科技大学、圣母大学构建了一个大规模、多任务评测基准Shopping MMLU，用以评估大语言模型在在线购物领域的...……更多

2024-11-21 09:45:00在线购物,基准,模型,任务,购物,数据

page 3/1667 首页上一页 1 234 5 6 7 8 下一页末页

更多关于科技的资讯：

葵花药业×淘宝闪购签署战略合作：共探“AI+超级入口”下的医

11月28日，在2025淘宝闪购“聚势共赢”医药即时电商峰会现场，葵花药业集团与淘宝闪购正式签署战略合作协议，成为淘宝闪购医药健康领域首批战略级合作伙伴之一

2025-12-03 10:11:00

解码三一重能：风电龙头的突围与出海

十月的北京，三一重能南口产业园区内，一座数十米高的风力发电机静静运转，园区内却是一派繁忙景象。作为三一集团在京重要产业集群

2025-12-03 10:11:00

不同地区互联网企业中统计学专业毕业生薪资对比分析

摘要：本文通过对不同地区互联网企业中统计学专业毕业生薪资的对比分析，探讨薪资分布的现状及其影响因素。研究发现，一线城市和二线城市在薪资水平上存在显著差异

2025-12-03 06:16:00

中信银行石家庄分行以温情服务筑金融消费者幸福驿站

“张叔叔，这银行卡的密码可不能随便告诉别人，就连短信验证码也得藏好，那可是您账户的‘第二把钥匙’”。中信银行石家庄分行网点工作人员一边为70多岁的张叔叔递上一杯水

2025-12-02 10:21:00

中国移动成功举办“AI赋能医院后勤管理新发展”论坛

2025年11月27至29日，由全国卫生产业企业管理协会医院后勤管理发展分会主办的2025年学术会议在杭州召开。中国移动受邀参加“新质生产力助力医院后勤高质量发展”主论坛

2025-12-02 11:03:00

腾讯云姚一兆：用全栈AI助力具身智能赛道加速发展

“具身智能是AI赛道中的焦点，其商业化更依赖技术平台、场景适配与生态协同。腾讯云愿意提供全栈AI服务能力，助力具身智能赛道与广大企业共同发展

2025-12-02 11:03:00

2025年国内外麦角硫因补充剂深度测评：合成生物浪潮下的精选

在大健康消费升级与抗衰需求爆发的今天，麦角硫因作为“线粒体级”超级抗氧化剂，已成为膳食补充剂领域的核心赛道。据天猫国际发布的《2023全球超级成分趋势白皮书》显示

2025-12-02 11:31:00

企业级云服务器如何选？从可靠性到成本治理，看 AWS 的企业

企业数字化转型不断深化，业务系统的可用性、数据安全性和架构弹性正成为企业核心竞争力的重要组成部分。云服务器作为企业 IT 基础设施的底座

2025-12-02 11:42:00

全维健康守护创造美好生活——富德生命人寿保险股份有限公司举

11月21日，富德生命人寿保险股份有限公司在河北石家庄举行以“全维健康守护创造美好生活”为主题的健康险产品矩阵暨服务升级发布会

2025-12-02 12:11:00

深度解析GeneIII仅三麦角硫因胶囊：以合成生物技术，树立

GeneIII仅三麦角硫因胶囊凭借 99.99% 行业顶尖纯度、原生生物合成技术壁垒、三甲医院人体临床验证背书，成为兼具安全性

2025-12-02 14:27:00

从梅酒到书籍：梅见的文化升维之路

步入繁华的商业街区，不难发现一个耐人寻味的现象：店铺橱窗中的传统文化元素，正以近乎重复的方式不断上演。印着汉字 logo 的T恤

2025-12-02 14:35:00

丝玫瑰携手首玺丽格科创驱动美力升级

2025年12月2日，由键凯科技旗下医美产品线品牌——丝玫瑰®（SILKROSE）与北京首玺丽格联合举办的“中国‘智’造

2025-12-02 15:35:00

白酒+体育IP重构行业营销新范式，五粮液世界杯联名款京东首发

鲁网12月2日讯2026年美加墨男足世界杯分组抽签仪式将于当地时间12月5日在美国华盛顿举行。同日，五粮液FIFA2026世界杯官方联名款产品将在京东直播间重磅首发上市

2025-12-02 15:36:00

从“车间老师傅”到“门店销冠”：飞书AI正在重塑吉利汽车研究

当AI逐渐褪去神秘面纱，谁是这场技术变革真正的操盘手？答案是：一线业务人。近日，首届「飞书AI效率先锋全国大赛」华东赛区半决赛圆满收官

2025-12-02 15:58:00

江瀚：即时零售不再打“补贴战”了

中新经纬12月2日电题：即时零售不再打“补贴战”了作者江瀚盘古智库高级研究员随着资本耐心减弱，单纯依赖补贴拉动的增长已难以为继

2025-12-02 16:09:00

头条订阅服务