多维,基准,群体,模型,自动化,评估头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

数势科技—中原银行智能指标平台建设项目入选《沙丘社区大模型先

...理平台，确保指标定义的统一性和标准化，通过低代码、自动化的指标生产代替人工开发进而提高指标交付效率，以便更好地挖掘数据中的价值。在此基础上，项目还融合大模型能力构建智能分析平台，实现指标问答、图表生成...……更多

2025-01-09 10:22:00中原,先锋,沙丘,建设项目,模型,指标

赛宁网安BAS+DeepSeek：一支永不跳槽的红队专家

...护有效性验证评估工具，虽满足了安全验证评估持续化、自动化的需求，但验证成效在一定程度上受制于攻击场景与攻击剧本的设计。BAS厂商普遍依赖固定的攻击剧本和场景，无法还原黑客的动态攻击方式。而现实中，黑客在攻...……更多

2025-02-24 15:00:00红队,永不,专家,攻击,安全,防御

$什么影响大模型安全？NeurIPS\'24新研究提出大模型越狱攻击新基准$

什么影响大模型安全？NeurIPS'24新研究提出大模型越狱

全新大语言模型越狱攻击基准与评估体系来了。来自香港科技大学（Guangzhou）USAIL研究团队，从攻击者和防御者的角度探讨了什么因素会影响大模型的安全。提出攻击分析系统性框架JailTrackBench。JailTrackBench研究重点分析了不同...……更多

2024-11-01 09:29:00模型,基准,攻击,影响,安全,研究

史上最严中文真实性评估：OpenAI o1第1豆包第2，其它

新的大语言模型（LLM）评估基准对于跟上大语言模型的快速发展至关重要。近日，淘宝天猫集团的研究者们提出了中文简短问答（Chinese SimpleQA），这是首个全面的中文基准，具有“中文、多样性、高质量、静态、易于评估”五...……更多

2024-11-22 09:51:00豆包,中文,真实性,评估,模型,中文

大模型能代替你刷知乎、打炉石传说、解谜“海龟汤”吗？清华、伯

...研究者设计了一个测试工具——AgentBench，用于评估LLM在多维度开放式生成环境中的推理能力和决策能力。研究者对25个LLM进行了全面评估，包括基于API的商业模型和开源模型。他们发现，顶级商业LLM在复杂环境中表现出强大的能...……更多

2023-08-18 12:00:00伯克,伯克利,一口,清华,海龟,科学家

南通农商银行：AI赋能搭建普惠展业平台操作“百宝箱”

...和优化“展业小助手”程序建设，进一步实现重复性劳动自动化处理，强化科技赋能，深化业务营销支持，进一步将平台优势转化为业务动能，服务客户、赋能基层、创新发展，实现用户体验、业务效率和经营价值的同步提升。...……更多

2024-11-27 21:59:00普惠,百宝,农商,南通,百宝箱,银行

五大数字员工已上岗！讯飞星火让每个岗位都用上大模型

...快速构建可落地的智能体应用。反过来看企业端，企业对自动化、智能化工具的需求旺盛也在推动大模型应用落地的加速。目前，很多企业的现状是，大量有效数据被存储在企业内部但无法真正作为决策者选择的支撑，因此在技...……更多

2024-07-01 09:24:00讯飞,星火,模型,岗位,员工,数字

科学家建立新评价基准，助力评估大模型数据分析能力

...更加符合预期的结果。整体来看，缺乏交互式数据分析的基准——是本次研究面临的最大问题之一。为了解决这一问题，他们以“斯坦福小镇”项目为启发，创建了“DECISION COMPANY”。“DECISION COMPANY”是数据分析领域的首个多代...……更多

2024-04-07 10:50:00立新,数据分析,基准,科学家,模型,评估

传openai全球招外包大军手把手训练chatgpt取代码农

...高级的编程技能。他们的作用是，编写OpenAI期待实现的「自动化」基本代码。具体来说，其中的60%从事「数据标注」工作——创建大量的图像、音频片段等信息，用来训练人工智能工具或自动驾驶汽车。另外的40%则是实打实的...……更多

2023-01-30 17:19:00手把,大军,训练,代码,全球,代码

刚刚，OpenAI震撼发布o1大模型！强化学习突破LLM推理

...草莓大模型。它拥有真正的通用推理能力。在一系列高难基准测试中展现出了超强实力，相比 GPT-4o 有巨大提升，让大模型的上限从「没法看」直接上升到优秀水平，不专门训练直接数学奥赛金牌，甚至能在博士级别的科学问答...……更多

2024-09-13 16:42:00推理,模型,极限,突破,学习,模型

AI卷翻科研！DeepMind 36页报告：全球实验室被「A

...真正瓶颈问题；而非企图让人类科学家已擅长的任务实现自动化。随着AI推动科学变得更经济高效，社会对于科学和科学家的需求也会随之增加。和其他行业不同，科学的需求几乎是无限的，而科技也并不会降低对科学家的需求...……更多

2024-11-27 18:23:00科学家,实验室,科研,指数,实验,科学

迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测

...一款名为 MMed-Llama 3 的全新基座模型，以 8B 的尺寸在多项基准测试中超越了现有的开源模型，更加适合通过医学指令微调，适配到各种医学场景。所有数据和代码、模型均已开源。MMedBench 上的准确率，图 d 展⽰了在 MMedC 上进...……更多

2024-09-30 09:51:00多语,大规,模型,语料,基准,大规模

“AI医生”来了，未来将应用于哪些场景？

...二人民医院脊柱关节外科康复医学科护士长康丹：一些自动化的任务，如智能导诊、药物分配等重复性和机械性的护理任务，正在被自动化系统取代。但是也需要特别警惕护理伦理、护理的数据安全和患者的隐私保护等问题。...……更多

2025-02-24 06:59:00场景,医生,应用,医生,儿科医生,医院

清华UCSD提出全新微调方法，8B小模型媲美GPT-4o！科

...进的代理模型。模型输入包括每个加利福尼亚州县的28天多维特征以及24维的州级初始条件，用于描述流行病状态。模型输出未来28天的流行病状态预测。四个自定义数据集主要由多项选择题构成，而其中的气候科学数据集还包含...……更多

2024-12-03 13:34:00正确率,清华,模型,全新,科学,方法

关于LLM-as-a-judge范式，终于有综述讲明白了

...where to judge）。最后，我们归纳了评估 LLM 作为评判者的基准数据集，并强调了关键挑战和有希望的方向，旨在提供有价值的见解并启发这一有希望的研究领域的未来研究。论文链接：https://arxiv.org/abs/2411.16594 网站链接：https://llm...……更多

2024-12-04 09:49:00范式,模型,基准,偏见,数据,评估

图像为纸机械为笔：山东建院智振视控团队绘就振捣新画卷

...致的返工，大幅缩短施工周期；减少人工成本上，它实现自动化监测与数据分析，降低对人工经验的依赖，减少因人工监督不足引发的质量问题；在提升施工质量方面，精准控制振捣频率、时间和力度，有效避免蜂窝、麻面等质...……更多

2025-06-09 10:17:00山东,画卷,图像,团队,机械,施工

「世界开源新王」跌落神坛？重测跑分暴跌实锤造假，2人团队光速

...性消息——结果没多久，Reflection 70B就被打假了：公布的基准测试结果和他们的独立测试之间存在显著差异。无论是AI研究者，还是第三方评估者，都无法复现Matt Shumer所声称的结果。根据Artificial Analysis的数据，Reflection 70B在基准...……更多

2024-10-08 09:47:00神坛,光速,团队,世界,模型,基准

位列第一梯队，腾讯混元再度领跑国内大模型

...模型在学术、产业与用户侧的广泛应用，构建了多层次、多维度的综合性测评基准，由十大基础任务组成，包括逻辑推理、代码、语言理解、长文本、角色扮演等。本次报告选取了国内外具有代表性的32个大模型4月份的版本，通...……更多

2024-05-06 16:52:00腾讯,梯队,模型,腾讯,模型,能力

NeurIPS 2024 Oral | 小参数，大作为！揭秘

...是，HydraLoRA 的非对称架构摆脱了手动干预的需求，通过自动化的方式优化了任务间的学习过程。 ……更多

2024-10-22 09:57:00对称,架构,性能,参数,矩阵,任务

六维力/力矩传感器的结构

...AGR）为4.54%。由于电动车(EV)销量的成长、各种制造流程的自动化程度不断提高以提高效率和生产力，以及消费性电子产品和穿戴式装置的日益普及，该市场正在经历稳定成长。高工机器人产业研究所（GGII）数据显示，2022年中国...……更多

2024-05-14 11:04:00力矩,传感器,结构,传感器,力矩,机器人

精准狙击Llama 3.1？Mistral AI开源Larg

...量低于 Llama 3.1 的 4050 亿，但两者性能接近。并且在多个基准测试中与 GPT-4o、Anthropic 的 Claude 3.5 Sonnet 媲美。今年 2 月，Mistral AI 推出了最初的 Large 模型，其上下文窗口包含 32,000 个 token，新版模型在此……更多

2024-07-26 09:36:00模型,基准,多语,测试,性能,生成