多维,基准,群体,模型,自动化,评估头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

无一大模型及格！北大/通研院提出超难基准，评估长文本理解生

...型及格！北大联合北京通用人工智能研究院提出了一个新基准数据集：LooGLE，专门用于测试和评估大语言模型（LLMs）长上下文理解能力。该数据集既能够评估LLMs对长文本的处理和检索能力，又可以评估其对文本长程依赖的建模...……更多

2024-08-08 09:39:00基准,北大,生成,模型,文本,评估

OpenAI o1太贵？那就自己做一个！纯提示方法让普通LL

...之地。人们可以利用这种推理能力来构建强大的工作流程自动化，以解决IT、网络安全、汽车等各个领域的问题。组织可以使用较小的开源模型来替代GPT-4o等成本较高的模型，用于需要复杂推理能力来解决的任务。参考资料：http...……更多

2024-11-08 09:43:00太贵,推理,进化,提示,能力,方法

智源评测体系发布国内外“百模”评估结果出炉

...史萍教授表示，相较文本，视频的主观评价复杂度极高。自动化指标无法完全捕捉模型生成的质量，更无法对生成视频的真实性、图文语义一致性等进行量化。因此，需要系统化构建针对文生视频模型的主观评价体系。该评价体...……更多

2024-05-17 17:26:00评测,评估,体系,结果,模型,评测

语言、机器人破壁，MIT等用GPT-4生成模拟任务，并迁移到

...Sim，它为设计和验证任务资产安排、任务进展提供了一种自动化机制。更重要的是，生成的任务表现出了极大的多样性，促进了机器人策略的任务级泛化。此外从概念上讲，利用 GenSim，LLM 的推理和编码能力通过中间合成的模拟...……更多

2023-10-17 16:58:00机器人,生成,机器,任务,语言,世界

全球AI安全评估测试有了新基准

...型安全领域两项国际标准发布全球AI安全评估测试有了新基准随着人工智能系统，特别是大语言模型成为社会各方面不可或缺的一部分，以一个全面的标准来解决它们的安全挑战变得至关重要。◎本报记者崔爽第27届联合国科技...……更多

2024-04-25 04:00:00基准,评估,测试,安全,全球,人工智能

LLM群体智能崛起，数学性能暴增11.6%！谷歌DeepMi

...解方程、掌握函数的概念），到复杂的（定理和证明）。自动化技能发现如下图所示，研究人员描述了，让GPT-4根据数学问题，所需的特定技能对数学问题进行分类的自动化过程。这里一共划分为两个阶段：首先，创建技能示例...……更多

2024-09-23 09:50:00新作,群体,性能,数学,机构,智能

《全球工程前沿2022》发布九大领域188个项目入选

...术、超低功耗物联网技术及芯片制造、人工智能电子设计自动化(EDA)技术、基于强化学习的无人系统进化算法、中低轨空间通信网络技术。 ——化工、冶金与材料工程领域，12项研究前沿分别是高性能超导储能材料研究、...……更多

2022-12-15 19:13领域,项目,工程,全球

初创公司推出全球首个ai软件工程师devin

...功能齐全的网络应用程序，根据用户反馈逐步增加功能。自动化查找BUG：Devin擅长识别、调试和修复代码问题，同时为开源和生产级软件仓库作出贡献。AI培训：从研究资料库中获取指令，建立并微调大型语言模型。官方对其的...……更多

2024-03-13 10:52:00工程师,工程,全球,公司,软件,工程

MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤

...入设置）更严格地评估模型的多模态理解能力；模型在新基准上的性能下降明显，表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型（MLLMs）在各个排行榜上展现的性能不断提升，例如GPT-4o在大学水平...……更多

2024-09-18 13:31:00模态,史诗,基准,难度,问答,文本

$什么影响大模型安全？NeurIPS\\\'24新研究提出大模型越狱攻击新基准$

什么影响大模型安全？NeurIPS\'24新研究提出大模型越

全新大语言模型越狱攻击基准与评估体系来了。来自香港科技大学（Guangzhou）USAIL研究团队，从攻击者和防御者的角度探讨了什么因素会影响大模型的安全。提出攻击分析系统性框架JailTrackBench。JailTrackBench研究重点分析了不同...……更多

2024-11-01 09:29:00模型,基准,攻击,影响,安全,研究

史上最严中文真实性评估：OpenAI o1第1豆包第2，其它

新的大语言模型（LLM）评估基准对于跟上大语言模型的快速发展至关重要。近日，淘宝天猫集团的研究者们提出了中文简短问答（Chinese SimpleQA），这是首个全面的中文基准，具有“中文、多样性、高质量、静态、易于评估”五...……更多

2024-11-22 09:51:00豆包,中文,真实性,评估,模型,中文

南通农商银行：AI赋能搭建普惠展业平台操作“百宝箱”

...和优化“展业小助手”程序建设，进一步实现重复性劳动自动化处理，强化科技赋能，深化业务营销支持，进一步将平台优势转化为业务动能，服务客户、赋能基层、创新发展，实现用户体验、业务效率和经营价值的同步提升。...……更多

2024-11-27 21:59:00普惠,百宝,农商,南通,百宝箱,银行

五大数字员工已上岗！讯飞星火让每个岗位都用上大模型

...快速构建可落地的智能体应用。反过来看企业端，企业对自动化、智能化工具的需求旺盛也在推动大模型应用落地的加速。目前，很多企业的现状是，大量有效数据被存储在企业内部但无法真正作为决策者选择的支撑，因此在技...……更多

2024-07-01 09:24:00讯飞,星火,模型,岗位,员工,数字

科学家建立新评价基准，助力评估大模型数据分析能力

...更加符合预期的结果。整体来看，缺乏交互式数据分析的基准——是本次研究面临的最大问题之一。为了解决这一问题，他们以“斯坦福小镇”项目为启发，创建了“DECISION COMPANY”。“DECISION COMPANY”是数据分析领域的首个多代...……更多

2024-04-07 10:50:00立新,数据分析,基准,科学家,模型,评估

传openai全球招外包大军手把手训练chatgpt取代码农

...高级的编程技能。他们的作用是，编写OpenAI期待实现的「自动化」基本代码。具体来说，其中的60%从事「数据标注」工作——创建大量的图像、音频片段等信息，用来训练人工智能工具或自动驾驶汽车。另外的40%则是实打实的...……更多

2023-01-30 17:19:00手把,大军,训练,代码,全球,代码

刚刚，OpenAI震撼发布o1大模型！强化学习突破LLM推理

...草莓大模型。它拥有真正的通用推理能力。在一系列高难基准测试中展现出了超强实力，相比 GPT-4o 有巨大提升，让大模型的上限从「没法看」直接上升到优秀水平，不专门训练直接数学奥赛金牌，甚至能在博士级别的科学问答...……更多

2024-09-13 16:42:00推理,模型,极限,突破,学习,模型

六维力/力矩传感器的结构

...AGR）为4.54%。由于电动车(EV)销量的成长、各种制造流程的自动化程度不断提高以提高效率和生产力，以及消费性电子产品和穿戴式装置的日益普及，该市场正在经历稳定成长。高工机器人产业研究所（GGII）数据显示，2022年中国...……更多

2024-05-14 11:04:00力矩,传感器,结构,传感器,力矩,机器人

AI卷翻科研！DeepMind 36页报告：全球实验室被「A

...真正瓶颈问题；而非企图让人类科学家已擅长的任务实现自动化。随着AI推动科学变得更经济高效，社会对于科学和科学家的需求也会随之增加。和其他行业不同，科学的需求几乎是无限的，而科技也并不会降低对科学家的需求...……更多

2024-11-27 18:23:00科学家,实验室,科研,指数,实验,科学

迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测

...一款名为 MMed-Llama 3 的全新基座模型，以 8B 的尺寸在多项基准测试中超越了现有的开源模型，更加适合通过医学指令微调，适配到各种医学场景。所有数据和代码、模型均已开源。MMedBench 上的准确率，图 d 展⽰了在 MMedC 上进...……更多

2024-09-30 09:51:00多语,大规,模型,语料,基准,大规模

位列第一梯队，腾讯混元再度领跑国内大模型

...模型在学术、产业与用户侧的广泛应用，构建了多层次、多维度的综合性测评基准，由十大基础任务组成，包括逻辑推理、代码、语言理解、长文本、角色扮演等。本次报告选取了国内外具有代表性的32个大模型4月份的版本，通...……更多

2024-05-06 16:52:00腾讯,梯队,模型,腾讯,模型,能力

「世界开源新王」跌落神坛？重测跑分暴跌实锤造假，2人团队光速

...性消息——结果没多久，Reflection 70B就被打假了：公布的基准测试结果和他们的独立测试之间存在显著差异。无论是AI研究者，还是第三方评估者，都无法复现Matt Shumer所声称的结果。根据Artificial Analysis的数据，Reflection 70B在基准...……更多

2024-10-08 09:47:00神坛,光速,团队,世界,模型,基准

NeurIPS 2024 Oral | 小参数，大作为！揭秘

...是，HydraLoRA 的非对称架构摆脱了手动干预的需求，通过自动化的方式优化了任务间的学习过程。 ……更多

2024-10-22 09:57:00对称,架构,性能,参数,矩阵,任务

月狐数据发布中国市场首份《AIGC应用app智能化评测报告》

...及23个二级指标构成，采用了500道封闭题和开放题，结合自动化测试和专家评分的形式对各大AIGC应用产品进行打分。评估结果显示，文心一言app智能化综合指数位居第一，其次是讯飞星火app、豆包app。拆分二级指标来看，文心一...……更多

2024-03-14 17:06:00数据发布,评测报告,中国,评测,智能,报告

精准狙击Llama 3.1？Mistral AI开源Larg

...量低于 Llama 3.1 的 4050 亿，但两者性能接近。并且在多个基准测试中与 GPT-4o、Anthropic 的 Claude 3.5 Sonnet 媲美。今年 2 月，Mistral AI 推出了最初的 Large 模型，其上下文窗口包含 32,000 个 token，新版模型在此……更多

2024-07-26 09:36:00模型,基准,多语,测试,性能,生成