多语,大比,基准,指令,任务,语言头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

指令跟随大比拼！Meta发布多轮多语言基准Multi-IF：覆盖8种语言，超4500种任务

...、4501个三轮对话任务，全面揭示了当前LLM在复杂多轮、多语言场景中的挑战。所有模型在多轮对话中表现显著衰减，表现最佳的o1-preview模型在三轮对话的准确率从87.7%下降到70.7%；在非拉丁文字语言上，所有模型的表现显著弱于...……更多

2024-11-26 09:51:00多语,大比,基准,指令,任务,语言

迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测

...而，这些进展主要依赖于英语的基座模型，并受制于缺乏多语言医疗专业数据的限制，导致当前的医疗大模型在处理非英语问题时效果不佳。为了克服这一挑战，近期一篇发表在《nature communications》的论文全面地从数据、测评、...……更多

2024-09-30 09:51:00多语,大规,模型,语料,基准,大规模

openai发布多语言大规模多任务语言理解

...日（9月23日）发布博文，报道称OpenAI在HuggingFace上发布了多语言大规模多任务语言理解（MMMLU）数据集。背景随着语言模型日益强大，评估其在不同语言、认知和文化背景下的能力已成为当务之急。OpenAI决定推出MMMLU数据集，通过...……更多

2024-09-24 22:07:00多语,大规,大规模,任务,语言,语言

精准狙击Llama 3.1？Mistral AI开源Larg

...均长度：语言多样性当今大量的商业化应用场景涉及处理多语言文档。Mistral Large 2 在大量多语言数据上进行了训练，特别是在英语、法语、德语、西班牙语、意大利语、葡萄牙语、荷兰语、俄语、中文、日语、韩语、阿拉伯语...……更多

2024-07-26 09:36:00模型,基准,多语,测试,性能,生成

文生图参数量升至240亿！Playground v3发布：深

...上甚至超越了人类设计师，同时支持精确的RGB颜色控制和多语言识别。自去年以来，文本到图像生成模型取得了巨大进展，模型的架构从传统的基于UNet逐渐转变为基于Transformer的模型。Playground Research最近发布了一篇论文，详细...……更多

2024-10-08 09:48:00文生,图形设计,深度,图形,人类,参数

87.8%准确率赶超GPT-4o登顶！谷歌DeepMind发

...在上下文长度为2048个token的英语数据上进行训练，可能在多语言或长上下文上表现不佳。在未来的版本中，作者计划包括对更多具有更长上下文的多语言数据集的训练。最后，这项工作一直以有监督的多任务方式训练FLAMe模型。...……更多

2024-08-05 09:37:00准确率,模型,评估,评估,模型,数据

全球最强开源大模型Llama 3发布：使用15T数据预训练，

... 2 的七倍，包含的代码数量也是 Llama 2 的四倍。为了应对多语言使用情况，Llama 3 的预训练数据集中有超过 5% 的高质量非英语数据，涵盖 30 多种语言。为了确保 Llama 3 在最高质量的数据上进行训练，Meta 开发了一系列数据过滤管...……更多

2024-04-20 11:03:00模型,训练,参数,数据,全球,模型

多样任务真实数据，大模型在线购物基准Shopping MML

...这些异质的用户行为，是在线购物所必须解决的问题。多语言任务：在线购物平台往往在不止一个地区运营，因此需要模型能同时理解多种语言描述下的商品和用户问题。基于以上分析，研究构造了Shopping MMLU，覆盖四项在线购...……更多

2024-11-21 09:45:00在线购物,基准,模型,任务,购物,数据

微软连发3款Phi-3.5模型：128K上下文，首用MoE架

...务。尽管参数规模仅有38.2亿，但Phi-3.5-mini-instruct模型在多语言和多轮对话任务中表现出的性能不俗。它在许多基准测试中拥有较为先进的水平，并在长上下文代码理解任务中以明显优势超过了其它模型（Llama-3.1-8B-instruct和Mistral-...……更多

2024-08-22 09:49:00上下文,微软,架构,模型,上下,性能

关于LLM-as-a-judge范式，终于有综述讲明白了

...见量化基准，挑战性任务基准，领域特定基准，以及其他多语言，多模态，指令跟随基准等等。表 2：LLM-as-a-judge 数据集和基线展望：挑战和机遇（1）偏见与脆弱性：大模型作为评判者，一直受困扰于各种各样影响评价公平性...……更多

2024-12-04 09:49:00范式,模型,基准,偏见,数据,评估

百万鲁棒数据训练，3D场景大语言模型新SOTA！IIT等发布

...3D场景理解中的鲁棒性和泛化能力，在多个3D多模态学习基准测试中取得了优异的性能，超越了以往的方法，且无需针对特定任务的微调。多模态大语言模型（Multi-modal Large Language Models, MLLMs）以文本模态为基础，将其它各种模态...……更多

2024-10-16 13:35:00模型,场景,训练,语言,数据,物体

代码模型自我进化超越GPT-4o蒸馏！UIUC伯克利等提出自

...，超过了参数量大10倍的CodeLlama-70B-Instruct。在全部的三项基准测试（代码生成、数据科学编程、代码编辑）中，SelfCodeAlign都战胜了之前最先进的指令微调方法OctoPack。此外，在HumanEval+上，SelfCodeAlign的性能超越了基于GPT-3.5……更多

2024-11-29 09:26:00伯克,伯克利,进化,模型,代码,方法

北大推出全新机器人多模态大模型！面向通用和机器人场景的高效推

...多种操作技能。在实验中，RoboMamba 在通用和机器人评估基准上展示了出色的推理能力，如图 2 所示。同时，我们的模型在模拟和现实世界实验中展示了令人印象深刻的操纵位姿预测能力，其推理速度比现有的机器人 MLLMs 快 7 倍...……更多

2024-06-21 09:52:00机器,模态,人多,机器人,推理,北大

刚刚，我们感受了一波最「像人」的国产AI，模型还是开源的

...在响应和打断速度、情绪感知情感共鸣、语音可控表达、多语言多方言等方面实现了突破。简单来说，「情感语音通话」提供了一个真人一般的对话伙伴，而不仅仅是一个文字的朗读者。以下视频来源于智谱清言视频链接：htt...……更多

2024-10-26 09:49:00一波,模型,国产,还是,语音,模型

刚刚，Llama 3.2 来了！支持图像推理，还有可在手机上

...于轻量级的 1B 和 3B 版本，则都是纯文本模型，但也具备多语言文本生成和工具调用能力。Meta 表示，这些模型可让开发者构建个性化的、在设备本地上运行的通用应用 —— 这类应用将具备很强的隐私性，因为数据无需离开设备...……更多

2024-09-27 13:42:00推理,可在,图像,运行,版本,支持

迎战GPT-4V！谷歌PaLI-3视觉语言模型问世，更小、更

...数据集，经过筛选和使用特定的训练目标。其他元素包括多语言字幕、OCR 处理、跨语言 VQA 和 VQG、物体感知 VQA 以及物体检测。虽然没有包括来自视频的任务或数据，但由于强大的图像编码器，PaLI-3 在这些基准上仍然具有竞争...……更多

2023-10-17 16:31:00更快,模型,视觉,语言,训练,模型

开源版OpenAI再出「神作」，小模型吊打Llama 3！M

...了Les Minimrau的性能。其中包括知识与常识、代码、数学、多语言四大方面。预训练模型如下图所示，与Gema 2 2B、Llama 3.2 3B相比较，Minstral 3B在以上基准上，取得了最优成绩。在与Llama 3.1 8B、Mistral 7B相比较过程中，仅有代码能力，...……更多

2024-10-23 09:56:00模型,边缘,革命,模型,指令,性能

$什么影响大模型安全？NeurIPS\\\'24新研究提出大模型越狱攻击新基准$

什么影响大模型安全？NeurIPS\'24新研究提出大模型越

...广泛的风险场景，如对抗性越狱查询、真实世界交互以及多语言环境等。JAILJUDGE的核心创新是引入了多Agent越狱评估框架，借鉴法庭审判的模式，通过多个Agent的协作，实现对越狱判断过程的明确化和可解释性。每个Agent（如判...……更多

2024-11-01 09:29:00模型,基准,攻击,影响,安全,研究

GPT-4劲敌，谷歌进入高能+高产模式

...项）上表现更好，特别是在数学、科学和推理（+28.9%），多语言（+22.3%），视频理解（+11.2%）和代码（+8.9%）等领域。即使是对比Gemini 系列的高端产品Gemini 1.0 Ultra， Gemini 1.5 Pro也在超过一半的基准（16/31）上表现更好，特别是在...……更多

2024-02-21 14:05:00劲敌,高产,模式,模型,上下文,处理

突破视频多模态大模型瓶颈！「合成数据」立大功，项目已开源

...的视频 LMM——LLaVA-Video。实验表明，LLaVA-Video 在多个视频基准上表现出色，展示了该数据集的有效性。论文标题：VIDEO INSTRUCTION TUNING WITH SYNTHETIC DATA 论文链接：https://arxiv……更多

2024-10-22 09:54:00模态,大功,瓶颈,模型,突破,项目

CMU&清华：让LLM自己合成数据来学习，特定任务性能同样大

...评估 SELF-GUIDE 的有效性，研究者从 Super-NaturalInstructions V2 基准中选择了 14 个分类任务和 8 个生成任务。研究者随机选择了一半任务用于超参数搜索，剩余的一半用于评估。在模型方面，研究者选择了 Vicuna-7b-1.5 作为输入生成、...……更多

2024-08-02 09:40:00清华,性能,任务,数据,学习,生成

谷歌发布 FACTS Grounding 基准，AI 大语言

...eepMind 团队于 12 月 17 日发布博文，宣布推出 FACTS Grounding 基准测试，评估大型语言模型（LLMs）根据给定材料是否准确作答，并避免“幻觉”（即捏造信息）的能力，从而提升 LLMs 的事实准确性，增强用户信任度，并拓展其应用...……更多

2024-12-19 09:32:00照妖镜,基准,幻觉,模型,语言,示例

英伟达发布mistral-nemoai大语言模型

...Mo基本模型与Gemma29B和Llama38B的性能比较。图1：MistralNeMo在多语言基准测试中的表现。图2：Tekken压缩率MistralNeMo指令调整模型精度。使用GPT4o根据官方参考文献进行的评估。 ……更多

2024-07-19 22:18:00英伟,模型,语言,人工智能,模型,人工

GPT-4o：“更像人”的人工智能模型

...中文在内的20种语言进行音频等多模态交互，这次更新在多语言方面更加强大。 GPT-4o数据优势明显。在数据层面，根据传统基准测试，GPT-4o的性能对比GPT-4 Turbo处于优势，对比其他模型更是大幅领先。GPT-4o可通过呼吸来辨别情绪...……更多

2024-05-20 02:59:00人工智能,人工,模型,智能,人工智能,情绪

字节开源全栈AI编程基准，不小心曝光豆包代码大模型

...大模型评估基准FullStack Bench。这是一个专注于全栈编程和多语言编程的代码评估数据集，它首次囊括了编程全栈技术中超过11类真实场景，覆盖16种编程语言，包含3374个问题。FullStack Bench的应用领域抽取自全球最大的程序员技术...……更多

2024-12-06 09:50:00豆包,基准,字节,模型,编程,代码

开闭源模型「大乱斗」：看看哪个智能体最能窥见人类真实意图

...该工作首先引入了 Intention-in-Interaction（IN3）这一全新的基准测试，旨在通过与用户明确的交互来理解用户的隐式意图。以 Mistral-7B 为框架，基于 IN3 训练的 Mistral-Interact 能主动评估任务的模糊性，询问用户意图，并在启动下游智...……更多

2024-08-14 09:39:00意图,模型,人类,智能,智能,任务