• 我的订阅
  • 头条热搜
指令跟随大比拼!Meta发布多轮多语言基准Multi-IF:覆盖8种语言,超4500种任务
...、4501个三轮对话任务,全面揭示了当前LLM在复杂多轮、多语言场景中的挑战。所有模型在多轮对话中表现显著衰减,表现最佳的o1-preview模型在三轮对话的准确率从87.7%下降到70.7%;在非拉丁文字语言上,所有模型的表现显著弱于...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...而,这些进展主要依赖于英语的基座模型,并受制于缺乏多语言医疗专业数据的限制,导致当前的医疗大模型在处理非英语问题时效果不佳。为了克服这一挑战,近期一篇发表在《nature communications》的论文全面地从数据、测评、...……更多
openai发布多语言大规模多任务语言理解
...日(9月23日)发布博文,报道称OpenAI在HuggingFace上发布了多语言大规模多任务语言理解(MMMLU)数据集。背景随着语言模型日益强大,评估其在不同语言、认知和文化背景下的能力已成为当务之急。OpenAI决定推出MMMLU数据集,通过...……更多
精准狙击Llama 3.1?Mistral AI开源Large 2,123B媲美Llama 405B
...均长度:语言多样性当今大量的商业化应用场景涉及处理多语言文档。Mistral Large 2 在大量多语言数据上进行了训练,特别是在英语、法语、德语、西班牙语、意大利语、葡萄牙语、荷兰语、俄语、中文、日语、韩语、阿拉伯语...……更多
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
...上甚至超越了人类设计师,同时支持精确的RGB颜色控制和多语言识别。自去年以来,文本到图像生成模型取得了巨大进展,模型的架构从传统的基于UNet逐渐转变为基于Transformer的模型。Playground Research最近发布了一篇论文,详细...……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
...在上下文长度为2048个token的英语数据上进行训练,可能在多语言或长上下文上表现不佳。在未来的版本中,作者计划包括对更多具有更长上下文的多语言数据集的训练。最后,这项工作一直以有监督的多任务方式训练FLAMe模型。...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
... 2 的七倍,包含的代码数量也是 Llama 2 的四倍。为了应对多语言使用情况,Llama 3 的预训练数据集中有超过 5% 的高质量非英语数据,涵盖 30 多种语言。为了确保 Llama 3 在最高质量的数据上进行训练,Meta 开发了一系列数据过滤管...……更多
多样任务真实数据,大模型在线购物基准Shopping MMLU开源
...这些异质的用户行为,是在线购物所必须解决的问题。 多语言任务:在线购物平台往往在不止一个地区运营,因此需要模型能同时理解多种语言描述下的商品和用户问题。基于以上分析,研究构造了Shopping MMLU,覆盖四项在线购...……更多
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...务。尽管参数规模仅有38.2亿,但Phi-3.5-mini-instruct模型在多语言和多轮对话任务中表现出的性能不俗。它在许多基准测试中拥有较为先进的水平,并在长上下文代码理解任务中以明显优势超过了其它模型(Llama-3.1-8B-instruct和Mistral-...……更多
关于LLM-as-a-judge范式,终于有综述讲明白了
...见量化基准,挑战性任务基准,领域特定基准,以及其他多语言,多模态,指令跟随基准等等。 表 2:LLM-as-a-judge 数据集和基线展望:挑战和机遇(1)偏见与脆弱性:大模型作为评判者,一直受困扰于各种各样影响评价公平性...……更多
百万鲁棒数据训练,3D场景大语言模型新SOTA!IIT等发布Robin3D
...3D场景理解中的鲁棒性和泛化能力,在多个3D多模态学习基准测试中取得了优异的性能,超越了以往的方法,且无需针对特定任务的微调。多模态大语言模型(Multi-modal Large Language Models, MLLMs)以文本模态为基础,将其它各种模态...……更多
代码模型自我进化超越GPT-4o蒸馏!UIUC伯克利等提出自对齐方法 | NIPS 2024
...,超过了参数量大10倍的CodeLlama-70B-Instruct。在全部的三项基准测试(代码生成、数据科学编程、代码编辑)中,SelfCodeAlign都战胜了之前最先进的指令微调方法OctoPack。此外,在HumanEval+上,SelfCodeAlign的性能超越了基于GPT-3.5……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...多种操作技能。在实验中,RoboMamba 在通用和机器人评估基准上展示了出色的推理能力,如图 2 所示。同时,我们的模型在模拟和现实世界实验中展示了令人印象深刻的操纵位姿预测能力,其推理速度比现有的机器人 MLLMs 快 7 倍...……更多
刚刚,我们感受了一波最「像人」的国产AI,模型还是开源的
...在响应和打断速度、情绪感知情感共鸣、语音可控表达、多语言多方言等方面实现了突破。简单来说,「情感语音通话」提供了一个真人一般的对话伙伴,而不仅仅是一个文字的朗读者。以下视频来源于 智谱清言 视频链接:htt...……更多
刚刚,Llama 3.2 来了!支持图像推理,还有可在手机上运行的版本
...于轻量级的 1B 和 3B 版本,则都是纯文本模型,但也具备多语言文本生成和工具调用能力。Meta 表示,这些模型可让开发者构建个性化的、在设备本地上运行的通用应用 —— 这类应用将具备很强的隐私性,因为数据无需离开设备...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...数据集,经过筛选和使用特定的训练目标。其他元素包括多语言字幕、OCR 处理、跨语言 VQA 和 VQG、物体感知 VQA 以及物体检测。虽然没有包括来自视频的任务或数据,但由于强大的图像编码器,PaLI-3 在这些基准上仍然具有竞争...……更多
开源版OpenAI再出「神作」,小模型吊打Llama 3!Ministral系列问世,边缘AI革命开启
...了Les Minimrau的性能。其中包括知识与常识、代码、数学、多语言四大方面。预训练模型如下图所示,与Gema 2 2B、Llama 3.2 3B相比较,Minstral 3B在以上基准上,取得了最优成绩。在与Llama 3.1 8B、Mistral 7B相比较过程中,仅有代码能力,...……更多
什么影响大模型安全?NeurIPS\\\'24新研究提出大模型越狱攻击新基准
...广泛的风险场景,如对抗性越狱查询、真实世界交互以及多语言环境等。JAILJUDGE的核心创新是引入了多Agent越狱评估框架,借鉴法庭审判的模式,通过多个Agent的协作,实现对越狱判断过程的明确化和可解释性。 每个Agent(如判...……更多
GPT-4劲敌,谷歌进入高能+高产模式
...项)上表现更好,特别是在数学、科学和推理(+28.9%),多语言(+22.3%),视频理解(+11.2%)和代码(+8.9%)等领域。即使是对比Gemini 系列的高端产品Gemini 1.0 Ultra, Gemini 1.5 Pro也在超过一半的基准(16/31)上表现更好,特别是在...……更多
突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源
...的视频 LMM——LLaVA-Video。实验表明,LLaVA-Video 在多个视频基准上表现出色,展示了该数据集的有效性。 论文标题:VIDEO INSTRUCTION TUNING WITH SYNTHETIC DATA 论文链接:https://arxiv……更多
CMU&清华:让LLM自己合成数据来学习,特定任务性能同样大幅提升
...评估 SELF-GUIDE 的有效性,研究者从 Super-NaturalInstructions V2 基准中选择了 14 个分类任务和 8 个生成任务。研究者随机选择了一半任务用于超参数搜索,剩余的一半用于评估。在模型方面,研究者选择了 Vicuna-7b-1.5 作为输入生成、...……更多
谷歌发布 FACTS Grounding 基准,AI 大语言模型“幻觉照妖镜”
...eepMind 团队于 12 月 17 日发布博文,宣布推出 FACTS Grounding 基准测试,评估大型语言模型(LLMs)根据给定材料是否准确作答,并避免“幻觉”(即捏造信息)的能力,从而提升 LLMs 的事实准确性,增强用户信任度,并拓展其应用...……更多
英伟达发布mistral-nemoai大语言模型
...Mo基本模型与Gemma29B和Llama38B的性能比较。图1:MistralNeMo在多语言基准测试中的表现。图2:Tekken压缩率MistralNeMo指令调整模型精度。使用GPT4o根据官方参考文献进行的评估。 ……更多
GPT-4o:“更像人”的人工智能模型
...中文在内的20种语言进行音频等多模态交互,这次更新在多语言方面更加强大。 GPT-4o数据优势明显。在数据层面,根据传统基准测试,GPT-4o的性能对比GPT-4 Turbo处于优势,对比其他模型更是大幅领先。GPT-4o可通过呼吸来辨别情绪...……更多
字节开源全栈AI编程基准,不小心曝光豆包代码大模型
...大模型评估基准FullStack Bench。这是一个专注于全栈编程和多语言编程的代码评估数据集,它首次囊括了编程全栈技术中超过11类真实场景,覆盖16种编程语言,包含3374个问题。FullStack Bench的应用领域抽取自全球最大的程序员技术...……更多
开闭源模型「大乱斗」:看看哪个智能体最能窥见人类真实意图
...该工作首先引入了 Intention-in-Interaction(IN3)这一全新的基准测试,旨在通过与用户明确的交互来理解用户的隐式意图。以 Mistral-7B 为框架,基于 IN3 训练的 Mistral-Interact 能主动评估任务的模糊性,询问用户意图,并在启动下游智...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
...本性能甚至超过了LLM骨干模型,特别是在文本数学和编码基准测试中,平均准确率提高了4.3个百分点。文本大模型经过多年的发展,逐渐发展成了统一的纯解码器Transformer架构。反观现有的多模态大模型架构仍然处于混乱状态,...……更多
科学家建立新评价基准,助力评估大模型数据分析能力
...更加符合预期的结果。整体来看,缺乏交互式数据分析的基准——是本次研究面临的最大问题之一。为了解决这一问题,他们以“斯坦福小镇”项目为启发,创建了“DECISION COMPANY”。“DECISION COMPANY”是数据分析领域的首个多代...……更多
通义千问系列AI开源模型升至Qwen2:5个尺寸,最高 128K tokens
...型,Qwen2-72B 在包括自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的模型,如 Llama-3-70B 以及 Qwen1.5 最大的模型 Qwen1.5-110B。 ……更多
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...,生成用于训练和评估的数据,并提供算法比较的标准化基准。为了使智能体能够与环境互动,必须构建一个逼真的模拟环境。这需要考虑环境的物理特性、对象的属性及其相互作用。如下图所示,本综述将对两种仿真平台进行...……更多
更多关于科技的资讯:
强行变道被撞翻 女子脑震荡暂时性失忆:不知自己在哪要干啥
快科技1月21日消息,不保留安全车距,见缝插针超车的现象相当常见,尤其是在高速上。据公安部交通管理局最新披露的案例显示
2025-01-21 15:00:00
2025首场寒潮来了!大范围雨雪 春节返乡警惕
快科技1月21日消息,中央气象台发布预报,宣布2025年的首次寒潮将于1月23日至27日期间席卷中国。此次寒潮将自西向东横扫我国大部分地区
2025-01-21 15:00:00
中国最有年味的水果 南北方人有不同的打开方式
没有山楂参与的冬天是不完整的,长相红火、价格亲民,简直太喜庆了。山楂是过年的标配水果,红艳艳的果子,与过年的气氛特别搭
2025-01-21 15:00:00
比亚迪仰望U9超跑交付破百!中国超跑赛道率先破百的品牌
快科技1月21日消息,仰望汽车宣布,其旗舰车型仰望U9累计交付量已达到100台,成为国内超跑赛道上首个交付破百的品牌。这款售价168万元的电动超跑自去年2月25日上市以来
2025-01-21 15:00:00
母子二人喝新鲜羊奶感染布病 医生:不建议直接饮用
快科技1月21日消息,据报道,近日南京市第二医院接诊了一对母子,两人都出现了发热、头痛、全身关节疼痛。经过诊断,母子二人都患上了“布病”
2025-01-21 15:00:00
三星HBM3内存首个商用产品!在AMD MI300X中被发现
快科技1月21日消息,研究机构 TechInsights今天表示,其揭示了三星HBM3内存的首个商用实例,该内存集成在AMD的MI300X AI加速器中
2025-01-21 15:00:00
太赫兹通信技术以太赫兹频段的电磁波作为通信载波实现无线通信。其具有超大带宽的频谱资源可以利用,支持超大速率的无线通信,被认为是6G太比特每秒(Tbps)通信速率的重要技术方案
2025-01-21 15:00:00
魔方网表excel服务器,管理软件新思维
2024年,全球经济延续低增长趋势不变,各行业内竞争更趋加剧,面对着需求一点点缩小的市场现状,各企业主都卯足劲,希望能赢得到更多一点的份额
2025-01-21 15:00:00
春节自驾出行必看!不用非等1月28号零点 27号上高速回家也能免费
快科技1月21日消息,据央视新闻报道,今年春运期间,公路客流量最大,自驾出行占比达到80%。对于车主最为关心的路上堵不堵
2025-01-21 15:00:00
Redmi K90 Pro史诗级升级:潜望长焦镜头终于要上线
快科技1月21日消息,据知名数码博主“数码闲聊站”透露,一款子系新机将采用潜望式长焦镜头,并暗示这款新机隶属小米旗下。据悉
2025-01-21 15:00:00
通讯员 陈伟丽陈龙 为提升全行营业网点员工营销服务水平,促进金融服务创新。近日,东平农商银行开展营销技能大练兵展示大赛
2025-01-21 15:17:00
中国消费者报报道(记者李燕京)近年来,电商领域新模式不断,继褒贬不一的“先用后付”模式后,多家平台又顺势推出“先囤后用”的酒店预售模式
2025-01-21 15:21:00
今天微信14周年了!官方晒当年第一行代码
快科技1月21日消息,据微信派公众号介绍,今天是微信的14周岁生日。14年前的今天,也就是2011年的1月21日,微信1
2025-01-21 15:30:00
《黑神话:悟空》二郎神现实大战天命人:跟游戏一模一样
快科技1月21日消息,在国产首部3A游戏大作《黑神话:悟空》中,天命人与二郎神的对决是一场隐藏关卡,但其激烈程度甚至超越了最终的大圣残躯之战
2025-01-21 15:30:00
广州将中华田园犬移出禁养名录:有效期5年
快科技1月21日消息,中华田园犬,也就是我们俗称的土狗,在一些城市被列入了禁养名单,比如在广州,但好消息来了。1月20日
2025-01-21 15:30:00