• 我的订阅
  • 头条热搜
指令跟随大比拼!Meta发布多轮多语言基准Multi-IF:覆盖8种语言,超4500种任务
...、4501个三轮对话任务,全面揭示了当前LLM在复杂多轮、多语言场景中的挑战。所有模型在多轮对话中表现显著衰减,表现最佳的o1-preview模型在三轮对话的准确率从87.7%下降到70.7%;在非拉丁文字语言上,所有模型的表现显著弱于...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...而,这些进展主要依赖于英语的基座模型,并受制于缺乏多语言医疗专业数据的限制,导致当前的医疗大模型在处理非英语问题时效果不佳。为了克服这一挑战,近期一篇发表在《nature communications》的论文全面地从数据、测评、...……更多
openai发布多语言大规模多任务语言理解
...日(9月23日)发布博文,报道称OpenAI在HuggingFace上发布了多语言大规模多任务语言理解(MMMLU)数据集。背景随着语言模型日益强大,评估其在不同语言、认知和文化背景下的能力已成为当务之急。OpenAI决定推出MMMLU数据集,通过...……更多
精准狙击Llama 3.1?Mistral AI开源Large 2,123B媲美Llama 405B
...均长度:语言多样性当今大量的商业化应用场景涉及处理多语言文档。Mistral Large 2 在大量多语言数据上进行了训练,特别是在英语、法语、德语、西班牙语、意大利语、葡萄牙语、荷兰语、俄语、中文、日语、韩语、阿拉伯语...……更多
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
...上甚至超越了人类设计师,同时支持精确的RGB颜色控制和多语言识别。自去年以来,文本到图像生成模型取得了巨大进展,模型的架构从传统的基于UNet逐渐转变为基于Transformer的模型。Playground Research最近发布了一篇论文,详细...……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
...在上下文长度为2048个token的英语数据上进行训练,可能在多语言或长上下文上表现不佳。在未来的版本中,作者计划包括对更多具有更长上下文的多语言数据集的训练。最后,这项工作一直以有监督的多任务方式训练FLAMe模型。...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
... 2 的七倍,包含的代码数量也是 Llama 2 的四倍。为了应对多语言使用情况,Llama 3 的预训练数据集中有超过 5% 的高质量非英语数据,涵盖 30 多种语言。为了确保 Llama 3 在最高质量的数据上进行训练,Meta 开发了一系列数据过滤管...……更多
多样任务真实数据,大模型在线购物基准Shopping MMLU开源
...这些异质的用户行为,是在线购物所必须解决的问题。 多语言任务:在线购物平台往往在不止一个地区运营,因此需要模型能同时理解多种语言描述下的商品和用户问题。基于以上分析,研究构造了Shopping MMLU,覆盖四项在线购...……更多
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...务。尽管参数规模仅有38.2亿,但Phi-3.5-mini-instruct模型在多语言和多轮对话任务中表现出的性能不俗。它在许多基准测试中拥有较为先进的水平,并在长上下文代码理解任务中以明显优势超过了其它模型(Llama-3.1-8B-instruct和Mistral-...……更多
关于LLM-as-a-judge范式,终于有综述讲明白了
...见量化基准,挑战性任务基准,领域特定基准,以及其他多语言,多模态,指令跟随基准等等。 表 2:LLM-as-a-judge 数据集和基线展望:挑战和机遇(1)偏见与脆弱性:大模型作为评判者,一直受困扰于各种各样影响评价公平性...……更多
百万鲁棒数据训练,3D场景大语言模型新SOTA!IIT等发布Robin3D
...3D场景理解中的鲁棒性和泛化能力,在多个3D多模态学习基准测试中取得了优异的性能,超越了以往的方法,且无需针对特定任务的微调。多模态大语言模型(Multi-modal Large Language Models, MLLMs)以文本模态为基础,将其它各种模态...……更多
代码模型自我进化超越GPT-4o蒸馏!UIUC伯克利等提出自对齐方法 | NIPS 2024
...,超过了参数量大10倍的CodeLlama-70B-Instruct。在全部的三项基准测试(代码生成、数据科学编程、代码编辑)中,SelfCodeAlign都战胜了之前最先进的指令微调方法OctoPack。此外,在HumanEval+上,SelfCodeAlign的性能超越了基于GPT-3.5……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...多种操作技能。在实验中,RoboMamba 在通用和机器人评估基准上展示了出色的推理能力,如图 2 所示。同时,我们的模型在模拟和现实世界实验中展示了令人印象深刻的操纵位姿预测能力,其推理速度比现有的机器人 MLLMs 快 7 倍...……更多
刚刚,我们感受了一波最「像人」的国产AI,模型还是开源的
...在响应和打断速度、情绪感知情感共鸣、语音可控表达、多语言多方言等方面实现了突破。简单来说,「情感语音通话」提供了一个真人一般的对话伙伴,而不仅仅是一个文字的朗读者。以下视频来源于 智谱清言 视频链接:htt...……更多
刚刚,Llama 3.2 来了!支持图像推理,还有可在手机上运行的版本
...于轻量级的 1B 和 3B 版本,则都是纯文本模型,但也具备多语言文本生成和工具调用能力。Meta 表示,这些模型可让开发者构建个性化的、在设备本地上运行的通用应用 —— 这类应用将具备很强的隐私性,因为数据无需离开设备...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...数据集,经过筛选和使用特定的训练目标。其他元素包括多语言字幕、OCR 处理、跨语言 VQA 和 VQG、物体感知 VQA 以及物体检测。虽然没有包括来自视频的任务或数据,但由于强大的图像编码器,PaLI-3 在这些基准上仍然具有竞争...……更多
开源版OpenAI再出「神作」,小模型吊打Llama 3!Ministral系列问世,边缘AI革命开启
...了Les Minimrau的性能。其中包括知识与常识、代码、数学、多语言四大方面。预训练模型如下图所示,与Gema 2 2B、Llama 3.2 3B相比较,Minstral 3B在以上基准上,取得了最优成绩。在与Llama 3.1 8B、Mistral 7B相比较过程中,仅有代码能力,...……更多
什么影响大模型安全?NeurIPS\\\'24新研究提出大模型越狱攻击新基准
...广泛的风险场景,如对抗性越狱查询、真实世界交互以及多语言环境等。JAILJUDGE的核心创新是引入了多Agent越狱评估框架,借鉴法庭审判的模式,通过多个Agent的协作,实现对越狱判断过程的明确化和可解释性。 每个Agent(如判...……更多
GPT-4劲敌,谷歌进入高能+高产模式
...项)上表现更好,特别是在数学、科学和推理(+28.9%),多语言(+22.3%),视频理解(+11.2%)和代码(+8.9%)等领域。即使是对比Gemini 系列的高端产品Gemini 1.0 Ultra, Gemini 1.5 Pro也在超过一半的基准(16/31)上表现更好,特别是在...……更多
突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源
...的视频 LMM——LLaVA-Video。实验表明,LLaVA-Video 在多个视频基准上表现出色,展示了该数据集的有效性。 论文标题:VIDEO INSTRUCTION TUNING WITH SYNTHETIC DATA 论文链接:https://arxiv……更多
CMU&清华:让LLM自己合成数据来学习,特定任务性能同样大幅提升
...评估 SELF-GUIDE 的有效性,研究者从 Super-NaturalInstructions V2 基准中选择了 14 个分类任务和 8 个生成任务。研究者随机选择了一半任务用于超参数搜索,剩余的一半用于评估。在模型方面,研究者选择了 Vicuna-7b-1.5 作为输入生成、...……更多
谷歌发布 FACTS Grounding 基准,AI 大语言模型“幻觉照妖镜”
...eepMind 团队于 12 月 17 日发布博文,宣布推出 FACTS Grounding 基准测试,评估大型语言模型(LLMs)根据给定材料是否准确作答,并避免“幻觉”(即捏造信息)的能力,从而提升 LLMs 的事实准确性,增强用户信任度,并拓展其应用...……更多
英伟达发布mistral-nemoai大语言模型
...Mo基本模型与Gemma29B和Llama38B的性能比较。图1:MistralNeMo在多语言基准测试中的表现。图2:Tekken压缩率MistralNeMo指令调整模型精度。使用GPT4o根据官方参考文献进行的评估。 ……更多
GPT-4o:“更像人”的人工智能模型
...中文在内的20种语言进行音频等多模态交互,这次更新在多语言方面更加强大。 GPT-4o数据优势明显。在数据层面,根据传统基准测试,GPT-4o的性能对比GPT-4 Turbo处于优势,对比其他模型更是大幅领先。GPT-4o可通过呼吸来辨别情绪...……更多
开闭源模型「大乱斗」:看看哪个智能体最能窥见人类真实意图
...该工作首先引入了 Intention-in-Interaction(IN3)这一全新的基准测试,旨在通过与用户明确的交互来理解用户的隐式意图。以 Mistral-7B 为框架,基于 IN3 训练的 Mistral-Interact 能主动评估任务的模糊性,询问用户意图,并在启动下游智...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
...本性能甚至超过了LLM骨干模型,特别是在文本数学和编码基准测试中,平均准确率提高了4.3个百分点。文本大模型经过多年的发展,逐渐发展成了统一的纯解码器Transformer架构。反观现有的多模态大模型架构仍然处于混乱状态,...……更多
字节开源全栈AI编程基准,不小心曝光豆包代码大模型
...大模型评估基准FullStack Bench。这是一个专注于全栈编程和多语言编程的代码评估数据集,它首次囊括了编程全栈技术中超过11类真实场景,覆盖16种编程语言,包含3374个问题。FullStack Bench的应用领域抽取自全球最大的程序员技术...……更多
科学家建立新评价基准,助力评估大模型数据分析能力
...更加符合预期的结果。整体来看,缺乏交互式数据分析的基准——是本次研究面临的最大问题之一。为了解决这一问题,他们以“斯坦福小镇”项目为启发,创建了“DECISION COMPANY”。“DECISION COMPANY”是数据分析领域的首个多代...……更多
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...,生成用于训练和评估的数据,并提供算法比较的标准化基准。为了使智能体能够与环境互动,必须构建一个逼真的模拟环境。这需要考虑环境的物理特性、对象的属性及其相互作用。如下图所示,本综述将对两种仿真平台进行...……更多
通义千问系列AI开源模型升至Qwen2:5个尺寸,最高 128K tokens
...型,Qwen2-72B 在包括自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的模型,如 Llama-3-70B 以及 Qwen1.5 最大的模型 Qwen1.5-110B。 ……更多
更多关于科技的资讯:
余承东透露:华为华东总部正在骆岗公园建设中,5月将发布鸿蒙PC
大皖新闻讯 “回到家乡非常高兴,没有人不爱自己的家乡,华为在安徽在家乡这边有很多业务合作,感谢家乡安徽很多企业给华为的一些信任和支持
2025-03-22 15:24:00
大众网记者 宋学敏 通讯员 王晖 潍坊报道近日,在潍坊高密市高新区,总投资10亿元的海鸥消防无人机智能制造项目已完成整体建设
2025-03-22 17:14:00
北京海淀气温卷到全国并列第一:打破3月最高气温纪录
快科技3月22日消息,据中国天气官微消息,北京海淀气温并列全国第一,接近30℃,这是连续4天刷新今年以来气温新高,同时海淀观测站还打破3月最高气温纪录
2025-03-22 17:30:00
博主为华为喊冤:仔细分析Pura X 7499元其实不贵 确实人人买得起
快科技3月22日消息,本周华为发布了Pura X阔折叠手机,其配备了一块非常独特的16:10折叠内屏,相比普通小折叠和直板机的显示区域宽了很多
2025-03-22 17:30:00
全球首款3A原画显示器!海信大圣G9发布:每一帧宛如真实世界
快科技3月22日消息,在上海新国际博览中心,海信发布了大圣G9显示器,这也是全球首款3A原画显示器。大圣G9搭载了海信万元旗舰电视同款黑曜屏
2025-03-22 17:30:00
昆云数字人+DeepSeek:2025年AI短视频创作的破局之道
--引言--在短视频营销竞争白热化的2025年,商家与个人创作者面临内容同质化、制作门槛高、创意枯竭等难题。昆云数字人接入DeepSeek大模型
2025-03-22 17:33:00
一文看懂:问界M9原厂硬件升级 不背刺老车主
快科技3月22日消息,日前2025款问界M9正式开售,好消息是,官方表示将为问界M9现款车型车主提供可选的原厂硬件升级方案
2025-03-22 18:00:00
别争了!北大教授:金融中心就是上海和香港 其他地方不要再提了
快科技3月22日消息,北京大学副校长董志勇公开表示,金融中心就是上海和香港,其他地方不要再提了。2025年未来科学城科创金融大会”于3月22日在北京举行
2025-03-22 18:00:00
库克现身北京 杨天真建议下一代苹果Pro出粉色
快科技3月22日消息,苹果CEO蒂姆·库克又来北京了。壹心娱乐创始人杨天真在社交媒体上晒出了与库克的合照,并配文分享了一段温馨而有趣的经历
2025-03-22 18:30:00
vivo将瞄准家务机器人赛道:已成立机器人LAB
快科技3月22日消息,据媒体报道,vivo已成立机器人 LAB,将专注于机器人相关产品的孵化与研究,这次vivo的研究方向之一为家务机器人
2025-03-22 18:30:00
Ta来消博了丨世界500强企业华润集团确认参展第五届消博会
南海网3月22日消息(记者 王子遥)记者从第五届中国国际消费品博览会组委会获悉,世界500强企业华润集团已确认将携优质产品矩阵参展消博会
2025-03-22 18:53:00
尚驰集团受邀出席2025品质家居峰会,共话行业价值重塑
在国内大循环主体地位不断强化、消费升级浪潮持续涌动的时代背景下,政策扶持与市场需求的双轮驱动,正加速推动中国家居产业正迈向以品质为核心的新竞争阶段
2025-03-22 19:00:00
最大马力中国车爬世界最高山 小米SU7 Ultra要速通珠穆朗玛峰
快科技3月22日消息,汽车博主“韩路”今天下午宣布,明天将驾驶小米SU7 Ultra出发,48小时往返速通珠峰。此次旅程
2025-03-22 19:00:00
周鸿祎试乘百车仍没驾照:无驾照评车第一人
快科技3月22日消息,据媒体报道,3月23日周鸿祎将启动第三轮免费送车活动,再送出20辆车,为了打消消费者的顾虑,还将附赠智驾险
2025-03-22 19:00:00
有哪些靠谱的代运营公司?火蝠电商可靠吗?怎么挑选代运营?
现在电商领域竞争激烈,想要把店铺做大做强,确实不太容易。很多店主想找一个代运营,但是又担心水深,不知道如何抉择。比如最近比较热门的火蝠电商
2025-03-22 19:04:00