• 我的订阅
  • 头条热搜
指令跟随大比拼!Meta发布多轮多语言基准Multi-IF:覆盖8种语言,超4500种任务
...、4501个三轮对话任务,全面揭示了当前LLM在复杂多轮、多语言场景中的挑战。所有模型在多轮对话中表现显著衰减,表现最佳的o1-preview模型在三轮对话的准确率从87.7%下降到70.7%;在非拉丁文字语言上,所有模型的表现显著弱于...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...而,这些进展主要依赖于英语的基座模型,并受制于缺乏多语言医疗专业数据的限制,导致当前的医疗大模型在处理非英语问题时效果不佳。为了克服这一挑战,近期一篇发表在《nature communications》的论文全面地从数据、测评、...……更多
openai发布多语言大规模多任务语言理解
...日(9月23日)发布博文,报道称OpenAI在HuggingFace上发布了多语言大规模多任务语言理解(MMMLU)数据集。背景随着语言模型日益强大,评估其在不同语言、认知和文化背景下的能力已成为当务之急。OpenAI决定推出MMMLU数据集,通过...……更多
精准狙击Llama 3.1?Mistral AI开源Large 2,123B媲美Llama 405B
...均长度:语言多样性当今大量的商业化应用场景涉及处理多语言文档。Mistral Large 2 在大量多语言数据上进行了训练,特别是在英语、法语、德语、西班牙语、意大利语、葡萄牙语、荷兰语、俄语、中文、日语、韩语、阿拉伯语...……更多
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
...上甚至超越了人类设计师,同时支持精确的RGB颜色控制和多语言识别。自去年以来,文本到图像生成模型取得了巨大进展,模型的架构从传统的基于UNet逐渐转变为基于Transformer的模型。Playground Research最近发布了一篇论文,详细...……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
...在上下文长度为2048个token的英语数据上进行训练,可能在多语言或长上下文上表现不佳。在未来的版本中,作者计划包括对更多具有更长上下文的多语言数据集的训练。最后,这项工作一直以有监督的多任务方式训练FLAMe模型。...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
... 2 的七倍,包含的代码数量也是 Llama 2 的四倍。为了应对多语言使用情况,Llama 3 的预训练数据集中有超过 5% 的高质量非英语数据,涵盖 30 多种语言。为了确保 Llama 3 在最高质量的数据上进行训练,Meta 开发了一系列数据过滤管...……更多
多样任务真实数据,大模型在线购物基准Shopping MMLU开源
...这些异质的用户行为,是在线购物所必须解决的问题。 多语言任务:在线购物平台往往在不止一个地区运营,因此需要模型能同时理解多种语言描述下的商品和用户问题。基于以上分析,研究构造了Shopping MMLU,覆盖四项在线购...……更多
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...务。尽管参数规模仅有38.2亿,但Phi-3.5-mini-instruct模型在多语言和多轮对话任务中表现出的性能不俗。它在许多基准测试中拥有较为先进的水平,并在长上下文代码理解任务中以明显优势超过了其它模型(Llama-3.1-8B-instruct和Mistral-...……更多
关于LLM-as-a-judge范式,终于有综述讲明白了
...见量化基准,挑战性任务基准,领域特定基准,以及其他多语言,多模态,指令跟随基准等等。 表 2:LLM-as-a-judge 数据集和基线展望:挑战和机遇(1)偏见与脆弱性:大模型作为评判者,一直受困扰于各种各样影响评价公平性...……更多
百万鲁棒数据训练,3D场景大语言模型新SOTA!IIT等发布Robin3D
...3D场景理解中的鲁棒性和泛化能力,在多个3D多模态学习基准测试中取得了优异的性能,超越了以往的方法,且无需针对特定任务的微调。多模态大语言模型(Multi-modal Large Language Models, MLLMs)以文本模态为基础,将其它各种模态...……更多
代码模型自我进化超越GPT-4o蒸馏!UIUC伯克利等提出自对齐方法 | NIPS 2024
...,超过了参数量大10倍的CodeLlama-70B-Instruct。在全部的三项基准测试(代码生成、数据科学编程、代码编辑)中,SelfCodeAlign都战胜了之前最先进的指令微调方法OctoPack。此外,在HumanEval+上,SelfCodeAlign的性能超越了基于GPT-3.5……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...多种操作技能。在实验中,RoboMamba 在通用和机器人评估基准上展示了出色的推理能力,如图 2 所示。同时,我们的模型在模拟和现实世界实验中展示了令人印象深刻的操纵位姿预测能力,其推理速度比现有的机器人 MLLMs 快 7 倍...……更多
刚刚,我们感受了一波最「像人」的国产AI,模型还是开源的
...在响应和打断速度、情绪感知情感共鸣、语音可控表达、多语言多方言等方面实现了突破。简单来说,「情感语音通话」提供了一个真人一般的对话伙伴,而不仅仅是一个文字的朗读者。以下视频来源于 智谱清言 视频链接:htt...……更多
刚刚,Llama 3.2 来了!支持图像推理,还有可在手机上运行的版本
...于轻量级的 1B 和 3B 版本,则都是纯文本模型,但也具备多语言文本生成和工具调用能力。Meta 表示,这些模型可让开发者构建个性化的、在设备本地上运行的通用应用 —— 这类应用将具备很强的隐私性,因为数据无需离开设备...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...数据集,经过筛选和使用特定的训练目标。其他元素包括多语言字幕、OCR 处理、跨语言 VQA 和 VQG、物体感知 VQA 以及物体检测。虽然没有包括来自视频的任务或数据,但由于强大的图像编码器,PaLI-3 在这些基准上仍然具有竞争...……更多
开源版OpenAI再出「神作」,小模型吊打Llama 3!Ministral系列问世,边缘AI革命开启
...了Les Minimrau的性能。其中包括知识与常识、代码、数学、多语言四大方面。预训练模型如下图所示,与Gema 2 2B、Llama 3.2 3B相比较,Minstral 3B在以上基准上,取得了最优成绩。在与Llama 3.1 8B、Mistral 7B相比较过程中,仅有代码能力,...……更多
什么影响大模型安全?NeurIPS\'24新研究提出大模型越狱攻击新基准
...广泛的风险场景,如对抗性越狱查询、真实世界交互以及多语言环境等。JAILJUDGE的核心创新是引入了多Agent越狱评估框架,借鉴法庭审判的模式,通过多个Agent的协作,实现对越狱判断过程的明确化和可解释性。 每个Agent(如判...……更多
突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源
...的视频 LMM——LLaVA-Video。实验表明,LLaVA-Video 在多个视频基准上表现出色,展示了该数据集的有效性。 论文标题:VIDEO INSTRUCTION TUNING WITH SYNTHETIC DATA 论文链接:https://arxiv……更多
GPT-4劲敌,谷歌进入高能+高产模式
...项)上表现更好,特别是在数学、科学和推理(+28.9%),多语言(+22.3%),视频理解(+11.2%)和代码(+8.9%)等领域。即使是对比Gemini 系列的高端产品Gemini 1.0 Ultra, Gemini 1.5 Pro也在超过一半的基准(16/31)上表现更好,特别是在...……更多
CMU&清华:让LLM自己合成数据来学习,特定任务性能同样大幅提升
...评估 SELF-GUIDE 的有效性,研究者从 Super-NaturalInstructions V2 基准中选择了 14 个分类任务和 8 个生成任务。研究者随机选择了一半任务用于超参数搜索,剩余的一半用于评估。在模型方面,研究者选择了 Vicuna-7b-1.5 作为输入生成、...……更多
谷歌发布 FACTS Grounding 基准,AI 大语言模型“幻觉照妖镜”
...eepMind 团队于 12 月 17 日发布博文,宣布推出 FACTS Grounding 基准测试,评估大型语言模型(LLMs)根据给定材料是否准确作答,并避免“幻觉”(即捏造信息)的能力,从而提升 LLMs 的事实准确性,增强用户信任度,并拓展其应用...……更多
英伟达发布mistral-nemoai大语言模型
...Mo基本模型与Gemma29B和Llama38B的性能比较。图1:MistralNeMo在多语言基准测试中的表现。图2:Tekken压缩率MistralNeMo指令调整模型精度。使用GPT4o根据官方参考文献进行的评估。 ……更多
开闭源模型「大乱斗」:看看哪个智能体最能窥见人类真实意图
...该工作首先引入了 Intention-in-Interaction(IN3)这一全新的基准测试,旨在通过与用户明确的交互来理解用户的隐式意图。以 Mistral-7B 为框架,基于 IN3 训练的 Mistral-Interact 能主动评估任务的模糊性,询问用户意图,并在启动下游智...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
...本性能甚至超过了LLM骨干模型,特别是在文本数学和编码基准测试中,平均准确率提高了4.3个百分点。文本大模型经过多年的发展,逐渐发展成了统一的纯解码器Transformer架构。反观现有的多模态大模型架构仍然处于混乱状态,...……更多
科学家建立新评价基准,助力评估大模型数据分析能力
...更加符合预期的结果。整体来看,缺乏交互式数据分析的基准——是本次研究面临的最大问题之一。为了解决这一问题,他们以“斯坦福小镇”项目为启发,创建了“DECISION COMPANY”。“DECISION COMPANY”是数据分析领域的首个多代...……更多
字节开源全栈AI编程基准,不小心曝光豆包代码大模型
...大模型评估基准FullStack Bench。这是一个专注于全栈编程和多语言编程的代码评估数据集,它首次囊括了编程全栈技术中超过11类真实场景,覆盖16种编程语言,包含3374个问题。FullStack Bench的应用领域抽取自全球最大的程序员技术...……更多
GPT-4o:“更像人”的人工智能模型
...中文在内的20种语言进行音频等多模态交互,这次更新在多语言方面更加强大。 GPT-4o数据优势明显。在数据层面,根据传统基准测试,GPT-4o的性能对比GPT-4 Turbo处于优势,对比其他模型更是大幅领先。GPT-4o可通过呼吸来辨别情绪...……更多
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...,生成用于训练和评估的数据,并提供算法比较的标准化基准。为了使智能体能够与环境互动,必须构建一个逼真的模拟环境。这需要考虑环境的物理特性、对象的属性及其相互作用。如下图所示,本综述将对两种仿真平台进行...……更多
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
...和偏好调优,该研究还创建了 OLMoE-1B-7B-INSTRUCT,它在常见基准 MMLU、GSM8k、HumanEval 等上超越了各种更大的指令模型,包括 Llama2-13B-Chat 、OLMo-7B-Instruct (0724) 和 DeepSeekMoE-16B。受控实验强调了……更多
更多关于科技的资讯:
有电储能户外电源:国庆出游不断电,畅享自然每一程
国庆长假,是探索远方、寄情山水的绝佳时机。然而,无论是长途自驾中的电子设备续航,还是露营时的照明、烹饪需求,传统的充电宝或小型发电机往往捉襟见肘
2025-09-30 13:45:00
莱西市夏格庄镇:政企同频创新培育新动能
鲁网9月30日讯(记者 葛万彩 通讯员 张磊)引进14个亿元以上高新技术项目,其中8个已开工建设;新投产的青岛新茂林机械装备制造基地
2025-09-30 10:41:00
谨防“二选一”换上新马甲
范仁超据多家媒体报道,在天猫、京东、抖音等多个平台开店的某化妆品品牌负责人日前向媒体反映,之前和某带货达人达成合作意向
2025-09-30 10:48:00
胶东在线9月28日讯(记者 卢伟霞)近日,以“山海有约 烟台有乐”为主题的2025烟台沙滩音乐季在幸福湾活力海岸圆满收官
2025-09-30 06:37:00
京津研发河北转化进行时(三):一个康复机器人的协同样本
从北京研发中心到冀州生产线一个康复机器人的协同样本9月25日,在位于衡水市冀州区的极智医疗器械(河北)有限公司生产车间
2025-09-29 08:26:00
东风与腾讯签署战略合作协议 共建“汽车+互联网”智能新生态
9月28日,东风汽车集团股份有限公司(以下简称“东风汽车”)与深圳市腾讯计算机系统有限公司(以下简称“腾讯”)在武汉举行战略合作签约仪式
2025-09-29 08:33:00
大厂:发放第二期惠民电子消费券 为消费市场注入新活力
河北新闻网讯(张嘉良)消费热潮涌动,市场活力持续攀升。日前,大厂回族自治县发放第二期“乐享大厂·焕新潮”惠民电子消费券
2025-09-29 09:49:00
唐山启动2025“迎国庆、庆中秋”系列促消费活动
河北新闻网讯(张强、王育民)9月27日,2025唐山市“迎国庆、庆中秋”系列促消费活动在路南区京东电器城市旗舰店启动。本次活动由唐山市商务局
2025-09-29 10:28:00
中新经纬9月29日电 29日,中新经纬查询中国执行信息公开网发现,该网站已经没有万达集团董事长王健林“限高”信息。28日
2025-09-29 10:58:00
京东服务商开放季交流会释放11.11商家增长信号
齐鲁晚报·齐鲁壹点 记者 王颖颖2025年9月28日,在年度电商盛宴京东11.11启幕前夕,以“开放共赢 高效合作”为主题的2025京东服务商开放季交流会在京东集团总部成功举行
2025-09-29 11:00:00
官宣!普拉斯与腾讯云深化“云+AI”合作,加速制造业智能转型
近日,四川省宜宾普拉斯包装材料有限公司(下称“普拉斯”)宣布与腾讯云深化战略合作,双方将基于普拉斯在智慧包装行业的丰富经验和腾讯在AI领域的领先技术
2025-09-29 11:05:00
王健林“限高”措施已取消,其所持4.9亿股权仍被冻结
记者9月29日查询,中国执行信息公开网已经没有万达集团董事长王健林“限高”信息。另据企查查9月29日信息,显示王健林限高措施已取消
2025-09-29 11:37:00
象屿集团与钉钉合作,打造统一、智能、全球化的AI办公平台
9月28日,厦门象屿集团有限公司(以下简称“象屿集团”)与钉钉正式达成合作协议,并宣布象屿集团新一代数字化办公平台项目建设正式启动
2025-09-29 11:37:00
春雪食品集团总裁郑钧谈品质建设与战略转型
近日,春雪食品集团股份有限公司(以下简称“春雪食品集团”)宣布,继去年扭亏为盈后,今年上半年实现归母净利润1427.65万元
2025-09-29 11:37:00
聊城智汇 链接全球丨从布艺收纳到宠物用品,泊西集团海外订单供不应求
鲁网9月29日讯在山东聊城茌平区洪官屯镇,阳光洒在错落有致的乡村院落上。走进山东泊西实业集团有限公司生产基地的产品展厅
2025-09-29 12:06:00