基准,北大,生成,模型,文本,评估头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...步提升了编码、数学、推理和指令遵循能力。从下方多个基准测试结果可以看出，Yi-1.5 34B 型号的一些指标超过了 Qwen 的 72B，几乎与 Meta Llama 3 的 70B 相当。6B 和 9B 型号也成功超越了 Mistral 的 7B v0.2 版和 Gemma 的 7B 型号。……更多

2024-05-14 09:56:00万物,模型,国产,再次,排行榜,模型

CMU&清华：让LLM自己合成数据来学习，特定任务性能同样大

...评估 SELF-GUIDE 的有效性，研究者从 Super-NaturalInstructions V2 基准中选择了 14 个分类任务和 8 个生成任务。研究者随机选择了一半任务用于超参数搜索，剩余的一半用于评估。在模型方面，研究者选择了 Vicuna-7b-1.5 作为输入生成、...……更多

2024-08-02 09:40:00清华,性能,任务,数据,学习,生成

Llama 4训练已开启！Meta科学家最新采访，揭秘Lla

...型参数量和训练token数的最佳比率。如果你希望在论文的基准测试中得到最优模型，那么Chinchilla本身没有问题；但Meta要发布的旗舰模型还需要更高的推理效率。因此，我们选择增加训练的token数，并增加训练时长，让模型达到「...……更多

2024-07-29 09:33:00科学家,训练,科学,模型,训练,基准

AIGC工具测评：生成式AI的产品表现如何

...Google 称 Gemini 是其历史上最强大、最通用的模型，在许多基准测试中都具有最先进的性能。Google DeepMind 的 CEO Demis Hassabis 称 Gemini 可以像人类一样理解我们周围的世界，并吸收任何类型的输入和输出，包括文本、代码、视频、音...……更多

2024-03-25 13:00:00生成,工具,产品,用户,界面,通义

Meta版Sora深夜横空出世，小扎放出16秒高清大片！92

【新智元导读】Meta版Sora，就在刚刚惊艳来袭。Movie Gen可生成1080p、16秒、每秒16帧的高清长视频，还能生成音效、编辑视频、上传图像生成个性化视频。甚至Meta还放出了92页论文，模型架构、训练细节一并公开，干货满满！毫无...……更多

2024-10-08 09:52:00高清,架构,大片,细节,论文,技术

腾讯开源最大MoE大语言模型！3D大模型同时支持文/图生成，

...3D、视频等更多模态，今年8月在SuperCLUE-V多模态理解评测基准总榜中排名第一。文生图方面，今年5月，腾讯混元全面开源业界首个中文原生DiT架构文生图大模型，评测结果国内领先。还有今天宣布开源的文/图生3D模型，单张图30...……更多

2024-11-06 09:41:00模型,腾讯,全家,生成,同时,语言

神仙打架！谷歌新款大模型Gemini 和GPT-4谁能笑到最

...称Gemini Ultra 在大型语言模型研发被广泛使用的 32 个学术基准测试集中，在其中 30 个测试集的性能超过当前 SOTA 结果。 Gemini是谷歌各个团队大规模合作的成果，包括谷歌研究院的研究者，这个模型从发布之初就定位为原生多模...……更多

2023-12-07 16:15:00神仙,模型,观察,科技,模型,任务

Claude 3.5深夜觉醒，学会模仿人类用电脑！编程干翻o

...挑战。升级版Claude 3.5 Sonnet，编码王者干翻o1在各项行业基准测试中，升级版Claude 3.5 Sonnet性能得到了全方位提升。特别是，智能体编码、工具使用任务中取得显著突破。论文地址：https://assets.anthropic.com/m/1cd9d098ac3……更多

2024-10-23 09:55:00人类,编程,模型,能力,开发,任务

GPT-4劲敌，谷歌进入高能+高产模式

....5 Pro官方测试数据Gemini 1.5 Pro大大超过Gemini 1.0 Pro，在27项基准（共31项）上表现更好，特别是在数学、科学和推理（+28.9%），多语言（+22.3%），视频理解（+11.2%）和代码（+8.9%）等领域。即使是对比Gemini 系列的高端产品Gemini……更多

2024-02-21 14:05:00劲敌,高产,模式,模型,上下文,处理

“3D视频版Sora”来了！

...成数据集。二、混合采样保持时间一致，4D生成全面超基准线SV4D的技术论文也同步发表，其中详细解读了该模型的框架结构。总的来说，SV4D是一个用来生成动态3D对象新视图视频的统一扩散模型。给定一个单目参考视频，SV4D为...……更多

2024-07-26 09:30:00视频,视频,模型,视图,生成,视角

指令跟随大比拼！Meta发布多轮多语言基准Multi-IF：

【新智元导读】Meta全新发布的基准Multi-IF涵盖八种语言、4501个三轮对话任务，全面揭示了当前LLM在复杂多轮、多语言场景中的挑战。所有模型在多轮对话中表现显著衰减，表现最佳的o1-preview模型在三轮对话的准确率从87.7%下降...……更多

2024-11-26 09:51:00多语,大比,基准,指令,任务,语言

首届大模型顶会COLM高分论文：偏好搜索算法让大模型评估更高

...和 Ehsan Shareghi。他的研究兴趣是大模型和文本评估，数据生成等。共同一作为二年级博士生周涵，导师为教授 Anna Korhonen 和 Ivan Vulić，他的研究兴趣是高效大模型。大模型展现出了卓越的指令跟从和任务泛化的能力，这种独特的...……更多

2024-08-06 09:26:00模型,偏好,高分,算法,首届,评估

GPT-4V暴露致命缺陷？JHU等发布首个多模态ToM 测试

..., Harvard 等机构的研究团队开创了第一个多模态的 ToM 测试基准，发现现有的多模态模型和 LLM 都表现存在系统性缺陷，同时他们提出了一种有效的新方法。在刚结束的 ACL 2024 会议中，这篇论文获得杰出论文奖。论文标题：MMToM-QA:...……更多

2024-09-12 09:45:00模态,缺陷,测试,模态,模型,心智

田渊栋团队新作祭出Agent-as-a-Judge！AI智能

...论文地址：https://arxiv.org/abs/2410.10934v1研究人员提出了DevAI基准，为全新框架提供概念验证测试平台。包含55个真实的AI开发任务，带有详细的手动注释。通过对三个领先的智能体系统进行基准测试，发现它大大优于「LLM-as-a-Judge」...……更多

2024-10-28 09:52:00审判,新作,团队,成本,智能,评估

LeCun 的世界模型初步实现！基于预训练视觉特征，零样本规

...的生成式模型）进行了比较。如图 7 所示，可以看到，在基准上训练的扩散模型能得到看起来相当真实的未来图像，但它们在物理上并不合理，因为可以看到在单个预测时间步骤中就可能出现较大的变化，并且可能难以达到准确...……更多

2024-11-19 09:48:00样本,模型,特征,视觉,训练,规划

RTX3090可跑，360AI团队开源视频模型FancyVi

...学术研究和算法落地工作。目前是奇虎 360-AIGC 团队-视频生成方向负责人，长期致力于视觉生成方向研究和落地，以及开源社区建设。近日，开源社区又迎来一款强力的「视频生成」工作，可以在消费级显卡 (如 GeForce RTX 3090) 上...……更多

2024-08-27 09:52:00红衣,大叔,模型,团队,视频,生成

蚂蚁自研知识增强大模型服务框架KAG，可显著提升知识推理准确

...分校计算机科学与技术系特聘教授俞士纶、国际关联数据基准委员会（LDBC）副主席 Alastair Green、中国人寿财产保险有限公司人工智能开发团队负责人孔宇飞、蚂蚁数字科技 AI 技术负责人章鹏、蚂蚁集团图计算解决方案架构师崔...……更多

2024-09-13 13:33:00知识,准确率,推理,蚂蚁,框架,模型

科研党狂喜！AI预测神经学研究结论超人类专家水平 | Nat

...剑桥大学、牛津大学等机构的团队发布了一个神经学专用基准BrainBench，登上了Nature子刊《自然人类行为（Nature human behavior）》。结果显示，经过该基准训练的LLM在预测神经科学结果的准确度方面高达81.4%，远超人类专家的63%。在...……更多

2024-12-02 09:51:00结论,神经,科研,人类,水平,专家

PyTorch官宣：告别CUDA，GPU推理迎来Triton

...用Llama3-8B和Granite-8B的Triton和CUDA变体，并进行推理阶段的基准测试，PyTorch团队证实了，Triton内核能实现CUDA-Free的计算，且生成token的吞吐量有显著提升。内核架构以Llama3为例，经典的Transformer块由一般由以下部分组成：其中涉……更多

2024-09-07 09:48:00新时代,推理,内核,矩阵,乘法,英伟

大模型为建立通用人工智能理论提供可能性

...的交互（具身智能），通过交互在不同专业和科学的测试基准上表现出人类水平的智能。而针对幻觉，大模型有时会生成看似合理的编造或无意义的答案。在工作替代性方面，张钹表示，人工智能有助于推动经济增长，建筑、维...……更多

2024-03-21 09:57:00人工智能,人工,可能性,模型,理论,智能

OpenAI超级对齐团队遗作：两个大模型博弈一番，输出更好懂

...用类似的方法。不过，在采用这种方法时，确保语言模型生成的是易于理解的文本，这件事非常重要，尤其是在处理数学、编码这样的复杂任务时。如下图所示，你让 AI 写一个快速排序算法，AI 很快就写出来了，而且答案很简...……更多

2024-07-19 09:45:00遗作,输出,模型,团队,两个,模型

开源大模型新的里程碑！Llama 3.1 模型准时发布

...。本次Llama3.1模型共有三个版本，分别是8B、70B和405B。从基准测试结果来看，超大杯Llama3.1405B与OpenAI的GPT-4o和Claude3.5Sonnet在多个项目上能够媲美。在GSM8K任务中，Llama3.1405B得分96.8，高于GPT-4o的96.1和Cla……更多

2024-07-24 12:13:00模型,里程,里程碑,准时,模型,伯格