多语,大比,基准,指令,任务,语言头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

通义千问系列AI开源模型升至Qwen2：5个尺寸，最高 12

...型，Qwen2-72B 在包括自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的模型，如 Llama-3-70B 以及 Qwen1.5 最大的模型 Qwen1.5-110B。 ……更多

2024-06-07 09:32:00通义,模型,尺寸,模型,训练,上下文

AI科学家太多，谁靠谱一试便知！普林斯顿新基准CORE-Be

【新智元导读】普林斯顿大学新发布的CORE-Bench基准测试，通过270个基于90篇跨学科科学论文的任务，可评估AI智能体在计算可重复性方面的表现，最简单任务的准确率可以达到60%，最难任务准确率仅有21%大模型的能力越来越强，...……更多

2024-09-26 13:38:00普林,普林斯顿,斯顿,准确率,基准,科学家

一个弹窗整懵Claude，瞬间玩不转电脑了

...验环境，这是两个用于评估多模态智能体自主执行任务的基准测试平台，来模拟攻击测试。具体而言，研究人员将设计好的对抗性弹出窗口注入到智能体的观察空间中，并在实验过程中记录智能体的行为和性能指标（包括点击弹...……更多

2024-11-09 09:52:00电脑,智能,攻击,任务,研究,成功

全模态对齐框架align-anything来啦：实现跨模态指

... 支持多种开、闭源对齐评估：支持了 30 多个多模态评测基准，包括如 MMBench、VideoMME 等多模态理解评测，以及如 FID、HPSv2 等多模态生成评测训练框架北大对齐小组设计了高度模块化、扩展性以及简单易用的对齐训练框架，支持...……更多

2024-10-18 09:47:00模态,指令,框架,模态,模型,数据

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构

...理方面同样不足。为此他们提出了一种多模态的视觉推理基准，并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型，似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说了，但是依旧算...……更多

2024-08-08 16:23:00模态,领衔,基准,推理,视觉,能力

OpenAI-o1思考替代法火了！焦剑涛高徒一作提出思考偏好

...提升基模型的性能。进一步加入TPO，在AlpacaEval、Arena-Hard基准测试中，性能比基线再提升约4%。网友纷纷表示这项研究很有意思，简单而又实用。如果你已经在进行DPO，那么采用这种方法几乎就是不二之选了。所以，TPO到底长啥...……更多

2024-10-29 09:58:00高徒,偏好,模型,过程,基线,偏好

这才是真开源模型！公开后训练一切，性能超越Llama 3.1

...lu 3 系列模型明显优于同等规模的其它模型。8B 模型在各基准上的表现70B 模型在各基准上的表现 Tülu 3 是如何炼成的？Ai2 在预训练语言模型的基础上，通过四个阶段的后训练方法生成 Tülu 3 模型（见图 1）。这套训练流程结合...……更多

2024-11-26 09:44:00模型,性能,训练,模型,训练,数据

阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

...视觉环境和文字指令进行自动操作；理解图像视频中的多语言文本，包括中文、英文，大多数欧洲语言，日语、韩语、阿拉伯语、越南语等。 Qwen2-VL 延续了 ViT 加 Qwen2 的串联结构，三个尺寸的模型都采用了 600M 规模大小的 ViT...……更多

2024-09-03 09:45:00二代,通义,阿里,模型,视觉,语言

腾讯发布最大开源MoE模型，3890亿参数免费可商用

...：引入了多轮对话数据，模拟真实的长文本问答场景。多语言支持：提供中英双语数据，满足多语言应用需求。推理加速优化为了进一步提升Hunyuan-Large的推理效率，混元团队采用了多种优化技术，其中最关键的是KV Cache压缩。...……更多

2024-11-07 09:54:00腾讯,商用,模型,参数,模型,数据

苹果AI震撼上线iPhone，进化版Siri却没有ChatG

...示了AFM-server在HuggingFace OpenLLM排行榜V1，以及HELM-Lite v1.5.0基准上的结果。可以看到，AFM预训练模型有着强大的语言和推理能力，从而为后训练和特征微调提供了坚实的基础。后训练人类评估对于苹果AI的应用场景来说，人类评估...……更多

2024-08-01 09:40:00进化,模型,苹果,报告,技术,苹果

GPT-4最强对手出现！Claude-3 AI模型发布

...比，Claude3系列在分析、预测、内容创作、代码生成以及多语言对话等方面展现了改进。据报道，这些模型还具备了增强的视觉能力，允许模型处理照片、图表和图解等视觉格式，类似于GPT-4V和谷歌的Gemini在实际测试中，Claude3相...……更多

2024-03-10 18:27:00模型,对手,模型,处理,能力,前代

无一大模型及格！北大/通研院提出超难基准，评估长文本理解生

...型及格！北大联合北京通用人工智能研究院提出了一个新基准数据集：LooGLE，专门用于测试和评估大语言模型（LLMs）长上下文理解能力。该数据集既能够评估LLMs对长文本的处理和检索能力，又可以评估其对文本长程依赖的建模...……更多

2024-08-08 09:39:00基准,北大,生成,模型,文本,评估

语音呼叫 - 从电话沟通到智能语音助手的变革

...根据个人喜好和需求提供定制化的建议和解决方案。3.2.2多语言适应未来的语音呼叫技术将能够适应多种语言和方言，并能够以自然的方式进行多语言对话，使全球用户都能享受到便捷的语音交流体验。结论语音呼叫正经历着...……更多

2024-06-07 22:57:00语音,呼叫,变革,助手,智能,电话

商汤商量获SuperCLUE 9月评测总榜和子榜两项第一，A

...，AI智能体方向受瞩目近日，中文通用大模型综合性评测基准SuperCLUE发布9月总排行榜和各个分类任务榜单，商汤商量SenseChat 3.0 位列中文大模型总榜排名第一。在新增的AI Agent（AI智能体）子榜中，SenseChat 3.0 同样排名第一，领先...……更多

2023-10-13 14:26:00商汤,评测,方向,智能,模型,商汤

「学术版ChatGPT」登场！Ai2打造科研效率神器Open

...。为了方便自动化评估，团队还一道推出了全新的大规模基准ScholarQABench，覆盖了CS、生物、物理等多个学科，用于评价模型在引用准确性、涵盖度和质量的等方面的表现。由UWNLP和Ai2两大顶流机构联手，OpenScholar在开源方面几乎...……更多

2024-11-27 13:33:00神器,文献,效率,科研,学术,模型

开源大模型新的里程碑！Llama 3.1 模型准时发布

...含8B、70B和405B三个尺寸，最大上下文提升到了128K，支持多语言，代码生成性能优秀，具有复杂的推理能力；2.从基准测试结果来看，Llama3.1超过了GPT-40125，与GPT-4o、Claude3.5互有胜负；3.提供开放/免费的模型权重和代码，许可证允...……更多

2024-07-24 12:13:00模型,里程,里程碑,准时,模型,伯格

昆仑万维发布开源13B高质量商用大模型领先Llama2和B

...Skywork-13B-Base模型是Skywork-13B的基础模型，其经由3.2万亿个多语言高质量数据训练，在CEVAL, CMMLU, MMLU, GSM8K等评测与基准测试上都展现了同等规模模型的最佳效果。 Skywork-13B-Math模型经过专门的数学能力强化训练，在GSM8K……更多

2023-10-30 15:35:00万维,昆仑,商用,高质量,模型,领先

零样本即可时空预测！港大、华南理工等发布时空大模型Urban

...时间段和地理位置的时空动态的理解。相比之下，传统的基准模型通常更注重编码时空依赖关系，而忽略了区域、时段和数据类型之间的语义差异。通过将丰富的语义信息融入UrbanGPT，我们显著提升了其在未见过的区域中进行精...……更多

2024-08-01 09:40:00时空,华南,样本,理工,模型,时空

openai更新gpt-4turbo预览模型

...small性能和效率大幅提升。性能方面，text-embedding-3-small在多语言检索常用基准（MIRACL）的平均得分从31.4%提高到44.0%，而英语任务常用基准（MTEB）的平均得分从61.0%提高到62.3%。定价方面，text-embedding-3-small的定价是t……更多

2024-01-27 20:36:00模型,更新,模型,价格,得分,性能

全自动组装家具！斯坦福发布IKEA Video Manua

...书，为AI理解和执行复杂空间任务提供了新的挑战和研究基准，让机器人或AR眼镜指导家具组装不再是梦。随着人工智能技术的快速发展，让机器理解并执行复杂的空间任务成为一个重要研究方向。在复杂的3D结构组装中，理解和...……更多

2024-12-04 09:53:00斯坦,斯坦福,指令,全自动,场景,家具

开源大模型杀疯了！Mistral新模型三分之一参数卷爆Lla

...的测评结果：Mistral Large 2性能具体如何，来看官方发布的基准测试结果。不到三分之一参数比肩Llama 3.1根据官方Blog，Mistral Large 2参数123B，专为单节点推理设计，在单节点上可实现大吞吐，上下文窗口为128k。代码能力方面，Mistra...……更多

2024-07-26 09:39:00模型,参数,模型,基准,问题,推理

商汤又“夺金”！SuperCLUE-V多模态大模型基准发布1

...日新·商量”又拿了金牌！今日，中文多模态大模型测评基准SuperCLUE-V发布10月榜单：商汤日日新·商量多模态大模型（SenseChat-Vision5.5）凭借多个任务上的出色表现，总得分位列国内大模型第一梯队，智夺金牌。商量多模态大模型...……更多

2024-10-14 13:34:00商汤,模态,基准,模型,模型,能力

科研也完了，AI暴虐170位人类专家！Nature子刊：大模

...写代码。已有的研究考察了大模型在科研领域的表现，但基准数据集大多属于「回顾性质」的，比如MMLU、PubMedQA和MedMCQA，主要以问答的形式来评估模型的核心知识检索和推理能力，然而，这些基准都不适合评估模型前瞻的能力...……更多

2024-12-09 09:50:00暴虐,准确率,模型,高达,完了,科研

非Transformer架构站起来了!首个纯无注意力大模型,

...理各种文本生成任务。从结果来看，Falcon Mamba 7B 在一些基准上超越同尺寸级别的领先模型，包括 Meta 的 Llama 3 8B、Llama 3.1 8B 和 Mistral 7B。 Falcon Mamba 7B 分为四个变体模型，分别是基础版本、指令微调版本、4bit 版本……更多

2024-08-14 09:39:00力大,架构,模型,模型,架构,训练