多语,大比,基准,指令,任务,语言头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...称Gemini Ultra 在大型语言模型研发被广泛使用的 32 个学术基准测试集中，在其中 30 个测试集的性能超过当前 SOTA 结果。 Gemini是谷歌各个团队大规模合作的成果，包括谷歌研究院的研究者，这个模型从发布之初就定位为原生多模...……更多

2023-12-07 16:15:00神仙,模型,观察,科技,模型,任务

史上最严中文真实性评估：OpenAI o1第1豆包第2，其它

...提高大语言模型的真实性，并探索将中文简短问答扩展到多语言和多模态设置。论文地址：https://arxiv.org/abs/2411.07140 ……更多

2024-11-22 09:51:00豆包,中文,真实性,评估,模型,中文

谷歌推出其最先进AI模型Gemini，希望击败GPT-4

...总裁艾力·柯林斯（Eli Collins）表示：“事实上，Gemini在多语言能力方面表现相当出色。”与新模型一起亮相的，还有新版本的TPU芯片TPU v5p，旨在减少训练大语言模型相关的时间投入。TPU是谷歌为神经网络设计的专用芯片，经过...……更多

2023-12-07 10:21:00最先,模型,比斯,模型,哈萨,人工智能

o1规划能力首测！已超越语言模型范畴，preview终于赢m

...为了评估o1系列模型的规划能力，作者使用了PlanBench评估基准。该基准的提出者中也正好包含了本文三名作者中的两名——共同一作Karthik Valmeekam，以及他的导师Subbarao Kambhampati。PlanBench专门为评估大模型规划能力而设计，任务类...……更多

2024-09-29 09:51:00范畴,模型,能力,语言,规划,模型

$多个中国团队斩获EMNLP\'24最佳论文！UCLA华人学者中三篇杰出论文$

多个中国团队斩获EMNLP'24最佳论文！UCLA华人学者中

...表现优异，在 ML-SUPERB 基准测试中超越了其他模型，如在多语言自动语音识别任务中实现SOTA，且在语音翻译、语音合成等任务中也表现出色。该团队超半数都是华人，其中一作William Chen目前是CMU语言技术研究所的硕士生，此前获...……更多

2024-11-18 09:59:00论文,中国,学者,多个,团队,华人

ibm开源“最先进”和高性能的granite代码模型

...模型进行比较IBM表示，Granite代码模型在所有模型尺寸和基准测试中整体表现非常出色，通常优于其他开源代码模型，尽管这些模型的规模是Granite的两倍。Granite代码模型在代码合成、修复、解释、编辑和翻译方面表现出色，涵盖...……更多

2024-05-22 10:19:00高性能,最先,模型,代码,模型,代码

仅用4块GPU、不到3天训练出开源版GPT-4o，这是国内团

...TS) 、 Qwen2-Audio (+TTS) 。主要结果表 1 给出了 InstructS2S-Eval 基准测试主要结果。首先，在 S2TIF 任务中，从内容（content）角度来看，LLaMA-Omni 相比之前的模型有了显著提升，这主要是因为 LLaMA-Omni 是基于最新的 L……更多

2024-09-24 13:42:00团队,训练,这是,研究,语音,文本

LLM数学性能暴涨168%，微软14人团队力作！合成数据2.

...化的合成数据。经过合成数据微调后的模型Orca-3，在多项基准上刷新了SOTA。全世界高质量数据几乎枯竭。AI科学家们为了解决这一难题，可谓是绞尽脑汁。目前来看，合成数据或许就是大模型的未来，也成为业界公认的解决之法...……更多

2024-08-20 13:44:00微软,力作,秘诀,生成,团队,性能

多模态竞技场对标90B Llama 3.2！Pixtral

...要好。最后，与开源模型一起，Mistral还贡献了一个开源基准测试MM-MT-Bench，用于在实际场景中评估视觉语言模型。技术细节当前的多模态大模型基本上都是：模态编码器 + 投影模块 + 大语言模型主干。如果需要多模态输出，后...……更多

2024-11-20 09:43:00模态,竞技场,竞技,报告,技术,模态

李飞飞团队ReKep荣获CoRL-LEAP研讨会最佳论文奖，

...臂平台，各个组件如何导致系统的故障情况？衡量标准和基准作者设定了对于倒茶、放置书籍、回收罐子、打包盒子、折叠衣物、打包鞋子以及协作折叠七项任务的实验评估，并且还通过在执行过程中改变任务对象的姿态位置，...……更多

2024-12-04 09:51:00一城,研讨会,研讨,团队,智能,论文

思必驰亮相NexTech Week 2025日本东京人工智能

...驰的出海战略提供了坚实的技术支撑。不仅如此,思必驰AI多语种技术注重多语言、多方言的语音识别和合成技术的开发,支持英语、泰语、法语、德语、日语、韩语、越南语、俄语、西班牙语、挪威语、印尼语等20多种语言,覆盖...……更多

2025-04-21 13:00:00东京,人工智能,日本,人工,智能,智能

Meta首款多模态Llama 3.2开源！1B羊驼宝宝，跑在

...并迅速给出答案。轻量级的1B和3B模型则可以帮助不仅在多语言文本生成和工具调用能力方面表现出色，而且具有强大的隐私保护，数据永远不会离开设备。之所以在本地运行模型备受大家的青睐，主要在于以下两个主要优势：...……更多

2024-09-27 13:39:00模态,宝宝,模型,图像,训练,文本

自动化机器学习研究MLR-Copilot：利用大型语言模型进

...研究中的广泛应用场景，其数据集包括：SemRel：一个包含多语言语义文本关联任务的数据集，使用 Pearson 相关系数作为评估标准。 IMDB 数据集：用于情感分析的电影评论数据集。 Spaceship-Titanic 数据集：用于分类任务的数据集，...……更多

2024-09-26 13:35:00研究,模型,自动化,机器,语言,学习

思必驰天琴语音助手全面接入DeepSeek：中枢大模型驱动车

...化与车辆状况;语言智能:支持长文本理解、上下文拼接与多语种交互,具备更强的语言理解和生成能力;生态智能:通过多Agent调度系统,无缝连接多媒体、导航、资讯、创作等生态,提供丰富车载服务和应用;群体智能:依托车端、云端...……更多

2025-03-03 17:09:00中枢,接入,进化,语音,助手,模型

Mamba再次挑战霸主Transformer！首个通用Mam

...型Falcon Mamba 7B，性能与Transformer架构模型相媲美，在多个基准测试上的均分超过了Llama 3.1 8B和Mistral 7B。今天，阿布扎比支持的技术创新研究所(TII) 开源了全球第一个通用的大型Mamba架构模型——Falcon Mamba 7B。虽然之前，但仅……更多

2024-08-14 09:43:00一鸣,霸主,模型,再次,模型,序列