基准,北大,生成,模型,文本,评估头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...该工作首先引入了 Intention-in-Interaction（IN3）这一全新的基准测试，旨在通过与用户明确的交互来理解用户的隐式意图。以 Mistral-7B 为框架，基于 IN3 训练的 Mistral-Interact 能主动评估任务的模糊性，询问用户意图，并在启动下游智...……更多

2024-08-14 09:39:00意图,模型,人类,智能,智能,任务

用过GPT-4 Turbo以后，我们再也回不去了

...了不到十分钟。GPT-4 Turbo 具有创纪录的准确率，在 PyLLM 基准上，GPT-4 Turbo 的准确率是 87%，而 GPT-4 的准确率是 52%，这是在速度几乎快了四倍多的情况下（每秒 48 token）实现的。至此，生成式 AI 的竞争似乎进入了新的阶段。很多...……更多

2023-11-08 18:08:00模型,测试,用户,代码,基准,尝试

史上最严中文真实性评估：OpenAI o1第1豆包第2，其它

新的大语言模型（LLM）评估基准对于跟上大语言模型的快速发展至关重要。近日，淘宝天猫集团的研究者们提出了中文简短问答（Chinese SimpleQA），这是首个全面的中文基准，具有“中文、多样性、高质量、静态、易于评估”五...……更多

2024-11-22 09:51:00豆包,中文,真实性,评估,模型,中文

智慧芽垂直领域大模型通过国家网信办“双备案”

...、C-Eval，以及智慧芽面向业内首次提出的专利大模型测试基准（Patent-bench）的测评结果显示，智慧芽垂直领域大模型在问答、总结、写作、翻译、分类等方面能力整体优于商业通用大模型。图：智慧芽垂直领域大模型专业考试成...……更多

2024-08-15 14:22:00模型,智慧,领域,国家,模型,智慧

阿里多模态检索智能体，自带o1式思考过程！复杂问题逐步拆解

...估OmniSearch，研究团队构建了全新Dyn-VQA数据集。在一系列基准数据集上的实验中，OmniSearch展现了显著的性能优势。特别是在处理需要多步推理、多模态知识和快速变化答案的问题时，OmniSearch相较于现有的mRAG方法表现更为优异。...……更多

2024-12-05 09:45:00模态,拆解,阿里,检索,过程,智能

LLM数学性能暴涨168%，微软14人团队力作！合成数据2.

...化的合成数据。经过合成数据微调后的模型Orca-3，在多项基准上刷新了SOTA。全世界高质量数据几乎枯竭。AI科学家们为了解决这一难题，可谓是绞尽脑汁。目前来看，合成数据或许就是大模型的未来，也成为业界公认的解决之法...……更多

2024-08-20 13:44:00微软,力作,秘诀,生成,团队,性能

刚刚，Llama 3.2 来了！支持图像推理，还有可在手机上

...与 Gemma 相当。具体来说，Meta 在涉及多种语言的 150 多个基准数据集上对 Llama 3.2 进行了评估。对于视觉 LLM，评估基准涉及图像理解和视觉推理任务。视觉模型Llama 3.2 11B 和 90B 模型是首批支持视觉任务的 Llama 模型，因此 Meta 为...……更多

2024-09-27 13:42:00推理,可在,图像,运行,版本,支持

2023 AI现状报告：GPT-4仍最强，监管方向缺乏全球共

...变得更加强大和灵活，比较它们的能力越来越困难。由于基准变得不那么明确，用于评估大语言模型的“基于氛围”的方法在业界越来越普遍。·人工智能安全在2023年首次占据舞台中心。但人工智能界内部存在深刻分歧，世界各...……更多

2023-10-12 15:21:00共识,监管,现状,方向,报告,全球

CVPR最佳论文被生成式AI占领，清华武大华南农大上科校友获

...性两方面评估生成视频的质量，结果显示该方法明显优于基准：最佳学生论文 BioCLIP: A Vision Foundation Model for the Tree of Life论文作者来自俄亥俄州立大学、微软研究院、加利福尼亚大学欧文分校、伦斯勒理工学院。他们构建了一个...……更多

2024-06-21 09:21:00华南,清华,农大,获奖,校友,生成

北大、快手开源视频生成模型Pyramid Flow，1分钟生

智东西10月11日消息，据VentureBeat报道，北京大学、北京邮电大学和快手科技在本周联合开源了一款名为Pyramid Flow的高清视频生成模型。Pyramid Flow能根据文本描述制作长达10秒、分辨率为1280×768、每秒24帧的视频。Pyramid Flow采用了...……更多

2024-10-12 09:49:00生成,快手,视频,北大,模型,视频

仅用4块GPU、不到3天训练出开源版GPT-4o，这是国内团

...TS) 、 Qwen2-Audio (+TTS) 。主要结果表 1 给出了 InstructS2S-Eval 基准测试主要结果。首先，在 S2TIF 任务中，从内容（content）角度来看，LLaMA-Omni 相比之前的模型有了显著提升，这主要是因为 LLaMA-Omni 是基于最新的 L……更多

2024-09-24 13:42:00团队,训练,这是,研究,语音,文本

$什么影响大模型安全？NeurIPS\'24新研究提出大模型越狱攻击新基准$

什么影响大模型安全？NeurIPS'24新研究提出大模型越狱

全新大语言模型越狱攻击基准与评估体系来了。来自香港科技大学（Guangzhou）USAIL研究团队，从攻击者和防御者的角度探讨了什么因素会影响大模型的安全。提出攻击分析系统性框架JailTrackBench。JailTrackBench研究重点分析了不同...……更多

2024-11-01 09:29:00模型,基准,攻击,影响,安全,研究

迎战GPT-4V！谷歌PaLI-3视觉语言模型问世，更小、更

...igLIP）进行了比较，结果发现，PaLI-3 虽然在标准图像分类基准上略微表现不佳，但基于 SigLIP 的 PaLI 在各种多模态基准测试中表现出卓越的性能，特别是在定位和文本理解方面。相关研究论文以“PaLI-3 Vision Language Models: Smaller, Fas.……更多

2023-10-17 16:31:00更快,模型,视觉,语言,训练,模型

$多个中国团队斩获EMNLP\'24最佳论文！UCLA华人学者中三篇杰出论文$

多个中国团队斩获EMNLP'24最佳论文！UCLA华人学者中

...结果显示，XEUS 在多个下游任务中表现优异，在 ML-SUPERB 基准测试中超越了其他模型，如在多语言自动语音识别任务中实现SOTA，且在语音翻译、语音合成等任务中也表现出色。该团队超半数都是华人，其中一作William Chen目前是CMU...……更多

2024-11-18 09:59:00论文,中国,学者,多个,团队,华人

媲美OpenAI事实性基准，这个中文评测集让o1-previ

...评测集的长期有效性，可以长期作为模型知识能力的评估基准易于评估：评测数据的问题和答案非常简短，评测可以基于任意的模型，能够以较低成本和较快速度进行高一致性的评测。有难度和区分度：我们评估了 40 + 国内外...……更多

2024-11-21 09:43:00事实性,基准,中文,评测,事实,模型

还在人工炼丹？自动提示工程指南来了，还带从头实现

...程对于 LLM 的输出结果，现在已经有了很多标准化的评估基准和机制。以代码生成为例：可以通过在编译器或解释器中运行代码来检查语法错误和功能，从而即时评估生成的代码的准确性。通过测量成功编译的代码所占的百分比...……更多

2024-09-10 13:39:00从头,人工,提示,指南,工程,提示

百万鲁棒数据训练，3D场景大语言模型新SOTA！IIT等发布

...3D场景理解中的鲁棒性和泛化能力，在多个3D多模态学习基准测试中取得了优异的性能，超越了以往的方法，且无需针对特定任务的微调。多模态大语言模型（Multi-modal Large Language Models, MLLMs）以文本模态为基础，将其它各种模态...……更多

2024-10-16 13:35:00模型,场景,训练,语言,数据,物体

本周硅谷发生了什么？｜OpenAI推出5项更新；微软组建新的

...PT4-V和Gemini Ultra，但其规模仅为它们的1/10-1/20。Fuyu-Heavy在基准测试跑分中表现突出，部分得分超过Gemini Pro。Adept成立于2022年，创始人包括Google Transformer架构的提出者Ashish Vaswani和Niki Parmar……更多

2024-01-29 09:34:00文生,硅谷,微软,模型,团队,更新