基准,北大,生成,模型,文本,评估头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

无一大模型及格！北大/通研院提出超难基准，评估长文本理解生

...型及格！北大联合北京通用人工智能研究院提出了一个新基准数据集：LooGLE，专门用于测试和评估大语言模型（LLMs）长上下文理解能力。该数据集既能够评估LLMs对长文本的处理和检索能力，又可以评估其对文本长程依赖的建模...……更多

2024-08-08 09:39:00基准,北大,生成,模型,文本,评估

北大推出全新机器人多模态大模型！面向通用和机器人场景的高效推

...多种操作技能。在实验中，RoboMamba 在通用和机器人评估基准上展示了出色的推理能力，如图 2 所示。同时，我们的模型在模拟和现实世界实验中展示了令人印象深刻的操纵位姿预测能力，其推理速度比现有的机器人 MLLMs 快 7 倍...……更多

2024-06-21 09:52:00机器,模态,人多,机器人,推理,北大

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构

...理方面同样不足。为此他们提出了一种多模态的视觉推理基准，并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型，似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说了，但是依旧算...……更多

2024-08-08 16:23:00模态,领衔,基准,推理,视觉,能力

清华领衔发布多模态评估MultiTrust：GPT-4可信度

...的研究人员联合撰写百页长文，发布名为MultiTrust的综合基准，首次从多个维度和视角全面评估了主流多模态大模型的可信度，展示了其中多个潜在安全风险，启发多模态大模型的下一步发展。论文标题：Benchmarking Trustworthiness of ...……更多

2024-07-25 09:31:00模态,清华,可信度,领衔,可信,几何

Bengio团队提出多模态新基准，直指Claude 3.5和

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报...……更多

2024-06-29 09:37:00模态,基准,弱点,团队,模型,任务

大幅减缓幻觉百融云创大模型精度测评结果出炉

...越重要。百融云创参加的这场“考试”名叫检索增强生成基准测评，这是对大模型处理“幻觉问题”的能力测评，也是对大模型生成内容准确性的测评。尽管大模型带来令人兴奋的技术进步，但“幻觉”一直是制约其发展的主要...……更多

2024-03-28 16:16:00精度,幻觉,模型,结果,模型,幻觉

Mamba再次挑战霸主Transformer！首个通用Mam

...型Falcon Mamba 7B，性能与Transformer架构模型相媲美，在多个基准测试上的均分超过了Llama 3.1 8B和Mistral 7B。今天，阿布扎比支持的技术创新研究所(TII) 开源了全球第一个通用的大型Mamba架构模型——Falcon Mamba 7B。虽然之前，但仅……更多

2024-08-14 09:43:00一鸣,霸主,模型,再次,模型,序列

87.8%准确率赶超GPT-4o登顶！谷歌DeepMind发

...动评分器 ( FLAMe-RM 和 FLAMe-Opt-RM）。在12个自动评分器评估基准中的8个基准上，FLAMe及其变体的自动评分性能优于用专有数据训练的GPT-4o、Gemini-1.5-Pro等模型。- 计算高效的多任务训练：引入了一种计算更为高效的方法，使用创新...……更多

2024-08-05 09:37:00准确率,模型,评估,评估,模型,数据

非Transformer架构站起来了!首个纯无注意力大模型,

...理各种文本生成任务。从结果来看，Falcon Mamba 7B 在一些基准上超越同尺寸级别的领先模型，包括 Meta 的 Llama 3 8B、Llama 3.1 8B 和 Mistral 7B。 Falcon Mamba 7B 分为四个变体模型，分别是基础版本、指令微调版本、4bit 版本……更多

2024-08-14 09:39:00力大,架构,模型,模型,架构,训练

开闭源模型「大乱斗」：看看哪个智能体最能窥见人类真实意图

...该工作首先引入了 Intention-in-Interaction（IN3）这一全新的基准测试，旨在通过与用户明确的交互来理解用户的隐式意图。以 Mistral-7B 为框架，基于 IN3 训练的 Mistral-Interact 能主动评估任务的模糊性，询问用户意图，并在启动下游智...……更多

2024-08-14 09:39:00意图,模型,人类,智能,智能,任务

用过GPT-4 Turbo以后，我们再也回不去了

...了不到十分钟。GPT-4 Turbo 具有创纪录的准确率，在 PyLLM 基准上，GPT-4 Turbo 的准确率是 87%，而 GPT-4 的准确率是 52%，这是在速度几乎快了四倍多的情况下（每秒 48 token）实现的。至此，生成式 AI 的竞争似乎进入了新的阶段。很多...……更多

2023-11-08 18:08:00模型,测试,用户,代码,基准,尝试

智慧芽垂直领域大模型通过国家网信办“双备案”

...、C-Eval，以及智慧芽面向业内首次提出的专利大模型测试基准（Patent-bench）的测评结果显示，智慧芽垂直领域大模型在问答、总结、写作、翻译、分类等方面能力整体优于商业通用大模型。图：智慧芽垂直领域大模型专业考试成...……更多

2024-08-15 14:22:00模型,智慧,领域,国家,模型,智慧

LLM数学性能暴涨168%，微软14人团队力作！合成数据2.

...化的合成数据。经过合成数据微调后的模型Orca-3，在多项基准上刷新了SOTA。全世界高质量数据几乎枯竭。AI科学家们为了解决这一难题，可谓是绞尽脑汁。目前来看，合成数据或许就是大模型的未来，也成为业界公认的解决之法...……更多

2024-08-20 13:44:00微软,力作,秘诀,生成,团队,性能

2023 AI现状报告：GPT-4仍最强，监管方向缺乏全球共

...变得更加强大和灵活，比较它们的能力越来越困难。由于基准变得不那么明确，用于评估大语言模型的“基于氛围”的方法在业界越来越普遍。·人工智能安全在2023年首次占据舞台中心。但人工智能界内部存在深刻分歧，世界各...……更多

2023-10-12 15:21:00共识,监管,现状,方向,报告,全球

CVPR最佳论文被生成式AI占领，清华武大华南农大上科校友获

...性两方面评估生成视频的质量，结果显示该方法明显优于基准：最佳学生论文 BioCLIP: A Vision Foundation Model for the Tree of Life论文作者来自俄亥俄州立大学、微软研究院、加利福尼亚大学欧文分校、伦斯勒理工学院。他们构建了一个...……更多

2024-06-21 09:21:00华南,清华,农大,获奖,校友,生成

迎战GPT-4V！谷歌PaLI-3视觉语言模型问世，更小、更

...igLIP）进行了比较，结果发现，PaLI-3 虽然在标准图像分类基准上略微表现不佳，但基于 SigLIP 的 PaLI 在各种多模态基准测试中表现出卓越的性能，特别是在定位和文本理解方面。相关研究论文以“PaLI-3 Vision Language Models: Smaller, Fas.……更多

2023-10-17 16:31:00更快,模型,视觉,语言,训练,模型

还在人工炼丹？自动提示工程指南来了，还带从头实现

...程对于 LLM 的输出结果，现在已经有了很多标准化的评估基准和机制。以代码生成为例：可以通过在编译器或解释器中运行代码来检查语法错误和功能，从而即时评估生成的代码的准确性。通过测量成功编译的代码所占的百分比...……更多

2024-09-10 13:39:00从头,人工,提示,指南,工程,提示

本周硅谷发生了什么？｜OpenAI推出5项更新；微软组建新的

...PT4-V和Gemini Ultra，但其规模仅为它们的1/10-1/20。Fuyu-Heavy在基准测试跑分中表现突出，部分得分超过Gemini Pro。Adept成立于2022年，创始人包括Google Transformer架构的提出者Ashish Vaswani和Niki Parmar……更多

2024-01-29 09:34:00文生,硅谷,微软,模型,团队,更新

全球AI安全评估测试有了新基准

...型安全领域两项国际标准发布全球AI安全评估测试有了新基准随着人工智能系统，特别是大语言模型成为社会各方面不可或缺的一部分，以一个全面的标准来解决它们的安全挑战变得至关重要。◎本报记者崔爽第27届联合国科技...……更多

2024-04-25 04:00:00基准,评估,测试,安全,全球,人工智能

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonn

...理、数学推理、编程任务及视觉推理等任务上设立新行业基准而引发广泛讨论：Claude-3.5-Sonnet 已经取代OpenAI的GPT4o成为世界上”最聪明的AI“（Most Intelligent AI）了吗？回答这个问题的挑战在于我们首先需要一个足够挑战的智力测...……更多

2024-06-25 09:45:00奥林,奥林匹克,竞赛,模型,推理,能力

全球最强开源大模型Llama 3发布：使用15T数据预训练，

...版本，可以支持广泛的应用。同时，Llama 3 在广泛的行业基准测试中达到了 SOTA，并提供了新的功能，如改进的推理能力。最强开源 LLM 来了Meta 官方博客写道，“得益于预训练和后训练的改进，我们的预训练和指令微调模型是目...……更多

2024-04-20 11:03:00模型,训练,参数,数据,全球,模型

长上下文能力只是吹牛？最强GPT-4o正确率仅55.8%，开

...过不断增加上下文长度（干扰图片的数量），将现有的VQA基准和简单图像识别集 (MNIST) 扩展为测试长上下文「提取推理」的示例。结果在简单VQA任务上，VLM的性能呈现出惊人的指数衰减。——LLM：原形毕露了家人们。而与实际研...……更多

2024-07-23 17:12:00正确率,长上,下文,模型,只是,能力

3秒让AI生成风险减少30%！复旦新研究拿下扩散模型概念移除

...？不安全概念移除首先来看最敏感的内容——色情。在I2P基准数据集上，RECE的裸露移除效果超过了全部已有方法。团队还评估了概念移除后模型的正常内容生成能力，即无关概念集COCO-30k上的FID指标，也远超CA等方法。艺术风...……更多

2024-08-26 09:54:00复旦,生成,模型,概念,风险,研究

Mamba作者新作：将Llama3蒸馏成混合线性 RNN

...。由此产生的混合模型包含四分之一的注意力层，在聊天基准测试中实现了与原始 Transformer 相当的性能，并且在聊天基准测试和一般基准测试中优于使用数万亿 token 从头开始训练的开源混合 Mamba 模型。此外，该研究还提出了一...……更多

2024-09-03 09:59:00线性,新作,混合,作者,模型,线性

2023 的人工智能之年

...面的提升。Meta 的精调 LLM 在对话用例中经过优化，多数基准测试中超过其他开源模型。GPT-4：OpenAI 的 GPT-4 现在可以处理图像输入，生成标题、分类，进行听说交流，并支持实时网页浏览。OpenAI 扩展了插件支持，推动了开源生...……更多

2023-12-29 05:02:00之年,人工智能,人工,智能,生成,人工智能

科学家建立新评价基准，助力评估大模型数据分析能力

...更加符合预期的结果。整体来看，缺乏交互式数据分析的基准——是本次研究面临的最大问题之一。为了解决这一问题，他们以“斯坦福小镇”项目为启发，创建了“DECISION COMPANY”。“DECISION COMPANY”是数据分析领域的首个多代...……更多

2024-04-07 10:50:00立新,数据分析,基准,科学家,模型,评估

微软论文一张截图，曝出GPT-3.5仅有200亿参数？AI圈

...回归模型（包括T5、CodeT5、StarCoder、CodeGen、GPT-3）在各项基准任务上的平均多样性结果，考察了每个模型的前5代生成结果。相对于自回归模型，CODEFUSION生成更加多样化的结果，表现更出色。在消融实验中，作者停止了去噪过程...……更多

2023-11-04 14:46:00微软,截图,参数,网友,论文,模型

引领消费金融数智化时代招联发布行业首个开源金融大模型“招联

...大学等企业和高校自研的大模型。作为中文大模型的权威基准，C-Eval榜单由清华大学、上海交通大学和爱丁堡大学合作研发，CMMLU榜单由MBZUAI（全球首所人工智能大学）、上海交通大学、微软亚洲研究院共同推出。这两个平台，...……更多

2023-11-06 19:17:00智化,金融,模型,消费,时代,行业

苹果AI震撼上线iPhone，进化版Siri却没有ChatG

...示了AFM-server在HuggingFace OpenLLM排行榜V1，以及HELM-Lite v1.5.0基准上的结果。可以看到，AFM预训练模型有着强大的语言和推理能力，从而为后训练和特征微调提供了坚实的基础。后训练人类评估对于苹果AI的应用场景来说，人类评估...……更多

2024-08-01 09:40:00进化,模型,苹果,报告,技术,苹果

精准狙击Llama 3.1？Mistral AI开源Larg

...量低于 Llama 3.1 的 4050 亿，但两者性能接近。并且在多个基准测试中与 GPT-4o、Anthropic 的 Claude 3.5 Sonnet 媲美。今年 2 月，Mistral AI 推出了最初的 Large 模型，其上下文窗口包含 32,000 个 token，新版模型在此……更多

2024-07-26 09:36:00模型,基准,多语,测试,性能,生成

page 1/667 首页上一页 12 3 4 5 6 下一页末页

更多关于科技的资讯：