基准,北大,生成,模型,文本,评估头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...过不断增加上下文长度（干扰图片的数量），将现有的VQA基准和简单图像识别集 (MNIST) 扩展为测试长上下文「提取推理」的示例。结果在简单VQA任务上，VLM的性能呈现出惊人的指数衰减。——LLM：原形毕露了家人们。而与实际研...……更多

2024-07-23 17:12:00正确率,长上,下文,模型,只是,能力

3秒让AI生成风险减少30%！复旦新研究拿下扩散模型概念移除

...？不安全概念移除首先来看最敏感的内容——色情。在I2P基准数据集上，RECE的裸露移除效果超过了全部已有方法。团队还评估了概念移除后模型的正常内容生成能力，即无关概念集COCO-30k上的FID指标，也远超CA等方法。艺术风...……更多

2024-08-26 09:54:00复旦,生成,模型,概念,风险,研究

Mamba作者新作：将Llama3蒸馏成混合线性 RNN

...。由此产生的混合模型包含四分之一的注意力层，在聊天基准测试中实现了与原始 Transformer 相当的性能，并且在聊天基准测试和一般基准测试中优于使用数万亿 token 从头开始训练的开源混合 Mamba 模型。此外，该研究还提出了一...……更多

2024-09-03 09:59:00线性,新作,混合,作者,模型,线性

单图解锁全景视角！北大/港中文/腾讯等推出ViewCraft

...双视角，看起来衔接也非常丝滑。以上来自ViewCrafter，由北大、港中文、腾讯等机构的研究人员提出，可以从单张或稀疏输入图像生成精确相机可控的新视角视频。还支持场景级文生3D、图生3D、以及稀疏视角重建等应用。目前论...……更多

2024-09-19 13:37:00全景,腾讯,中文,视角,北大,视角

2023 的人工智能之年

...面的提升。Meta 的精调 LLM 在对话用例中经过优化，多数基准测试中超过其他开源模型。GPT-4：OpenAI 的 GPT-4 现在可以处理图像输入，生成标题、分类，进行听说交流，并支持实时网页浏览。OpenAI 扩展了插件支持，推动了开源生...……更多

2023-12-29 05:02:00之年,人工智能,人工,智能,生成,人工智能

科学家建立新评价基准，助力评估大模型数据分析能力

...更加符合预期的结果。整体来看，缺乏交互式数据分析的基准——是本次研究面临的最大问题之一。为了解决这一问题，他们以“斯坦福小镇”项目为启发，创建了“DECISION COMPANY”。“DECISION COMPANY”是数据分析领域的首个多代...……更多

2024-04-07 10:50:00立新,数据分析,基准,科学家,模型,评估

腾讯发布最大开源MoE模型，3890亿参数免费可商用

...、信息定位、定性分析和数值推理。不同于现有的长文本基准测试，”企鹅卷轴”有以下几个优势：数据多样性：”企鹅卷轴”包含了各种真实场景下的长文本，如财务报告、法律文档、学术论文等，最长可达128K tokens。任务全...……更多

2024-11-07 09:54:00腾讯,商用,模型,参数,模型,数据

微软论文一张截图，曝出GPT-3.5仅有200亿参数？AI圈

...回归模型（包括T5、CodeT5、StarCoder、CodeGen、GPT-3）在各项基准任务上的平均多样性结果，考察了每个模型的前5代生成结果。相对于自回归模型，CODEFUSION生成更加多样化的结果，表现更出色。在消融实验中，作者停止了去噪过程...……更多

2023-11-04 14:46:00微软,截图,参数,网友,论文,模型

扩散模型和transformer梦幻联动一举拿下新sota

...运算速率上，相比其他图像生成模型究竟如何？在ImageNet基准上取得SOTA 为了验证DiTs的最终效果，研究者将DiTs沿“模型大小”和“输入标记数量”两个轴进行了缩放。具体来说，他们尝试了四种不同模型深度和宽度的配置：DiT-S...……更多

2022-12-24 18:10:00模型,梦幻

引领消费金融数智化时代招联发布行业首个开源金融大模型“招联

...大学等企业和高校自研的大模型。作为中文大模型的权威基准，C-Eval榜单由清华大学、上海交通大学和爱丁堡大学合作研发，CMMLU榜单由MBZUAI（全球首所人工智能大学）、上海交通大学、微软亚洲研究院共同推出。这两个平台，...……更多

2023-11-06 19:17:00智化,金融,模型,消费,时代,行业

苹果AI震撼上线iPhone，进化版Siri却没有ChatG

...示了AFM-server在HuggingFace OpenLLM排行榜V1，以及HELM-Lite v1.5.0基准上的结果。可以看到，AFM预训练模型有着强大的语言和推理能力，从而为后训练和特征微调提供了坚实的基础。后训练人类评估对于苹果AI的应用场景来说，人类评估...……更多

2024-08-01 09:40:00进化,模型,苹果,报告,技术,苹果

连发两款模型“补课”，百度AI成色如何？

...说法，文心4.5定位新一代原生多模态基础大模型，在多个基准测试中超过GPT-4o，得分最高的则是DocVQA，该基准主要测试文档图像的问答能力。在文本能力方面，文心4.5则在多个主流基准测试中超过DeepSeek-V3、GPT-4o，部分基准（如...……更多

2025-03-20 11:38:00成色,补课,模型,文心,模型,模态

科研也完了，AI暴虐170位人类专家！Nature子刊：大模

...写代码。已有的研究考察了大模型在科研领域的表现，但基准数据集大多属于「回顾性质」的，比如MMLU、PubMedQA和MedMCQA，主要以问答的形式来评估模型的核心知识检索和推理能力，然而，这些基准都不适合评估模型前瞻的能力...……更多

2024-12-09 09:50:00暴虐,准确率,模型,高达,完了,科研

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

...，一个用于评估多模态模型对长达一小时视频理解能力的基准数据集，包含多种任务。通过与现有模型对比，揭示当前模型在长视频理解上与人类水平的差距。2009年，李飞飞团队在CVPR上首次对外展示了图像识别数据集ImageNet，...……更多

2024-11-11 13:31:00团队,智能,空间,视频,模态,模型

精准狙击Llama 3.1？Mistral AI开源Larg

...量低于 Llama 3.1 的 4050 亿，但两者性能接近。并且在多个基准测试中与 GPT-4o、Anthropic 的 Claude 3.5 Sonnet 媲美。今年 2 月，Mistral AI 推出了最初的 Large 模型，其上下文窗口包含 32,000 个 token，新版模型在此……更多

2024-07-26 09:36:00模型,基准,多语,测试,性能,生成

360智脑7b参数模型采用3.4万亿tokens训练

...任务、中英双语、针对大语言模型长文本理解能力的评测基准）测试中，360选择其中与中文长文本应用最密切相关的中文单文档问答、多文档问答、摘要、Few-shot等任务进行评测，360Zhinao-7B-Chat-32K模型取得了平均分第一的成绩。...……更多

2024-04-14 01:04:00模型,训练,参数,模型,文本,评测

更快、更强、更经济！港大开源大模型RAG系统LightRAG

...的信息内容，用以增强通用大模型处理查询的语境知识和生成效果。现有RAG方法基于信息索引和检索算法，在整合外部知识源方面已经取得了一定的成效，然而这些方法普遍存在以下问题亟待解决：1. 当前方法大多采用扁平的向...……更多

2024-10-15 09:57:00更快,模型,经济,系统,检索,数据

英伟达超快stylegan回归

扩散模型的图像生成统治地位，终于要被GAN夺回了？就在大伙儿喜迎新年之际，英伟达一群科学家悄悄给StyleGAN系列做了个升级，变出个PLUS版的 StyleGAN-T，一下子在网上火了。无论是在星云爆炸中生成一只柯基：还是基于虚幻引...……更多

2023-02-01 14:22:00英伟,生成,图像,模型,作者,英伟

4轮暴训，Llama 7B击败GPT-4！Meta等让LLM

...演」的怎么样。实验利用三个基于GPT4-as-a-Judge的自动评估基准，包括AlpacaEval 2、Arena-Hard和MT-Bench，分别侧重于模型的不同方面。例如，AlpacaEval主要关注聊天场景，提示集涵盖了各种日常问题。相比之下，Arena-Hard包含更复杂或更...……更多

2024-08-01 09:40:00三角,进化,模型,奖励,训练,迭代

谷歌 Gemini 1.5 AI 模型再进化：成本更低、性能

...附上新款模型的性能情况如下：在更具挑战性的 MMLU-Pro 基准测试中，模型的性能提高了约 7%。在 MATH 和 HiddenMath 基准测试中，数学性能显著提高了 20%。视觉和代码相关任务也有所改进，在视觉理解和 Python 代码生成评估中提...……更多

2024-09-26 09:51:00进化,更快,模型,成本,性能,模型

检索总结能力超博士后，首个大模型科研智能体PaperQA2开

...能会忽略或误用细节。最后，目前科学文献的检索和推理基准尚不完善。AI 无法参考整篇文献，而是局限于摘要、在固定语料库上检索，或者只是直接提供相关论文。这些基准不适合作为实际科学研究任务的性能代理，更重要的...……更多

2024-09-13 13:33:00博士后,模型,科研,博士,检索,能力

2022生成模型进展有多快，新论文盘点9类生成模型代表作

ChatGPT的出现，彻底将生成AI推向爆发。但别忘了，AI生成模型可不止ChatGPT一个，光是基于文本输入的就有7种——图像、视频、代码、3D模型、音频、文本、科学知识……尤其2022年，效果好的AI生成模型层出不穷，又以OpenAI、Meta...……更多

2023-01-30 16:34:00生成,模型,新论,代表作,盘点,进展

AI检测AI：“矛”更利还是“盾”更坚

...别人类与机器。“似然函数是零样本检测法中比较常用的基准之一，它可以简单理解为一段文本在某个模型的建模分布中出现的概率。概率是一种特征，不同的概率体现了人类创作内容与AIGC的差异。”鲍光胜进一步解释，“零...……更多

2024-08-16 10:04:00检测,还是,检测,模型,文本,技术

多样任务真实数据，大模型在线购物基准Shopping MML

谁是在线购物领域最强大模型？也有评测基准了。基于真实在线购物数据，电商巨头亚马逊终于“亮剑”——联合香港科技大学、圣母大学构建了一个大规模、多任务评测基准Shopping MMLU，用以评估大语言模型在在线购物领域的...……更多

2024-11-21 09:45:00在线购物,基准,模型,任务,购物,数据

刚刚，OpenAI震撼发布o1大模型！强化学习突破LLM推理

...草莓大模型。它拥有真正的通用推理能力。在一系列高难基准测试中展现出了超强实力，相比 GPT-4o 有巨大提升，让大模型的上限从「没法看」直接上升到优秀水平，不专门训练直接数学奥赛金牌，甚至能在博士级别的科学问答...……更多

2024-09-13 16:42:00推理,模型,极限,突破,学习,模型

对比学习滥用隐私数据！中科院等发布「多步误差最小化」方法 |

...人员提出了一种新颖的多步误差最小化（MEM）方法，用于生成多模态不可学习样本，以保护个人数据不被多模态对比学习模型滥用。通过优化图像噪声和文本触发器，MEM方法有效地误导模型，降低其对隐私数据的学习能力，并在...……更多

2024-08-02 09:55:00误差,中科院,隐私,方法,数据,学习

代码模型自我进化超越GPT-4o蒸馏！UIUC伯克利等提出自

...，超过了参数量大10倍的CodeLlama-70B-Instruct。在全部的三项基准测试（代码生成、数据科学编程、代码编辑）中，SelfCodeAlign都战胜了之前最先进的指令微调方法OctoPack。此外，在HumanEval+上，SelfCodeAlign的性能超越了基于GPT-3.5……更多

2024-11-29 09:26:00伯克,伯克利,进化,模型,代码,方法