基准,北大,生成,模型,文本,评估头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...与 Gemma 相当。具体来说，Meta 在涉及多种语言的 150 多个基准数据集上对 Llama 3.2 进行了评估。对于视觉 LLM，评估基准涉及图像理解和视觉推理任务。视觉模型Llama 3.2 11B 和 90B 模型是首批支持视觉任务的 Llama 模型，因此 Meta 为...……更多

2024-09-27 13:42:00推理,可在,图像,运行,版本,支持

CVPR最佳论文被生成式AI占领，清华武大华南农大上科校友获

...性两方面评估生成视频的质量，结果显示该方法明显优于基准：最佳学生论文 BioCLIP: A Vision Foundation Model for the Tree of Life论文作者来自俄亥俄州立大学、微软研究院、加利福尼亚大学欧文分校、伦斯勒理工学院。他们构建了一个...……更多

2024-06-21 09:21:00华南,清华,农大,获奖,校友,生成

仅用4块GPU、不到3天训练出开源版GPT-4o，这是国内团

...TS) 、 Qwen2-Audio (+TTS) 。主要结果表 1 给出了 InstructS2S-Eval 基准测试主要结果。首先，在 S2TIF 任务中，从内容（content）角度来看，LLaMA-Omni 相比之前的模型有了显著提升，这主要是因为 LLaMA-Omni 是基于最新的 L……更多

2024-09-24 13:42:00团队,训练,这是,研究,语音,文本

北大、快手开源视频生成模型Pyramid Flow，1分钟生

智东西10月11日消息，据VentureBeat报道，北京大学、北京邮电大学和快手科技在本周联合开源了一款名为Pyramid Flow的高清视频生成模型。Pyramid Flow能根据文本描述制作长达10秒、分辨率为1280×768、每秒24帧的视频。Pyramid Flow采用了...……更多

2024-10-12 09:49:00生成,快手,视频,北大,模型,视频

$什么影响大模型安全？NeurIPS\\\'24新研究提出大模型越狱攻击新基准$

什么影响大模型安全？NeurIPS\'24新研究提出大模型越

全新大语言模型越狱攻击基准与评估体系来了。来自香港科技大学（Guangzhou）USAIL研究团队，从攻击者和防御者的角度探讨了什么因素会影响大模型的安全。提出攻击分析系统性框架JailTrackBench。JailTrackBench研究重点分析了不同...……更多

2024-11-01 09:29:00模型,基准,攻击,影响,安全,研究

$多个中国团队斩获EMNLP\\\'24最佳论文！UCLA华人学者中三篇杰出论文$

多个中国团队斩获EMNLP\'24最佳论文！UCLA华人学者

...结果显示，XEUS 在多个下游任务中表现优异，在 ML-SUPERB 基准测试中超越了其他模型，如在多语言自动语音识别任务中实现SOTA，且在语音翻译、语音合成等任务中也表现出色。该团队超半数都是华人，其中一作William Chen目前是CMU...……更多

2024-11-18 09:59:00论文,中国,学者,多个,团队,华人

迎战GPT-4V！谷歌PaLI-3视觉语言模型问世，更小、更

...igLIP）进行了比较，结果发现，PaLI-3 虽然在标准图像分类基准上略微表现不佳，但基于 SigLIP 的 PaLI 在各种多模态基准测试中表现出卓越的性能，特别是在定位和文本理解方面。相关研究论文以“PaLI-3 Vision Language Models: Smaller, Fas.……更多

2023-10-17 16:31:00更快,模型,视觉,语言,训练,模型

媲美OpenAI事实性基准，这个中文评测集让o1-previ

...评测集的长期有效性，可以长期作为模型知识能力的评估基准易于评估：评测数据的问题和答案非常简短，评测可以基于任意的模型，能够以较低成本和较快速度进行高一致性的评测。有难度和区分度：我们评估了 40 + 国内外...……更多

2024-11-21 09:43:00事实性,基准,中文,评测,事实,模型

还在人工炼丹？自动提示工程指南来了，还带从头实现

...程对于 LLM 的输出结果，现在已经有了很多标准化的评估基准和机制。以代码生成为例：可以通过在编译器或解释器中运行代码来检查语法错误和功能，从而即时评估生成的代码的准确性。通过测量成功编译的代码所占的百分比...……更多

2024-09-10 13:39:00从头,人工,提示,指南,工程,提示

百万鲁棒数据训练，3D场景大语言模型新SOTA！IIT等发布

...3D场景理解中的鲁棒性和泛化能力，在多个3D多模态学习基准测试中取得了优异的性能，超越了以往的方法，且无需针对特定任务的微调。多模态大语言模型（Multi-modal Large Language Models, MLLMs）以文本模态为基础，将其它各种模态...……更多

2024-10-16 13:35:00模型,场景,训练,语言,数据,物体

本周硅谷发生了什么？｜OpenAI推出5项更新；微软组建新的

...PT4-V和Gemini Ultra，但其规模仅为它们的1/10-1/20。Fuyu-Heavy在基准测试跑分中表现突出，部分得分超过Gemini Pro。Adept成立于2022年，创始人包括Google Transformer架构的提出者Ashish Vaswani和Niki Parmar……更多

2024-01-29 09:34:00文生,硅谷,微软,模型,团队,更新

全球AI安全评估测试有了新基准

...型安全领域两项国际标准发布全球AI安全评估测试有了新基准随着人工智能系统，特别是大语言模型成为社会各方面不可或缺的一部分，以一个全面的标准来解决它们的安全挑战变得至关重要。◎本报记者崔爽第27届联合国科技...……更多

2024-04-25 04:00:00基准,评估,测试,安全,全球,人工智能

自动化机器学习研究MLR-Copilot：利用大型语言模型进

...和 LLM 评分员自动评估，并与仅使用核心论文作为提示的基准线方法比较。实验实现与执行的成功率：通过多次实验运行的成功率以及对任务性能的平均提升率来评估实验阶段的效果。实验结果表明：在研究思路生成阶段，MLR-...……更多

2024-09-26 13:35:00研究,模型,自动化,机器,语言,学习

OpenAI 总裁：GPT-4 并不完美但却绝对与众不同

...模型的标志。Evals允许用户开发和运行评估模型(如GPT-4)的基准测试，同时检查它们的性能，这是一种众包的模型测试方法。布罗克曼说：“有了Evals，我们可以更好地看到用户关心的用例，并可以对其进行测试。我们之所以开源...……更多

2023-03-16 21:12:00总裁,布罗,布罗克曼,模型,文本,图像

OpenAI-o1思考替代法火了！焦剑涛高徒一作提出思考偏好

...提升基模型的性能。进一步加入TPO，在AlpacaEval、Arena-Hard基准测试中，性能比基线再提升约4%。网友纷纷表示这项研究很有意思，简单而又实用。如果你已经在进行DPO，那么采用这种方法几乎就是不二之选了。所以，TPO到底长啥...……更多

2024-10-29 09:58:00高徒,偏好,模型,过程,基线,偏好

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonn

...理、数学推理、编程任务及视觉推理等任务上设立新行业基准而引发广泛讨论：Claude-3.5-Sonnet 已经取代OpenAI的GPT4o成为世界上”最聪明的AI“（Most Intelligent AI）了吗？回答这个问题的挑战在于我们首先需要一个足够挑战的智力测...……更多

2024-06-25 09:45:00奥林,奥林匹克,竞赛,模型,推理,能力

全球最强开源大模型Llama 3发布：使用15T数据预训练，

...版本，可以支持广泛的应用。同时，Llama 3 在广泛的行业基准测试中达到了 SOTA，并提供了新的功能，如改进的推理能力。最强开源 LLM 来了Meta 官方博客写道，“得益于预训练和后训练的改进，我们的预训练和指令微调模型是目...……更多

2024-04-20 11:03:00模型,训练,参数,数据,全球,模型

谷歌版贾维斯即将问世，最强Gemini 2.0加持！AI自主

...的能力从0.705提高到0.938ScreenSpot评估ScreenSpot数据集是一个基准测试数据集，包含了来自移动设备（iOS、Android）、桌面电脑（macOS、Windows）和网络平台的600多个界面截图，其中任务指令是人工创建的，以确保每个指令都对应用户...……更多

2024-10-28 09:51:00贾维斯,贾维,时代,电脑,模型,图标

迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测

...一款名为 MMed-Llama 3 的全新基座模型，以 8B 的尺寸在多项基准测试中超越了现有的开源模型，更加适合通过医学指令微调，适配到各种医学场景。所有数据和代码、模型均已开源。MMedBench 上的准确率，图 d 展⽰了在 MMedC 上进...……更多

2024-09-30 09:51:00多语,大规,模型,语料,基准,大规模

长上下文能力只是吹牛？最强GPT-4o正确率仅55.8%，开

...过不断增加上下文长度（干扰图片的数量），将现有的VQA基准和简单图像识别集 (MNIST) 扩展为测试长上下文「提取推理」的示例。结果在简单VQA任务上，VLM的性能呈现出惊人的指数衰减。——LLM：原形毕露了家人们。而与实际研...……更多

2024-07-23 17:12:00正确率,长上,下文,模型,只是,能力

3秒让AI生成风险减少30%！复旦新研究拿下扩散模型概念移除

...？不安全概念移除首先来看最敏感的内容——色情。在I2P基准数据集上，RECE的裸露移除效果超过了全部已有方法。团队还评估了概念移除后模型的正常内容生成能力，即无关概念集COCO-30k上的FID指标，也远超CA等方法。艺术风...……更多

2024-08-26 09:54:00复旦,生成,模型,概念,风险,研究

Mamba作者新作：将Llama3蒸馏成混合线性 RNN

...。由此产生的混合模型包含四分之一的注意力层，在聊天基准测试中实现了与原始 Transformer 相当的性能，并且在聊天基准测试和一般基准测试中优于使用数万亿 token 从头开始训练的开源混合 Mamba 模型。此外，该研究还提出了一...……更多

2024-09-03 09:59:00线性,新作,混合,作者,模型,线性

科学家建立新评价基准，助力评估大模型数据分析能力

...更加符合预期的结果。整体来看，缺乏交互式数据分析的基准——是本次研究面临的最大问题之一。为了解决这一问题，他们以“斯坦福小镇”项目为启发，创建了“DECISION COMPANY”。“DECISION COMPANY”是数据分析领域的首个多代...……更多

2024-04-07 10:50:00立新,数据分析,基准,科学家,模型,评估

2023 的人工智能之年

...面的提升。Meta 的精调 LLM 在对话用例中经过优化，多数基准测试中超过其他开源模型。GPT-4：OpenAI 的 GPT-4 现在可以处理图像输入，生成标题、分类，进行听说交流，并支持实时网页浏览。OpenAI 扩展了插件支持，推动了开源生...……更多

2023-12-29 05:02:00之年,人工智能,人工,智能,生成,人工智能

单图解锁全景视角！北大/港中文/腾讯等推出ViewCraft

...双视角，看起来衔接也非常丝滑。以上来自ViewCrafter，由北大、港中文、腾讯等机构的研究人员提出，可以从单张或稀疏输入图像生成精确相机可控的新视角视频。还支持场景级文生3D、图生3D、以及稀疏视角重建等应用。目前论...……更多

2024-09-19 13:37:00全景,腾讯,中文,视角,北大,视角

微软论文一张截图，曝出GPT-3.5仅有200亿参数？AI圈

...回归模型（包括T5、CodeT5、StarCoder、CodeGen、GPT-3）在各项基准任务上的平均多样性结果，考察了每个模型的前5代生成结果。相对于自回归模型，CODEFUSION生成更加多样化的结果，表现更出色。在消融实验中，作者停止了去噪过程...……更多

2023-11-04 14:46:00微软,截图,参数,网友,论文,模型

腾讯发布最大开源MoE模型，3890亿参数免费可商用

...、信息定位、定性分析和数值推理。不同于现有的长文本基准测试，”企鹅卷轴”有以下几个优势：数据多样性：”企鹅卷轴”包含了各种真实场景下的长文本，如财务报告、法律文档、学术论文等，最长可达128K tokens。任务全...……更多

2024-11-07 09:54:00腾讯,商用,模型,参数,模型,数据

引领消费金融数智化时代招联发布行业首个开源金融大模型“招联

...大学等企业和高校自研的大模型。作为中文大模型的权威基准，C-Eval榜单由清华大学、上海交通大学和爱丁堡大学合作研发，CMMLU榜单由MBZUAI（全球首所人工智能大学）、上海交通大学、微软亚洲研究院共同推出。这两个平台，...……更多

2023-11-06 19:17:00智化,金融,模型,消费,时代,行业

苹果AI震撼上线iPhone，进化版Siri却没有ChatG

...示了AFM-server在HuggingFace OpenLLM排行榜V1，以及HELM-Lite v1.5.0基准上的结果。可以看到，AFM预训练模型有着强大的语言和推理能力，从而为后训练和特征微调提供了坚实的基础。后训练人类评估对于苹果AI的应用场景来说，人类评估...……更多

2024-08-01 09:40:00进化,模型,苹果,报告,技术,苹果

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

...，一个用于评估多模态模型对长达一小时视频理解能力的基准数据集，包含多种任务。通过与现有模型对比，揭示当前模型在长视频理解上与人类水平的差距。2009年，李飞飞团队在CVPR上首次对外展示了图像识别数据集ImageNet，...……更多

2024-11-11 13:31:00团队,智能,空间,视频,模态,模型

page 2/1334 首页上一页 123 4 5 6 7 下一页末页

更多关于科技的资讯：

助力科创企业高飞首个优质中小企业数智服务平台在沪发布

登录平台“云测评”界面，在线输入相关数据，便可一键生成“体检报告”，分析企业综合实力，揭示企业“长板”“短板”，帮助中小企业更好了解自身在行业的位置以及和优质企业的差距

2024-12-03 13:30:00

荣耀与南京建邺吾悦广场联袂呈现：福栗节超级派对盛大启幕

11 月 30 日，荣耀与南京建邺吾悦广场共同打造的“南京建邺福栗节"盛大启幕。当天，荣耀终端有限公司江苏业务部部长陈浩乾先生

2024-12-03 13:40:00

隔山跨海，传递中国温度，书写中国品牌的恢宏新篇

什么是中国温度？近日，华为联动权威央媒，通过年度盘点视频，讲述三位一线工作者服务群众的工作故事，延伸出各行各业在岗工作者的持续守护和暖心服务

2024-12-03 13:49:00

澳柯玛获2024山东装备制造业科技创新奖多项殊荣

11月29日，山东省装备制造业协会主办的“2024年度（第五届）山东省装备制造业科技创新大会”在济南召开。会议同步举行“2024年度（第五届）山东省装备制造业科技创新奖”颁奖仪式

2024-12-03 14:23:00

自贡富顺：铆足干劲全力冲刺年度“收官战”

本文转自：人民网-四川频道岁末将至，生产火热。位于自贡市富顺县的四川富顺晨光经开区，各企业紧盯生产任务全身心投入扩产能

2024-12-03 14:48:00

助力“无障碍”，普惠“零距离”——微众银行持续推动无障碍金融

近年来，微众银行秉持“让金融普惠大众”的初心，发挥数字银行的科技优势，悉心服务包含视障、听障、老年人群等在内的各类社会群体的金融需求

2024-12-03 15:13:00

打造世界级餐饮饮品供应链共享千亿平台 ——创新共享机制让

12月2日,雨帆食品集团主题年会成功举办,千商聚集共同探讨餐饮赛道的无限可能(通讯员涂洪)2024年,被定义为消费促进年

2024-12-03 15:21:00

兴业数金《金融分布式账本技术应用规范》《数字函证服务规范》荣

为进一步引导金融机构强化企业标准建设，提升金融业整体服务质量和水平，近日，中国人民银行、国家金融监督管理总局、中国证券监督管理委员会共同组织开展了2023年度金融领域企业标准“领跑者”活动

2024-12-03 15:21:00

用技术打破沉默：浙江大学老师调研饿了么如何助力“无声骑手”平

是什么让一位大学老师，穿上蓝骑士的衣服，带上耳塞去送外卖？12月3日国际残疾人日前夕，浙江大学经济学院的博士生导师袁哲又穿上蓝色工服

2024-12-03 15:28:00

史上最强数字系列，AI旅拍神器荣耀300系列正式发布

2024年12月2日，在荣耀300环球旅拍新品发布会上，AI旅拍神器荣耀300系列、荣耀笔记本 X Plus 系列、荣耀Earbuds X8等产品惊艳亮相

2024-12-03 15:32:00

东湖评论：让流行语成为发展的“助推器”

12月2日，《咬文嚼字》编辑部公布了2024年十大流行语，包括“数智化”“智能向善”“未来产业”“city不city”等

2024-12-03 16:00:00

第31届中国国际广告节上，鲁南制药集团斩获12项荣誉

齐鲁晚报·齐鲁壹点通讯员杜永武近日，第31届中国国际广告节在厦门举行。鲁南制药集团凭借内容营销在中国国际广告节2024广告主年度征集活动斩获6项奖项

2024-12-03 16:06:00

部分新年礼盒涨价10%，三只松鼠：低价款涨价，调节供应

文｜李振兴近日，三只松鼠在一份“调价通知函”中称：因年货旺季坚果原料及人工成本上涨，自12月1日起，三只松鼠对罐装坚果礼

2024-12-03 16:15:00

财经观察：生产忙、订单旺制造业市场活跃度持续提升

本文转自：人民网焦磊在宁波凯峰电器有限公司电源连接器生产车间，一个个智能电源连接器整齐地“流淌”在流水线上，它们小巧时尚

2024-12-03 16:39:00

估值一年翻17倍，巨头创企疯狂涌入，AI搜索火爆了

智东西12月2日报道，当前AIGC能力正不断向网页、PC桌面端、手机App和端侧硬件渗透，微信聊天框内容搜索、相册图片检索

2024-12-03 12:04:00

头条订阅服务