• 我的订阅
  • 头条热搜
无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成
...型及格!北大联合北京通用人工智能研究院提出了一个新基准数据集:LooGLE,专门用于测试和评估大语言模型(LLMs)长上下文理解能力。该数据集既能够评估LLMs对长文本的处理和检索能力,又可以评估其对文本长程依赖的建模...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...多种操作技能。在实验中,RoboMamba 在通用和机器人评估基准上展示了出色的推理能力,如图 2 所示。同时,我们的模型在模拟和现实世界实验中展示了令人印象深刻的操纵位姿预测能力,其推理速度比现有的机器人 MLLMs 快 7 倍...……更多
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...入设置)更严格地评估模型的多模态理解能力;模型在新基准上的性能下降明显,表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型(MLLMs)在各个排行榜上展现的性能不断提升,例如GPT-4o在大学水平...……更多
GPT-4不仅性能更强也更贵了:单次输出7.5万单词需6美元,是此前的30倍
...多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平,比如在法律考试中可以打败90%的人类。不过,GPT-4仍存和此前模型相似的局限性,仍然不完全可靠,存在事实性“幻觉”并出现推理错误,可能自...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说了,但是依旧算...……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...的研究人员联合撰写百页长文,发布名为MultiTrust的综合基准,首次从多个维度和视角全面评估了主流多模态大模型的可信度,展示了其中多个潜在安全风险,启发多模态大模型的下一步发展。论文标题:Benchmarking Trustworthiness of ...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报...……更多
大幅减缓幻觉 百融云创大模型精度测评结果出炉
...越重要。百融云创参加的这场“考试”名叫检索增强生成基准测评,这是对大模型处理“幻觉问题”的能力测评,也是对大模型生成内容准确性的测评。尽管大模型带来令人兴奋的技术进步,但“幻觉”一直是制约其发展的主要...……更多
Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
...型Falcon Mamba 7B,性能与Transformer架构模型相媲美,在多个基准测试上的均分超过了Llama 3.1 8B和Mistral 7B。今天,阿布扎比支持的技术创新研究所(TII) 开源了全球第一个通用的大型Mamba架构模型——Falcon Mamba 7B。虽然之前,但仅……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
...动评分器 ( FLAMe-RM 和 FLAMe-Opt-RM)。在12个自动评分器评估基准中的8个基准上,FLAMe及其变体的自动评分性能优于用专有数据训练的GPT-4o、Gemini-1.5-Pro等模型。- 计算高效的多任务训练:引入了一种计算更为高效的方法,使用创新...……更多
非Transformer架构站起来了!首个纯无注意力大模型,超越Llama 3.1
...理各种文本生成任务。从结果来看,Falcon Mamba 7B 在一些基准上超越同尺寸级别的领先模型,包括 Meta 的 Llama 3 8B、Llama 3.1 8B 和 Mistral 7B。 Falcon Mamba 7B 分为四个变体模型,分别是基础版本、指令微调版本、4bit 版本……更多
开闭源模型「大乱斗」:看看哪个智能体最能窥见人类真实意图
...该工作首先引入了 Intention-in-Interaction(IN3)这一全新的基准测试,旨在通过与用户明确的交互来理解用户的隐式意图。以 Mistral-7B 为框架,基于 IN3 训练的 Mistral-Interact 能主动评估任务的模糊性,询问用户意图,并在启动下游智...……更多
用过GPT-4 Turbo以后,我们再也回不去了
...了不到十分钟。GPT-4 Turbo 具有创纪录的准确率,在 PyLLM 基准上,GPT-4 Turbo 的准确率是 87%,而 GPT-4 的准确率是 52%,这是在速度几乎快了四倍多的情况下(每秒 48 token)实现的。至此,生成式 AI 的竞争似乎进入了新的阶段。很多...……更多
智慧芽垂直领域大模型通过国家网信办“双备案”
...、C-Eval,以及智慧芽面向业内首次提出的专利大模型测试基准(Patent-bench)的测评结果显示,智慧芽垂直领域大模型在问答、总结、写作、翻译、分类等方面能力整体优于商业通用大模型。图:智慧芽垂直领域大模型专业考试成...……更多
速度惊人,手机跑stablediffusion,12秒出图
...分别在三星S23Ultra(Adreno740)和 iPhone14ProMax (A16)进行了一组基准测试。作为去噪神经网络,UNet是计算需求最高的组件。研究人员提供了执行单次迭代的UNet所需的延迟数据,以毫秒为单位测量,图像分辨率为512x512。此外,他们记录...……更多
LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
...化的合成数据。经过合成数据微调后的模型Orca-3,在多项基准上刷新了SOTA。全世界高质量数据几乎枯竭。AI科学家们为了解决这一难题,可谓是绞尽脑汁。目前来看,合成数据或许就是大模型的未来,也成为业界公认的解决之法...……更多
2023 AI现状报告:GPT-4仍最强,监管方向缺乏全球共识
...变得更加强大和灵活,比较它们的能力越来越困难。由于基准变得不那么明确,用于评估大语言模型的“基于氛围”的方法在业界越来越普遍。·人工智能安全在2023年首次占据舞台中心。但人工智能界内部存在深刻分歧,世界各...……更多
CVPR最佳论文被生成式AI占领,清华武大华南农大上科校友获奖
...性两方面评估生成视频的质量,结果显示该方法明显优于基准:最佳学生论文 BioCLIP: A Vision Foundation Model for the Tree of Life论文作者来自俄亥俄州立大学、微软研究院、加利福尼亚大学欧文分校、伦斯勒理工学院。他们构建了一个...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...igLIP)进行了比较,结果发现,PaLI-3 虽然在标准图像分类基准上略微表现不佳,但基于 SigLIP 的 PaLI 在各种多模态基准测试中表现出卓越的性能,特别是在定位和文本理解方面。相关研究论文以“PaLI-3 Vision Language Models: Smaller, Fas.……更多
还在人工炼丹?自动提示工程指南来了,还带从头实现
...程对于 LLM 的输出结果,现在已经有了很多标准化的评估基准和机制。以代码生成为例:可以通过在编译器或解释器中运行代码来检查语法错误和功能,从而即时评估生成的代码的准确性。通过测量成功编译的代码所占的百分比...……更多
全球AI安全评估测试有了新基准
...型安全领域两项国际标准发布全球AI安全评估测试有了新基准随着人工智能系统,特别是大语言模型成为社会各方面不可或缺的一部分,以一个全面的标准来解决它们的安全挑战变得至关重要。◎本报记者 崔 爽第27届联合国科技...……更多
本周硅谷发生了什么?|OpenAI推出5项更新;微软组建新的AI团队;Googe发布文生视频模型Lumiere
...PT4-V和Gemini Ultra,但其规模仅为它们的1/10-1/20。Fuyu-Heavy在基准测试跑分中表现突出,部分得分超过Gemini Pro。Adept成立于2022年,创始人包括Google Transformer架构的提出者Ashish Vaswani和Niki Parmar……更多
OpenAI 总裁:GPT-4 并不完美但却绝对与众不同
...模型的标志。Evals允许用户开发和运行评估模型(如GPT-4)的基准测试,同时检查它们的性能,这是一种众包的模型测试方法。布罗克曼说:“有了Evals,我们可以更好地看到用户关心的用例,并可以对其进行测试。我们之所以开源...……更多
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...理、数学推理、编程任务及视觉推理等任务上设立新行业基准而引发广泛讨论:Claude-3.5-Sonnet 已经取代OpenAI的GPT4o成为世界上”最聪明的AI“(Most Intelligent AI)了吗?回答这个问题的挑战在于我们首先需要一个足够挑战的智力测...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
...版本,可以支持广泛的应用。同时,Llama 3 在广泛的行业基准测试中达到了 SOTA,并提供了新的功能,如改进的推理能力。最强开源 LLM 来了Meta 官方博客写道,“得益于预训练和后训练的改进,我们的预训练和指令微调模型是目...……更多
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
...过不断增加上下文长度(干扰图片的数量),将现有的VQA基准和简单图像识别集 (MNIST) 扩展为测试长上下文「提取推理」的示例。结果在简单VQA任务上,VLM的性能呈现出惊人的指数衰减。——LLM:原形毕露了家人们。而与实际研...……更多
3秒让AI生成风险减少30%!复旦新研究拿下扩散模型概念移除新SOTA
...?不安全概念移除首先来看最敏感的内容——色情。在I2P基准数据集上,RECE的裸露移除效果超过了全部已有方法。团队还评估了概念移除后模型的正常内容生成能力,即无关概念集COCO-30k上的FID指标,也远超CA等方法。 艺术风...……更多
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
...。由此产生的混合模型包含四分之一的注意力层,在聊天基准测试中实现了与原始 Transformer 相当的性能,并且在聊天基准测试和一般基准测试中优于使用数万亿 token 从头开始训练的开源混合 Mamba 模型。此外,该研究还提出了一...……更多
科学家建立新评价基准,助力评估大模型数据分析能力
...更加符合预期的结果。整体来看,缺乏交互式数据分析的基准——是本次研究面临的最大问题之一。为了解决这一问题,他们以“斯坦福小镇”项目为启发,创建了“DECISION COMPANY”。“DECISION COMPANY”是数据分析领域的首个多代...……更多
2023 的人工智能之年
...面的提升。Meta 的精调 LLM 在对话用例中经过优化,多数基准测试中超过其他开源模型。GPT-4:OpenAI 的 GPT-4 现在可以处理图像输入,生成标题、分类,进行听说交流,并支持 实时网页浏览。OpenAI 扩展了插件支持,推动了开源生...……更多
更多关于科技的资讯:
东风汽车与中信科、华为、腾讯等 14 家合作伙伴开展战略合作
IT之家 9 月 23 日消息,在今日的 2024 东风汽车品牌秋季发布会暨第九届科技创新周开幕式上,东风汽车宣布与中信科
2024-09-24 09:38:00
钉钉推出 365 会员产品:提供个性化 AI 助理等,连续包月 15 元
IT之家 9 月 23 日消息,钉钉今天下午宣布面向个人用户推出“365 会员”,包含 AI 搜索、个人 AI 助理、AI 自动回复
2024-09-24 09:40:00
729 元,飞利浦 7 系 Air 高速吹护机发布
IT之家 9 月 23 日消息,飞利浦 7 系 Air 高速吹护机今日正式发布,售价 729 元,现已在京东开售。飞利浦 7 系 Air 高速吹护机是一款吹风机产品
2024-09-24 09:40:00
英伟达宣布与阿联酋 G42 公司合作开发 AI 天气预测平台
IT之家 9 月 23 日消息,英伟达宣布与阿联酋 AI 应用开发公司 G42 合作,双方将利用现有技术储备,基于英伟达的 Earth-2 项目开发天气预测 AI 模型
2024-09-24 09:41:00
荣耀亲选 JOWAY 22.5W 移动电源开启预售,首发 89 元
IT之家 9 月 23 日消息,荣耀亲选 JOWAY 22.5W 移动电源今日开启预售,该款移动电源拥有 10000mAh 容量
2024-09-24 09:41:00
深度拆解苹果iPhone 16,一颗神秘芯片把诸多网友整懵了
还记得在iPhone 16 系列发布之前,Jeff Pu 等多个海外消息源都表示苹果会在基带上施展刀法 ——iPhone 16/Plus 配备高通骁龙 X70调制解调器
2024-09-24 09:42:00
倒计时30天 Intel 酷睿200K全面曝光!
经过延期,Intel确定桌面版CPU酷睿200K 10月24日上市(原定10月17日),与之一起发售的还有Z890芯片组主板
2024-09-24 09:42:00
消息称索尼 PS 30 周年限定款 PS5 游戏机售 499.99 美元
IT之家 9 月 23 日消息,为庆祝索尼 PlayStation 迎来 30 周年,索尼推出了纪念款 PS5 游戏机及一系列配件
2024-09-24 09:57:00
Nature Electronics期刊发表 加州大学圣地亚哥分校开发汗液驱动的可穿戴设备
近年来可穿戴健康监测设备逐渐成为科研领域的关注重点,尤其是在医学健康检测领域,轻量化、智能化可穿戴设备发挥着不可替代的作用
2024-09-24 09:58:00
美加狮 MAD 60/68HE 系列键盘发布,首发 99 元起
IT之家 9 月 23 日消息,美加狮 MAD 60/68HE 系列键盘现已发布,该系列键盘标配磁轴,采用有线连接方式
2024-09-24 09:58:00
“零距离”:从德鲁克到张瑞敏
第八届人单合一模式引领论坛暨首届零距离组织卓越奖颁奖典礼现场图【按语】2024年9月20日,在人单合一模式创立19周年之际
2024-09-24 09:59:00
让普通眼镜变AI,这家公司打造出全球首款隐显眼镜
在众多经典科幻电影中,经常会出现智能眼镜的身影:人物戴上一副炫酷的眼镜,一个庞大的信息世界就会在眼前开始流动,眨眼的瞬间就能切换所选择的信息
2024-09-24 09:59:00
阿里云旗舰级合作伙伴端木软件亮相2024云栖大会
9月19日,以“云启智跃,产业蝶变”为主题的2024云栖大会在杭州正式开幕。大会持续三天,聚焦AI时代的云计算升级与发展
2024-09-24 10:00:00
魅族 Lucky08 样张公布:一亿像素超清大底主摄,9 月 25 日发布
IT之家 9 月 23 日消息,星纪魅族今日公布 Lucky08 手机拍摄样张,新机搭载一亿像素超清大底主摄,将于 9 月 25 日 14:30 在北京发布
2024-09-24 10:00:00
联发科天玑 9400 处理器 GPU 跑分曝光,比苹果 A18 Pro 强 86%
IT之家 9 月 23 日消息,联发科天玑 9400 旗舰手机处理器将于今年 10 月亮相,博主 @数码闲聊站 今日放出了天玑 9400 的 GPU 实测数据
2024-09-24 10:00:00