• 我的订阅
  • 头条热搜
零一万物Yi-1.5来了,国产开源大模型排行榜再次刷新
...步提升了编码、数学、推理和指令遵循能力。从下方多个基准测试结果可以看出,Yi-1.5 34B 型号的一些指标超过了 Qwen 的 72B,几乎与 Meta Llama 3 的 70B 相当。6B 和 9B 型号也成功超越了 Mistral 的 7B v0.2 版和 Gemma 的 7B 型号。……更多
CMU&清华:让LLM自己合成数据来学习,特定任务性能同样大幅提升
...评估 SELF-GUIDE 的有效性,研究者从 Super-NaturalInstructions V2 基准中选择了 14 个分类任务和 8 个生成任务。研究者随机选择了一半任务用于超参数搜索,剩余的一半用于评估。在模型方面,研究者选择了 Vicuna-7b-1.5 作为输入生成、...……更多
Llama 4训练已开启!Meta科学家最新采访,揭秘Llama 3.1是如何炼成的
...型参数量和训练token数的最佳比率。如果你希望在论文的基准测试中得到最优模型,那么Chinchilla本身没有问题;但Meta要发布的旗舰模型还需要更高的推理效率。因此,我们选择增加训练的token数,并增加训练时长,让模型达到「...……更多
AIGC工具测评:生成式AI的产品表现如何
...Google 称 Gemini 是其历史上最强大、最通用的模型,在许多基准测试中都具有最先进的性能。Google DeepMind 的 CEO Demis Hassabis 称 Gemini 可以像人类一样理解我们周围的世界,并吸收任何类型的输入和输出,包括文本、代码、视频、音...……更多
Meta版Sora深夜横空出世,小扎放出16秒高清大片!92页论文曝光技术细节,Llama 3架构立功
【新智元导读】Meta版Sora,就在刚刚惊艳来袭。Movie Gen可生成1080p、16秒、每秒16帧的高清长视频,还能生成音效、编辑视频、上传图像生成个性化视频。甚至Meta还放出了92页论文,模型架构、训练细节一并公开,干货满满!毫无...……更多
腾讯开源最大MoE大语言模型!3D大模型同时支持文/图生成,晒混元模型及应用全家桶
...3D、视频等更多模态,今年8月在SuperCLUE-V多模态理解评测基准总榜中排名第一。文生图方面,今年5月,腾讯混元全面开源业界首个中文原生DiT架构文生图大模型,评测结果国内领先。还有今天宣布开源的文/图生3D模型,单张图30...……更多
神仙打架!谷歌新款大模型Gemini 和GPT-4谁能笑到最后?丨科技观察
...称Gemini Ultra 在大型语言模型研发被广泛使用的 32 个学术基准测试集中,在其中 30 个测试集的性能超过当前 SOTA 结果。 Gemini是谷歌各个团队大规模合作的成果,包括谷歌研究院的研究者,这个模型从发布之初就定位为原生多模...……更多
Claude 3.5深夜觉醒,学会模仿人类用电脑!编程干翻o1,Agent一夜变天
...挑战。升级版Claude 3.5 Sonnet,编码王者干翻o1在各项行业基准测试中,升级版Claude 3.5 Sonnet性能得到了全方位提升。特别是,智能体编码、工具使用任务中取得显著突破。 论文地址:https://assets.anthropic.com/m/1cd9d098ac3……更多
GPT-4劲敌,谷歌进入高能+高产模式
....5 Pro官方测试数据Gemini 1.5 Pro大大超过Gemini 1.0 Pro,在27项基准(共31项)上表现更好,特别是在数学、科学和推理(+28.9%),多语言(+22.3%),视频理解(+11.2%)和代码(+8.9%)等领域。即使是对比Gemini 系列的高端产品Gemini……更多
“3D视频版Sora”来了!
...成数据集。 二、混合采样保持时间一致,4D生成全面超基准线SV4D的技术论文也同步发表,其中详细解读了该模型的框架结构。总的来说,SV4D是一个用来生成动态3D对象新视图视频的统一扩散模型。给定一个单目参考视频,SV4D为...……更多
指令跟随大比拼!Meta发布多轮多语言基准Multi-IF:覆盖8种语言,超4500种任务
【新智元导读】Meta全新发布的基准Multi-IF涵盖八种语言、4501个三轮对话任务,全面揭示了当前LLM在复杂多轮、多语言场景中的挑战。所有模型在多轮对话中表现显著衰减,表现最佳的o1-preview模型在三轮对话的准确率从87.7%下降...……更多
首届大模型顶会COLM高分论文:偏好搜索算法让大模型评估更高效
...和 Ehsan Shareghi。他的研究兴趣是大模型和文本评估,数据生成等。共同一作为二年级博士生周涵,导师为教授 Anna Korhonen 和 Ivan Vulić,他的研究兴趣是高效大模型。大模型展现出了卓越的指令跟从和任务泛化的能力,这种独特的...……更多
GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集
..., Harvard 等机构的研究团队开创了第一个多模态的 ToM 测试基准,发现现有的多模态模型和 LLM 都表现存在系统性缺陷,同时他们提出了一种有效的新方法。在刚结束的 ACL 2024 会议中,这篇论文获得杰出论文奖。论文标题:MMToM-QA:...……更多
田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,成本暴跌97%
...论文地址:https://arxiv.org/abs/2410.10934v1研究人员提出了DevAI基准,为全新框架提供概念验证测试平台。包含55个真实的AI开发任务,带有详细的手动注释。通过对三个领先的智能体系统进行基准测试,发现它大大优于「LLM-as-a-Judge」...……更多
LeCun 的世界模型初步实现!基于预训练视觉特征,零样本规划
...的生成式模型)进行了比较。如图 7 所示,可以看到,在基准上训练的扩散模型能得到看起来相当真实的未来图像,但它们在物理上并不合理,因为可以看到在单个预测时间步骤中就可能出现较大的变化,并且可能难以达到准确...……更多
RTX3090可跑,360AI团队开源视频模型FancyVideo,红衣大叔都说好
...学术研究和算法落地工作。目前是奇虎 360-AIGC 团队-视频生成方向负责人,长期致力于视觉生成方向研究和落地,以及开源社区建设。近日,开源社区又迎来一款强力的「视频生成」工作,可以在消费级显卡 (如 GeForce RTX 3090) 上...……更多
蚂蚁自研知识增强大模型服务框架KAG,可显著提升知识推理准确率
...分校计算机科学与技术系特聘教授俞士纶、国际关联数据基准委员会(LDBC)副主席 Alastair Green、中国人寿财产保险有限公司人工智能开发团队负责人孔宇飞、蚂蚁数字科技 AI 技术负责人章鹏、蚂蚁集团图计算解决方案架构师崔...……更多
科研党狂喜!AI预测神经学研究结论超人类专家水平 | Nature子刊
...剑桥大学、牛津大学等机构的团队发布了一个神经学专用基准BrainBench,登上了Nature子刊《自然人类行为(Nature human behavior)》。结果显示,经过该基准训练的LLM在预测神经科学结果的准确度方面高达81.4%,远超人类专家的63%。在...……更多
PyTorch官宣:告别CUDA,GPU推理迎来Triton加速新时代
...用Llama3-8B和Granite-8B的Triton和CUDA变体,并进行推理阶段的基准测试,PyTorch团队证实了,Triton内核能实现CUDA-Free的计算,且生成token的吞吐量有显著提升。内核架构以Llama3为例,经典的Transformer块由一般由以下部分组成:其中涉……更多
...的交互(具身智能),通过交互在不同专业和科学的测试基准上表现出人类水平的智能。而针对幻觉,大模型有时会生成看似合理的编造或无意义的答案。在工作替代性方面,张钹表示,人工智能有助于推动经济增长,建筑、维...……更多
OpenAI超级对齐团队遗作:两个大模型博弈一番,输出更好懂了
...用类似的方法。不过,在采用这种方法时,确保语言模型生成的是易于理解的文本,这件事非常重要,尤其是在处理数学、编码这样的复杂任务时。如下图所示,你让 AI 写一个快速排序算法,AI 很快就写出来了,而且答案很简...……更多
开源大模型新的里程碑!Llama 3.1 模型准时发布
...。本次Llama3.1模型共有三个版本,分别是8B、70B和405B。从基准测试结果来看,超大杯Llama3.1405B与OpenAI的GPT-4o和Claude3.5Sonnet在多个项目上能够媲美。在GSM8K任务中,Llama3.1405B得分96.8,高于GPT-4o的96.1和Cla……更多
以图灵机为师:通过微调训练让大语言模型懂执行计算过程
...在 +、−、×、÷、==、> 和 < 这 7 个运算符上和三个基准进行了比较:1)LLaMA 3.1-8B 预训练模型基于 LoRA、在仅给出计算结果的数据集上直接微调得到的模型、2)LLaMA 3.1-8B-Instruct、3)GPT-4o。表 1. 七种运算符的总体评估结果,……更多
苹果AI版iOS首日火爆:聊天秒变高情商,大模型成最强嘴替
...了。此次上线的Apple Intelligence是部分功能,主要围绕文本生成、Siri和相册这几个模块。先说文本生成,作为苹果AI的重要组成部分,该功能的视适用范围不局限于苹果官方应用。只要使用标准输入文本系统,在第三方应用程序当...……更多
昆仑万维发布开源13B高质量商用大模型 领先Llama2和Baichuan2
...、Skywork-13B-Math模型,它们在CEVAL, GSM8K等多个权威评测与基准测试上都展现了同等规模模型的最佳效果,其中文能力尤为出色,在中文科技、金融、政务等领域表现均高于其他开源模型。除模型开源外,Skywork-13B系列大模型还将开...……更多
LLM仍然不能规划,刷屏的OpenAI o1远未达到饱和
...史记录。o1 模型拥有真正的通用推理能力。在一系列高难基准测试中展现出了超强实力,相比 GPT-4o 有巨大提升,让大模型的上限从「没法看」直接上升到优秀水平,不专门训练直接数学奥赛金牌,甚至能在博士级别的科学问答...……更多
全面透视豆包:功能、版本、价格、优势、应用
...将文本合成为语音。 文生图模型:根据输入的文本描述生成图像。 Function Call 模型:具备特定的函数调用能力。 向量化模型:用于向量检索等场景。豆包 APP 也在不断进行版本更新,为用户提供更多功能和优化体验。截至...……更多
OpenAI发布免费新品GPT-4o:可对音频、视觉和文本实时推理,与人自然对话,功能秒杀Siri
...Siri!”来使用语音功能。从性能来看,OpenAI表示,在传统基准测试中,GPT-4o在文本、推理和代码智能方面达到了GPT-4 Turbo级的性能,同时在多语言、音频和视觉能力方面达到了新高度。它在英文文本和代码上的性能与GPT-4 Turbo相当...……更多
谷歌发布ai前沿成果,生成式ai迎来爆发
...布全新AI模型——MusicLM。通过AI模型MusicLM,文字可以直接生成高保真的音乐。这是继文字生成AI模型Wordcraft、视频生成工具ImagenVideo之后,谷歌又一次推出生成式AI模型工具,这一次谷歌将目标瞄准了音乐领域。透过MusicLM,不难...……更多
字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束
...还得到了AI大神Karpathy的高度认可:是我唯二信任的测试基准之一。不过有一说一,扣子能让自家“院子”里的大模型们玩这种模式,也是实属罕见。那么模型广场具体又该如何操作?是否能够hold住脑洞大开的问题? 我们这就...……更多
更多关于科技的资讯:
从迷失到笃行:一位古贝春经销商的二十载商海沉浮与顿悟
鲁网11月27日讯(记者 赵洪斌)在鲁北商业版图上,王文俊的名字与古贝春酒业紧紧相连。然而,这段长达二十余年的合作关系
2025-11-28 08:45:00
近日,广东宇太能源与河北某工业玻璃龙头企业签约,合作利用空微子发电技术降低企业电耗。该项目由玻璃企业投资,宇太能源提供技术及设备支持
2025-11-28 08:57:00
罗振宇、张夕勇、杨慧林、罗军民四位大咖重磅推荐,杨钧博士《未来竞速》即将出版发行
百年汽车产业大变局的必读之作。近日,由国内汽车行业资深媒体人与研究观察者杨钧博士撰写的新书《竞速未来-全球新能源汽车的崛起与挑战》一书已由中国出版集团中译出版社正式出版发行
2025-11-28 09:27:00
近日,鹏华基金发布公告,旗下科创创业人工智能ETF鹏华 (认购代码:588413)于11月28日正式发行。作为首批双创人工智能ETF中的一员
2025-11-28 10:11:00
入选概率不及万分之二,阿里千问斩获顶级AI会议最佳论文
11月28日消息,人工智能领域顶级会议NeurIPS 2025公布了论文奖,阿里通义千问团队最新研究成果从全球2万多篇投稿论文中脱颖而出
2025-11-28 11:01:00
11月24日,位于启东市南阳镇的朗峰新材料启东有限公司生产车间内,自动化生产线高速运转,一条薄如蝉翼的银色金属带材从特制喷嘴中“飞”出
2025-11-28 11:05:00
济南轨道交通集团举办财务资本培训,实战专家孙春浩解析财务精英三级跃迁路径
近日,济南轨道交通集团全资子公司莱芜交通发展集团成功举办财务管理及融资业务培训。本次培训由集团财务管理部部长刘文芹主持
2025-11-28 11:09:00
锚定本土、驱动创新的金融实践!青岛银行荣膺CFV“最佳品牌竞争力城商行”奖项
11月21日,在上海举办的“2025第一财经金融价值年会”上,青岛银行凭借在科技金融、绿色金融、地方经济服务及创新能力方面的突出表现
2025-11-28 11:18:00
挂号缴费不用跑!微信医保移动支付在北京140家公立医院全面上线
近日,北京市参保市民就医迎来“智慧升级”——微信医保移动支付功能已在中国医学科学院、北京协和医院、北京大学人民医院等140家公立医院全面上线
2025-11-28 11:28:00
河北省煤田地质局物测队引入新装备提升探测能力
河北新闻网讯(吕若汐、齐彦红)11月18日,地球物理勘探设备供应商法国塞赛尔公司正式向河北省煤田地质局物测队交付了两套数字地震仪(激发系统)诺玛德65尼奥
2025-11-28 11:53:00
中新经纬11月28日电 北京市广电局网站消息,《北京市促进“人工智能+视听”产业高质量发展行动方案(2025-2029年)》(下称《行动方案》)近日发布
2025-11-28 11:57:00
均胜电子:定位“汽车+机器人Tier1”,双轮驱动进阶智能新时代
全球领先的智能汽车科技解决方案提供商均胜电子(600699.SH / 00699.HK)正以创新驱动和全球协同,在汽车电子
2025-11-28 12:15:00
严禁“带病运行”!河南就政务信息系统开发公开征求意见
大河网讯 为给非涉密政务信息系统的开发建设加上一把“安全锁”,规范全生命周期的安全管控工作,11月27日,省行政审批政务信息管理局起草了《非涉密政务信息系统开发安全管理指南(征求意见稿)》(以下简称《征求意见稿》)
2025-11-28 14:10:00
吉林机场集团门户网站二次升级 打造智慧出行服务新标杆
为持续优化用户体验、丰富服务维度,吉林省民航机场集团有限公司门户网站(https//www.jlairports.com)正式迎来二次重大升级
2025-11-28 14:41:00
商赢酱酒以文化赋能商务社交,重塑“场景思维”新体验
11月25日,一场以“商界链接创富圈层,共享‘商赢酱酒’杯中哲学,解锁中国式商务社交的‘心’语”为主题的交流会在济南成功举办
2025-11-28 14:55:00