• 我的订阅
  • 头条热搜
Llama3训练每3小时崩一次?豆包大模型、港大为脆皮万卡训练提效
伴随大模型迭代速度越来越快,训练集群规模越来越大,高频率的软硬件故障已经成为阻碍训练效率进一步提高的痛点,检查点(Checkpoint)系统在训练过程中负责状态的存储和恢复,已经成为克服训练故障、保障训练进度和提...……更多
Nature重磅研究:AlphaFold绘制病毒「族谱」,揭开身世之谜
...,Nature上最近刊登的一篇论文又解锁了AlphaFold这类生物大模型的新用途——揭示生物的亲缘关系和进化史。今年7月,被Meta解散的ESMFold团队成功另起炉灶,,打出的slogan正是「用语言模型模拟5亿年进化。」论文地址:https://evolut...……更多
无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成
在长文本理解能力这块,竟然没有一个大模型及格!北大联合北京通用人工智能研究院提出了一个新基准数据集:LooGLE,专门用于测试和评估大语言模型(LLMs)长上下文理解能力。该数据集既能够评估LLMs对长文本的处理和检索...……更多
讯飞星火V3.0发布,打造每个人的AI助手
...讯飞董事长刘庆峰、研究院院长刘聪发布讯飞星火认知大模型V3.0,七大能力持续提升,整体超越ChatGPT,医疗领域超越GPT-4。星火3.0升级启发式对话、AI人设功能,能够打造更个性化的AI助手。面向应用场景,讯飞星火面向行业进...……更多
microsoftstart天气预报开发团队介绍全新ai模型
...开发团队近日在arXiv网站发表论文,介绍了一种全新的AI模型,可以更准确预估未来30天的天气情况。该模型结合了5种不同的人工智能模型和3种深度学习架构,并训练了过去数十年的天气数据,从而做出更准确的预测。微软表示...……更多
研究人员提出版权授权方案,能将艺术家风格和IP版权授权给AIGC模型
...人工智能极大地改变了人类生活。与此同时,由于这类大模型的训练需要非常巨大的训练数据,不可避免地会使用到人类创作者的未授权数据。比如说在图像生成领域,像 Stable Diffusion 和 Midjourney 可以很好地复刻一些艺术风格。...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...为刘家铭博士,研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真,研究方向为视觉基础模型与机器人操纵。指导老师为仉尚航,北京大学计算机学院研究员、博士生导师、博雅青年学者...……更多
用60%成本干80%的事,DeepSeek分享沉淀多年的高性能深度学习架构
... 3 倍、DRAM 带宽增长 1.6 倍、互连带宽则仅有 1.4 倍。而大模型是大数据 + 大计算的产物,其参数量可达千亿乃至万亿规模,需要成千上万台 GPU 才能有效完成训练。这些实际情况提升了人们对高性能计算(HPC)的需求。为了获得...……更多
...人事报美国人工智能公司OpenAI近日推出的生成式人工智能模型Sora,震动全球科技界,其背后的研究团队也浮出水面。根据OpenAI官网介绍,Sora团队包括两名研发负责人威廉·皮伯斯和蒂姆·布鲁克斯,系统负责人康纳·霍姆斯,以...……更多
CMU清华教LLM练成数学高手,LeanSTaR训练模型边思考边证明,登顶新SOTA
...学生怎么办?CMU清华团队提出了Lean-STaR训练框架,在语言模型进行推理的每一步中都植入CoT,提升了模型的定理证明能力,成为miniF2F上的新SOTA。如果想训练LLM证明定理的能力,你会怎么做?既然模型可以通过海量语料学会生成...……更多
meta推出全新开源大模型codellama70b
近日,Meta正式宣布推出全新开源大模型CodeLlama70B,据悉,CodeLlama70B在HumanEval基准测试中的准确率达到了53%,超过了GPT-3.5的48.1%,并且接近OpenAI的一篇论文(PDF)报告的GPT-4的67%,是目前评分最高的开源大模型。据CNMO了解,Cod……更多
...之间的桥梁。作为软件根技术,它已成为加速人工智能大模型开发、推动产业智能化发展的核心力量。在近日召开的昇思人工智能框架峰会上,华为发布昇思MindSpore 2.3。作为国内主流开源框架,可以让开发者更灵活地实现大模...……更多
NeurIPS 2024评审结果公布!AI大佬晒出成绩单,又是被吐槽最严重的一届
...非常微妙,即使在过度参数化的情况下也是如此。而对大模型而言,权重衰减则扮演者完全不同的角色。与最初一版arXiv论文相比,研究人员对其进行了很多更新。Andriushchenko表示,自己非常喜欢这项新实验,并且匹配了AdamW有效...……更多
苹果公司公布“mm1”多模态大模型
...dalLLMPre-training》的论文,其中介绍了一款“MM1”多模态大模型,该模型提供30亿、70亿、300亿三种参数规模,拥有图像识别和自然语言推理能力。IT之家注意到,苹果研究团队相关论文主要是利用MM1模型做实验,通过控制各种变量...……更多
语音克隆达到人类水平,微软全新VALL-E 2模型让DeepFake堪比配音员
【新智元导读】继去年初的第一代VALL-E模型之后,微软最近又上新了VALL-E 2模型,标志着第一个在合成语音稳健性、相似度、自然程度等方面达到人类水平的文本到语音模型。最近,微软发布了零样本的文本到语音(TTS)模型VAL...……更多
让大模型能听会说,国内机构开源首个端到端语音对话模型Mini-Omni
...非与启元世界多模态负责人吴昌桥,研究兴趣为多模态大模型、LLM Agents 等。本论文上线几天内在 github 上斩获 1000+ 星标。随着多类型大模型的飞速发展,全球 AI 已经进入到了多模交互时代。2024 年 5 月,OpenAI 推出了全新的多模...……更多
贾扬清共一论文获ICML时间检验奖:著名框架Caffe前身
...觉任务。事实证明,这个想法在今天仍然与最好的多模态模型非常相关!两位老搭档也在评论区叙上了旧: ICML今年是其举办的第41届,投稿量9000+,接受率27.5%。除了时间检验奖,最佳论文奖也已出炉,Stable Diffusion 3论文等上榜...……更多
谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
...著的能力跟进,可见其技术发展与创新的潜力。除了Gemini模型外,Gemma这一系列轻量级的SOTA开放模型似乎与我们距离更近。它基于Gemini模型相同的研究和技术构建,旨在让每个人都拥有构建AI的工具。谷歌持续扩展Gemma家族,包...……更多
...根据差异进行识别?AI检测工具如何应对越来越聪明的大模型?带着这些问题,记者采访了有关专家。AI创作套路化明显“虽然大模型在不断发展迭代,但到目前为止,AIGC与人类的创作在用词用语、逻辑语法等方面依旧存在明显...……更多
...业股份有限公司(以下简称浪潮信息)发布千亿级开源大模型“源2.0”。“源2.0”创新采用局部注意力过滤增强机制(LFA),可以有效捕捉局部信息和短依赖信息,使模型能够更精准地掌握上下文之间的强语义关联,学习人类语...……更多
...最新发表一篇化学论文称,研究人员研发出一种机器学习模型,该模型能部分重现职业化学家在工作中积累的集体知识,这类知识通常被称为“化学直觉”。该研究认为,这或使今后的药物研发更高效。据论文介绍,传统上,药...……更多
综合RLHF、DPO、KTO优势,统一对齐框架UNA来了
...Alignment。3. 黄灿:厦门大学数学系副教授随着大规模语言模型的快速发展,如 GPT、Claude 等,LLM 通过预训练海量的文本数据展现了惊人的语言生成能力。然而,即便如此,LLM 仍然存在生成不当或偏离预期的结果。这种现象在推...……更多
...由谷歌DeepMind和Isomorphic Labs团队研发的最新迭代人工智能模型AlphaFold3,能以较高准确率预测蛋白质与其他生物分子相互作用的结构,其准确率比之前的专用工具显著提升。AlphaFold3能预测含有蛋白质数据银行(Protein Data Bank)内几乎...……更多
浪潮海岳大模型平台研发团队:记录一群浪潮青年人的梦想追寻之路
作为一个充满活力与创新精神的青年团队,浪潮海岳大模型平台研发团队与“智能化”相伴而生,始终以勇立智能化创新发展潮头为目标,牢牢把握智能化大势。团队以前瞻性的眼光布局人工智能领域,以科学严谨的态度勇担...……更多
WWDC24没有王炸,AI正在动摇苹果根基
...果智能”就算不上有多优秀了。和OpenAI、谷歌等巨头的大模型相比,“苹果智能”就像学龄前儿童。苹果显然也明白这一点,所以苹果宣布与OpenAI合作,在iPhone、iPad、Mac上直接搭载了ChatGPT。通过GPT-4o,Siri将实现通话录音生成摘...……更多
LLM仍然不能规划,刷屏的OpenAI o1远未达到饱和
实验证明,大模型的 System 2 能力还有待开发。规划行动方案以实现所需状态的能力一直被认为是智能体的核心能力。随着大型语言模型(LLM)的出现,人们对 LLM 是否具有这种规划能力产生了极大的兴趣。最近,OpenAI 发布了 o1 ...……更多
ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!
...DeepMind、Dario Amodei还没创办Anthropic,而OpenAI还没all in语言模型,仍是一家研究范围更广泛的AI公司。他们提出,通过人类反馈,让AI模型更好地学习「如何翻出一个漂亮的后空翻」。 训练时,AI agent在环境中不断观察并行动,并...……更多
中国也有Sora同款训练架构公司,清华班底,智谱也投了 | 36氪首发
...雨编辑 | 邓咏仪全球首家发布Sora同款底层架构的清华系模型公司,近期完成了新一轮融资。投资名单中,也出现了大模型独角兽智谱AI的身影。36氪获悉,近日多模态AI模型公司生数科技完成新一轮数亿元融资。该轮融资由启明...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
现在,长上下文视觉语言模型(VLM)有了新的全栈解决方案 ——LongVILA,它集系统、模型训练与数据集开发于一体。现阶段,将模型的多模态理解与长上下文能力相结合是非常重要的,支持更多模态的基础模型可以接受更灵活...……更多
硕博招生!AI排名跻身前15,全球首所人工智能大学MBZUAI实力大增
...els,继去年 10 月份和 G42 共同开发了最先进的阿拉伯语大模型之后,又独立开发了领先的 K2 开源模型,成为全世界唯一一个能够自行训练开发 65B 规模大模型的大学,引领了新一代基础模型的研究。同时,计算生物学方向的生命...……更多
更多关于科技的资讯:
蚂蚁集团大动作!“阿福”APP来了:新增健康陪伴功能 问答能力升级
12月15日消息,蚂蚁集团宣布旗下AI健康应用AQ品牌升级为“蚂蚁阿福”,并发布APP新版本,升级健康问答、健康陪伴、健康服务三大功能
2025-12-17 10:18:00
项目卡壳90%是资源管理“掉链子” ?易趋教你四步破局
“张总,研发部李工被临时抽去支持紧急项目,咱们的核心模块开发得延期了”,“设备组反馈,原定下周到位的测试服务器,现在还在另一个项目组占用着”
2025-12-17 11:10:00
远见协同:解码米连科技稳健发展的深层动能
在互联网行业潮起潮落、监管环境持续完善的背景下,一家企业如何锚定航向,实现可持续的稳健增长?这不仅考验着创始团队的初心
2025-12-17 11:10:00
赋能印度农业现代化丨潍柴雷沃亮相第33届印度浦那国际农业展
鲁网12月17日讯日前,第33届印度浦那国际农业展KISAN在浦那国际展览中心举办。作为印度西部规模最大、最具影响力的农业展会
2025-12-17 11:18:00
面对“哪些中国企业全球化做的不错?”这一问题,联想集团无疑是具有代表性的答案之一。作为出海时间早、全球化程度深的中国企业
2025-12-17 11:52:00
京东产发与日日顺达成全球战略合作 共建超级供应链新生态
近日,京东产发与日日顺供应链正式达成全球战略合作,建立共创共赢的生态战略合作关系。 双方在物流基础设施、仓配网络、供应链管理等良好的合作基础上
2025-12-17 10:11:00
【宅男财经|专家面对面】当前许多年轻人热衷于“谷子”、棉花娃娃等小众二次元文化产品。针对年轻人为何更偏爱此类小众消费,中国广告协会会长
2025-12-17 10:12:00
“我喜欢我”:vivo S50系列携“告白”美学与长焦Live,开启自我表达新旅程
2025年12月15日,vivo正式发布全新 vivo S50系列,包括 vivo S50 与 vivo S50 Pro mini 两款新品
2025-12-17 10:18:00
聚焦企业福祉与跨境管理 百年人寿协办德国商会专题论坛共话创新解决方案
2025年12月5日,一场聚焦于在华企业福利创新与人力资源挑战的高端论坛于北京成功举行。本次活动由中国德国商会与安顾方胜联合主办
2025-12-17 10:18:00
为积极响应全民消费热潮,充分发挥金融服务实体经济的重要作用,江苏银行围绕 “双十二” 消费节点,精心部署多项线上促消费举措
2025-12-17 10:18:00
王志顺最近,社交平台被一批“装修博主”刷屏了——清一色的夫妻站在新家门口微笑合影,有的怀里还抱着婴儿,配文都是“装修已定”“聊聊感受”
2025-12-17 10:40:00
新闻纵深|“十四五 ”微记忆③:“丝网二代”的智造突围
阅读提示数智浪潮,奔涌而至。过去五年,人工智能等前沿科技,以不可逆转之势重塑千行百业。在安平,年轻的“丝网二代”逯千里
2025-12-17 08:09:00
国潮服饰消费热度 仍在上升
近期,在多地举行的时装周秀场上,马面裙等国潮服饰一经亮相就成为全场焦点;森马等传统服装品牌于近期宣布将推出国潮系列产品
2025-12-17 07:18:00
12月11日,我国自主研发的高空长航时多用途重型“九天苍穹”无人航空通用平台在陕西圆满完成首飞任务。这款性能位居全球前列的大型通用无人机横空出世
2025-12-17 07:35:00
记者走基层|手机没电没网 也能“硬核”付款
12月9日,雄安新区商务服务中心雄礼记商店内,市民孟令双(左)在手机关机的情况下,通过“碰一碰”完成购物付款。河北日报见习记者 康晓博摄“嘀”一声
2025-12-17 08:03:00