• 我的订阅
  • 头条热搜
谷歌deepmind公布ai模型训练法
...学能力更强的AI模型。谷歌DeepMind使用PaLM2模型进行测试,研究人员建立了专用“代码池”,使用代码形式为模型输入一系列问题,并设置了评估器流程,之后模型便会在每一次迭代中,自动从代码池中挑选问题,生成“具有创造...……更多
小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law
...训练模型之间的表现,后者是一个*大14倍的预训练模型。研究人员考虑了在两种模型中都预期会有 tokens的预训练和 tokens的推理。可以看到,在修订场景中(右上),当 << 时,测试阶段的计算通常优于额外的预训练。然而,...……更多
免训练大模型知识编辑,吸收新数据更高效|EMNLP\'24
...导致过拟合,从而影响其原始性能。为了解决上述问题,研究人员期望探索更有效的检索和即时编辑方式,以及对模型进行更小的干预,以避免在编辑数据集上过度拟合。 模型方法知识编辑相关背景在本文中,研究团队首先形...……更多
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
... checkpoint、训练日志和训练数据都已经开源。尽管大语言模型 (LM) 在各种任务上取得了重大进展,但在训练和推理方面,性能和成本之间仍然需要权衡。对于许多学者和开发人员来说,高性能的 LM 是无法访问的,因为它们的构建...……更多
影响英伟达根本逻辑的大争论:OpenAI改变策略意味着什么?谁在撒谎?
...?OpenAI则极力否认AI模型训练面临瓶颈。作为应对,OpenAI研究人员正在探索一项“测试时计算”(training runs)的技术。十几位AI科学家、研究人员和投资者告诉路透社,他们认为正是这些技术,推动了OpenAI发布o1模型。所谓测试...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...模型与相似的体积大 10 倍的模型相比具有显著竞争力。研究人员使用分类目标预训练的视觉变换器(ViT)模型与对比性预训练的模型(SigLIP)进行了比较,结果发现,PaLI-3 虽然在标准图像分类基准上略微表现不佳,但基于 SigLIP...……更多
与OpenAI o1技术理念相似,TDPO-R算法有效缓解奖励过优化问题
...武汉大学、悉尼大学、京东探索研究院和南洋理工大学的研究人员便在ICML 2024上发表了一项 “扩散模型对齐” 方向的研究,所提出的名为TDPO-R 的强化学习算法与 o1 不谋而合地也采用了细粒度奖励机制。论文链接:https://openrevie...……更多
大模型时代结束?大佬齐预测:AI模型或需先缩小规模,才能再次扩大规模
...人工智能系统如何从更少的数据中学到更多的东西。微软研究人员在开发Phi模型时也做出了相同的判断,Hugging Face AI研究人员也同意对于高质量数据集的追求,并发布了高质量的训练数据集。这意味着一味扩张不再是科技巨头们...……更多
清华团队提出新型光计算架构,光训练速度提升1个数量级
...,极大地限制了光训练的规模和效率。为解决上述问题,研究人员提出了正反互易和光学共通的解决思路。·正反互易:全前向智能光计算训练架构。受物理学对称性的启发,研究人员建立了“空间互易-时间反演”的双对称光传...……更多
ai绘画侵权实锤,扩散模型可能记住你的照片
...了弄清楚扩散模型到底能不能记忆和再生个体训练样本,研究人员首先提出了“记忆”的新定义。一般来说,关于记忆的定义集中在文本语言模型上,如果可以提示模型从训练集中恢复一个逐字序列,就表示这个序列被提取和记...……更多
类人神经网络再进一步!DeepMind最新50页论文提出AligNet框架:用层次化视觉概念「对齐」人类
...能导致了这些模型的前述弱点? 最近,DeepMind等机构的研究人员联合发布了一篇长达50页的论文,提出了一个可能导致AI模型与人类表现存在差异的原因:人类概念知识是从精细到粗尺度进行分层组织的,而深度学习模型表征无...……更多
Yandex推出开源大语言模型训练工具,称可节省高达20%的图形处理器资源
...习社区分享我们在大型语言模型方面的成果,为提高全球研究人员和开发人员的可访问性和效率做出贡献。”事实上,大型语言模型训练是一个耗时且资源密集的过程。在大型语言模型训练期间,开发人员必须有效管理三种主要...……更多
3天把Llama训成Mamba,性能不降,推理更快!
...又搞出了有意思的研究:来自康奈尔、普林斯顿等机构的研究人员成功将Llama提炼成了Mamba模型,并且设计了新的推测解码算法,加速了模型的推理。先来看一张其乐融融的图片(一眼AI):右边的小羊驼代表Llama,而左边的蛇(M...……更多
Nature封面:AI训AI 越训越傻
...练AI,可能会让AI变傻?!来自牛津、剑桥等学校机构的研究人员最新发现,使用合成数据训练,大模型可能会崩溃。其研究成果被选为最新的Nature封面。直接一个:GARBAGE OUT!要知道,现在绝大部分科技公司的大模型都在用合成...……更多
AI大模型有望再扩1000倍!剑桥耶鲁康奈尔:PNN是变革关键
...者之间的数据传输速度较低。由于看到了这些性能限制,研究人员对可替代当前AI系统的其他计算平台重新产生了兴趣,例如光学、光子学和模拟电子学。论文将这些非常规计算平台统称为PNN,指代利用物理系统的属性执行计算...……更多
谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍
...表征学习?这需要更进一步地观察模型才能确定,为此,研究人员测量并比对了diffusion transformer和当前的SOTA自监督模型DINOv2之间的表征差距,包括语义差距和特征对齐两种角度。语义差距从图2a可知,预训练SiT的隐藏层表示在第...……更多
不是RNN的锅!清华团队深入分析长上下文建模中的状态崩溃,Mamba作者点赞
...信息存不进来了。——这俩问题明显不是RNN的锅。而经过研究人员的对症下药,Mamba-2(370M)在256K上下文长度上达到了近乎完美的密钥检索精度。所以结论就是,Mamba yes!「RNN神教」前景一片光明!对此,Mamba的作者Albert Gu点赞...……更多
谷歌员工曝AI改进速度放缓,Gemini已成立新团队解决问题
...该公司希望模型性能提升的速度可以与去年相当,这促使研究人员专注于其他方法来勉强取得效果。这种情况和OpenAI的遭遇类似。此前有报道称,OpenAI模型性能提升速度有所放缓,该公司正改变技术策略来解决问题。回到谷歌本...……更多
OpenAI GPT-4 AI 模型无需额外训练可通过日本理疗师考试
...40 道实践题,测试记忆、理解、应用、分析和评估能力。研究人员在 GPT-4 中输入了 1000 个问题,并将答案对比了官方解决方案。GPT-4 通过了所有五个测试部分,正确回答了 73.4% 的问题。不过,人工智能在处理技术性问题和包含...……更多
如何让“机器不学习”?学会“遗忘”将使新一代AI更出色
...蔽相关数据的策略。例如,微软和美国俄亥俄州立大学的研究人员在用于训练模型的数据中引入了噪音,使大模型随后输出的信息由数据中更泛化的模式,而不是特定的、可识别的例子所决定。这从理论上保证了大模型不会透露...……更多
遗憾不?百度早研究过Scaling Law,Anthropic CEO灵感都来自百度
...和模型大小 scaling 的重要意义。对于深度学习从业人员和研究人员来说,学习曲线可以帮助调试模型,并为改进的模型架构预测准确性目标。 百度的研究者在论文中表示,他们的研究结果表明,我们有机会加倍努力,从理论上...……更多
LLM训练通信量减少10000倍!全新分布式优化器,整合世间算力训练强大AI
...重大突破,通过使用与架构和网络无关的分布式优化器,研究人员成功将训练LLM时GPU间的通信量降低了1000到10000倍!如果可以使用世界上所有的算力来训练AI模型,会怎么样?近日,凭借发布了开源的Hermes 3(基于Llama 3.1)而引...……更多
o1金牌团队揭秘AI超越人类惊人时刻!22分完整版视频全公开
...一个推理模型,也就是会比以往「思考」得更多。在OpenAI研究人员看来,「思考」就是推理的一种最直观的方式。有时候,当被问及意大利首都是什么问题时,我们几乎不用思考,即刻就能得出答案。但有时候,涉及商业企划书...……更多
多模态模型免微调接入互联网,即插即用新框架,效果超闭源方案
...一些热门搜索词来对前者进行补充。第二步,问题生成。研究人员首先根据搜集到的搜索词调用搜索引擎得到相关的新闻,将新闻内容进行切分,得到多个内容片段。然后要求GPT根据内容片段自问自答,得到在第三步图像分配阶...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
...11402项目主页:https://nvlm-project.github.io/在模型设计方面,研究人员对纯解码器多模态大模型(如LLaVA)和基于交叉注意力的模型(如Flamingo)进行了全面对比,并根据总结出的优势和劣势,提出了一种全新架构,提升了模型的训...……更多
Meta祭出三篇最详尽Llama微调指南!千字长文,0基础小白必备
...量参数进行训练来解决这些缺陷。 微调可能有益的原型研究人员将以下场景确定为可从微调中受益的常见用例:- 语气、风格、形式定制:使用案例可能会寻求反映特定角色或服务特定受众的LLM。通过使用定制数据集对LLM进行...……更多
综合RLHF、DPO、KTO优势,统一对齐框架UNA来了
...论基础UNA 的理论基础源于对 RLHF 目标函数的重新推导。研究人员证明,给定 RLHF 的经典目标函数,最优策略可以通过一个隐式的奖励函数来诱导。该隐式奖励函数是策略模型与参考策略之间的对比结果,通过这个函数,UNA 能够...……更多
OpenAI直播第二弹!奥特曼2024年最大惊喜竟来自字节?强化微调让o1-mini逆袭o1
...人的是,团队的成员全部来自字节跳动!在这项工作中,研究人员提出了一种简单而有效的方法,来自增强LLM推理时的泛化能力——强化微调(Reinforced Fine-Tuning,ReFT)。论文地址:https://arxiv.org/abs/2401.08967 简单来说,ReFT首先...……更多
生成式AI的抄袭输出问题值得关注(附图片)
...中均包含“screencap”。 (图片来源:IEEE Spectrum)大语言模型(LLM)在多大程度上“记住”了其训练输入内容是一直以来广受关注的问题。而最近的实证研究表明,大语言模型在某些情况下的确可以重现或者生成只包含细小差别...……更多
深度势能核心开发者团队发布“大原子模型计划”
...制药等领域工业微尺度设计的变革。OpenLAM计划希望未来研究人员可以一键获取任意元素组合体系的势能函数,极大地简化获取精确模型的过程,不再需要生成大量新的第一性原理计算数据,以及进一步拥有结构搜索、结构生成...……更多
更多关于科技的资讯:
京东开启第6届孝老爱老购物节 发放亿元暖阳孝心券、免费送装拆旧
10月27日,在民政部养老服务司、北京市民政局的指导组织下,京东举办第6届孝老爱老购物节暨暖阳行动发布会。在适老消费需求高速增长
2025-10-28 12:01:00
方家铺子亮相深圳礼品展:AI赋能东方滋养,助力“一人一方”落地
摘要:方家铺子亮相深圳礼品展,以AI赋能个性化滋补,展现了东方养生的智能化新趋势。10月23日,为期4天的第33届中国(深圳)国际礼品及家居用品展览会圆满落幕
2025-10-28 12:04:00
京东七鲜京津冀布局再加速!石家庄首店12月裕华万达开业
石家庄的“新鲜”生活要来了!据官方确认,石家庄京东七鲜首店将于12月在裕华万达广场正式开业,为市民带来生鲜购物与生活方式的全新升级
2025-10-28 12:05:00
OPPO携手火山引擎,Find X9 新机里藏了个“AI旅拍创作神器”
近日,OPPO发布了Find X9系列新机,以“画质革命”为核心,全面升级了移动影像能力,致力于打造手机摄影的旗舰新标杆
2025-10-28 12:07:00
第八届世界声博会11月2日在合肥开幕!讯飞星火大模型升级版即将亮相
大皖新闻讯 10月28日,安徽省人民政府新闻办公室召开第八届世界声博会暨2025科大讯飞全球1024开发者节筹备情况新闻发布会
2025-10-28 13:23:00
智推互联:以“开拓求新”破传播边界,用“精进不止”筑服务壁垒
当AI浪潮席卷全球,企业品牌传播正面临前所未有的挑战。某企业市场部负责人看着一组棘手的数据:预算投入持续,但品牌声量始终不温不火
2025-10-28 13:51:00
记者走基层|裸眼3D,让影像“悬浮”在空中
10月27日,河北景优数字仿真科技有限公司,三维视觉设计师正在制作3D片源。河北日报记者 常方圆摄一只蜜蜂翩然“飞”离播放设备
2025-10-28 08:33:00
10月27日,第三届山西省智能制造推进大会在太原举行。在山西省卓越级智能工厂和智能制造优秀供应商授牌仪式上,太钢不锈钢股份有限公司
2025-10-28 07:23:00
从“复活”一只龙鸟到定义一个产业,越疆用具身智能撬动文化科技新生态
当电影《博物馆奇妙夜》中展品“活”过来的奇幻场景照进现实,一场由科技驱动的文旅产业变革正悄然拉开序幕。近日,越疆初息工厂宣布成功打造全球首个超仿生具身智能体——以多模态具身智能技术“复活”的中华龙鸟
2025-10-28 07:48:00
近400名人才角逐南京市“双创项目”人才“赛马”金陵城,创新与产业双向奔赴□南京日报/紫金山新闻记者 张安琪10月26日
2025-10-28 07:50:00
中国消费者协会与中国物品编码中心合作,于近日在“全国消协智慧315”小程序上线“消协帮您找,扫码辨商品”新功能。该功能依托编码中心国家商品数据库的权威信息
2025-10-28 07:58:00
近日,大金科工(天津)车业有限公司(以下简称“大金科工”)开业仪式在武清开发区举行。大金科工由大行科工(深圳)股份有限公司与金轮集团共同注资成立
2025-10-27 14:11:00
电竞赛事下沉 重构经济文化新生态
第十二届王者荣耀全国大赛举办颁奖礼第十二届王者荣耀全国大赛总决赛落地天津五大道民园广场无畏契约嘉年华 前王者荣耀职业联赛选手刺痛(右)与粉丝合影无畏契约瓦友社迎新季线下活动和平精英村镇赛广东清远站
2025-10-27 14:11:00
据IDC数据显示,2025年中国GEO市场规模突破200亿元,年复合增长率高达67%,超过78%的企业已将GEO纳入品牌增长与智能营销的核心战略
2025-10-27 14:20:00
中国品牌出海:从产品制造向品牌价值跃升
“不出海,就出局。”这句话听起来很极端,但折射出中国制造业在全球化时代的现实处境。今天,中国企业出海,已不再是讨生活般的生存选择
2025-10-27 14:23:00