• 我的订阅
  • 头条热搜
谷歌deepmind公布ai模型训练法
...学能力更强的AI模型。谷歌DeepMind使用PaLM2模型进行测试,研究人员建立了专用“代码池”,使用代码形式为模型输入一系列问题,并设置了评估器流程,之后模型便会在每一次迭代中,自动从代码池中挑选问题,生成“具有创造...……更多
小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law
...训练模型之间的表现,后者是一个*大14倍的预训练模型。研究人员考虑了在两种模型中都预期会有 tokens的预训练和 tokens的推理。可以看到,在修订场景中(右上),当 << 时,测试阶段的计算通常优于额外的预训练。然而,...……更多
免训练大模型知识编辑,吸收新数据更高效|EMNLP\\\'24
...导致过拟合,从而影响其原始性能。为了解决上述问题,研究人员期望探索更有效的检索和即时编辑方式,以及对模型进行更小的干预,以避免在编辑数据集上过度拟合。 模型方法知识编辑相关背景在本文中,研究团队首先形...……更多
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
... checkpoint、训练日志和训练数据都已经开源。尽管大语言模型 (LM) 在各种任务上取得了重大进展,但在训练和推理方面,性能和成本之间仍然需要权衡。对于许多学者和开发人员来说,高性能的 LM 是无法访问的,因为它们的构建...……更多
影响英伟达根本逻辑的大争论:OpenAI改变策略意味着什么?谁在撒谎?
...?OpenAI则极力否认AI模型训练面临瓶颈。作为应对,OpenAI研究人员正在探索一项“测试时计算”(training runs)的技术。十几位AI科学家、研究人员和投资者告诉路透社,他们认为正是这些技术,推动了OpenAI发布o1模型。所谓测试...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...模型与相似的体积大 10 倍的模型相比具有显著竞争力。研究人员使用分类目标预训练的视觉变换器(ViT)模型与对比性预训练的模型(SigLIP)进行了比较,结果发现,PaLI-3 虽然在标准图像分类基准上略微表现不佳,但基于 SigLIP...……更多
与OpenAI o1技术理念相似,TDPO-R算法有效缓解奖励过优化问题
...武汉大学、悉尼大学、京东探索研究院和南洋理工大学的研究人员便在ICML 2024上发表了一项 “扩散模型对齐” 方向的研究,所提出的名为TDPO-R 的强化学习算法与 o1 不谋而合地也采用了细粒度奖励机制。论文链接:https://openrevie...……更多
大模型时代结束?大佬齐预测:AI模型或需先缩小规模,才能再次扩大规模
...人工智能系统如何从更少的数据中学到更多的东西。微软研究人员在开发Phi模型时也做出了相同的判断,Hugging Face AI研究人员也同意对于高质量数据集的追求,并发布了高质量的训练数据集。这意味着一味扩张不再是科技巨头们...……更多
ai绘画侵权实锤,扩散模型可能记住你的照片
...了弄清楚扩散模型到底能不能记忆和再生个体训练样本,研究人员首先提出了“记忆”的新定义。一般来说,关于记忆的定义集中在文本语言模型上,如果可以提示模型从训练集中恢复一个逐字序列,就表示这个序列被提取和记...……更多
清华团队提出新型光计算架构,光训练速度提升1个数量级
...,极大地限制了光训练的规模和效率。为解决上述问题,研究人员提出了正反互易和光学共通的解决思路。·正反互易:全前向智能光计算训练架构。受物理学对称性的启发,研究人员建立了“空间互易-时间反演”的双对称光传...……更多
类人神经网络再进一步!DeepMind最新50页论文提出AligNet框架:用层次化视觉概念「对齐」人类
...能导致了这些模型的前述弱点? 最近,DeepMind等机构的研究人员联合发布了一篇长达50页的论文,提出了一个可能导致AI模型与人类表现存在差异的原因:人类概念知识是从精细到粗尺度进行分层组织的,而深度学习模型表征无...……更多
Yandex推出开源大语言模型训练工具,称可节省高达20%的图形处理器资源
...习社区分享我们在大型语言模型方面的成果,为提高全球研究人员和开发人员的可访问性和效率做出贡献。”事实上,大型语言模型训练是一个耗时且资源密集的过程。在大型语言模型训练期间,开发人员必须有效管理三种主要...……更多
Nature封面:AI训AI 越训越傻
...练AI,可能会让AI变傻?!来自牛津、剑桥等学校机构的研究人员最新发现,使用合成数据训练,大模型可能会崩溃。其研究成果被选为最新的Nature封面。直接一个:GARBAGE OUT!要知道,现在绝大部分科技公司的大模型都在用合成...……更多
3天把Llama训成Mamba,性能不降,推理更快!
...又搞出了有意思的研究:来自康奈尔、普林斯顿等机构的研究人员成功将Llama提炼成了Mamba模型,并且设计了新的推测解码算法,加速了模型的推理。先来看一张其乐融融的图片(一眼AI):右边的小羊驼代表Llama,而左边的蛇(M...……更多
谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍
...表征学习?这需要更进一步地观察模型才能确定,为此,研究人员测量并比对了diffusion transformer和当前的SOTA自监督模型DINOv2之间的表征差距,包括语义差距和特征对齐两种角度。语义差距从图2a可知,预训练SiT的隐藏层表示在第...……更多
AI大模型有望再扩1000倍!剑桥耶鲁康奈尔:PNN是变革关键
...者之间的数据传输速度较低。由于看到了这些性能限制,研究人员对可替代当前AI系统的其他计算平台重新产生了兴趣,例如光学、光子学和模拟电子学。论文将这些非常规计算平台统称为PNN,指代利用物理系统的属性执行计算...……更多
谷歌员工曝AI改进速度放缓,Gemini已成立新团队解决问题
...该公司希望模型性能提升的速度可以与去年相当,这促使研究人员专注于其他方法来勉强取得效果。这种情况和OpenAI的遭遇类似。此前有报道称,OpenAI模型性能提升速度有所放缓,该公司正改变技术策略来解决问题。回到谷歌本...……更多
OpenAI GPT-4 AI 模型无需额外训练可通过日本理疗师考试
...40 道实践题,测试记忆、理解、应用、分析和评估能力。研究人员在 GPT-4 中输入了 1000 个问题,并将答案对比了官方解决方案。GPT-4 通过了所有五个测试部分,正确回答了 73.4% 的问题。不过,人工智能在处理技术性问题和包含...……更多
如何让“机器不学习”?学会“遗忘”将使新一代AI更出色
...蔽相关数据的策略。例如,微软和美国俄亥俄州立大学的研究人员在用于训练模型的数据中引入了噪音,使大模型随后输出的信息由数据中更泛化的模式,而不是特定的、可识别的例子所决定。这从理论上保证了大模型不会透露...……更多
LLM训练通信量减少10000倍!全新分布式优化器,整合世间算力训练强大AI
...重大突破,通过使用与架构和网络无关的分布式优化器,研究人员成功将训练LLM时GPU间的通信量降低了1000到10000倍!如果可以使用世界上所有的算力来训练AI模型,会怎么样?近日,凭借发布了开源的Hermes 3(基于Llama 3.1)而引...……更多
多模态模型免微调接入互联网,即插即用新框架,效果超闭源方案
...一些热门搜索词来对前者进行补充。第二步,问题生成。研究人员首先根据搜集到的搜索词调用搜索引擎得到相关的新闻,将新闻内容进行切分,得到多个内容片段。然后要求GPT根据内容片段自问自答,得到在第三步图像分配阶...……更多
o1金牌团队揭秘AI超越人类惊人时刻!22分完整版视频全公开
...一个推理模型,也就是会比以往「思考」得更多。在OpenAI研究人员看来,「思考」就是推理的一种最直观的方式。有时候,当被问及意大利首都是什么问题时,我们几乎不用思考,即刻就能得出答案。但有时候,涉及商业企划书...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
...11402项目主页:https://nvlm-project.github.io/在模型设计方面,研究人员对纯解码器多模态大模型(如LLaVA)和基于交叉注意力的模型(如Flamingo)进行了全面对比,并根据总结出的优势和劣势,提出了一种全新架构,提升了模型的训...……更多
Meta祭出三篇最详尽Llama微调指南!千字长文,0基础小白必备
...量参数进行训练来解决这些缺陷。 微调可能有益的原型研究人员将以下场景确定为可从微调中受益的常见用例:- 语气、风格、形式定制:使用案例可能会寻求反映特定角色或服务特定受众的LLM。通过使用定制数据集对LLM进行...……更多
综合RLHF、DPO、KTO优势,统一对齐框架UNA来了
...论基础UNA 的理论基础源于对 RLHF 目标函数的重新推导。研究人员证明,给定 RLHF 的经典目标函数,最优策略可以通过一个隐式的奖励函数来诱导。该隐式奖励函数是策略模型与参考策略之间的对比结果,通过这个函数,UNA 能够...……更多
生成式AI的抄袭输出问题值得关注(附图片)
...中均包含“screencap”。 (图片来源:IEEE Spectrum)大语言模型(LLM)在多大程度上“记住”了其训练输入内容是一直以来广受关注的问题。而最近的实证研究表明,大语言模型在某些情况下的确可以重现或者生成只包含细小差别...……更多
深度势能核心开发者团队发布“大原子模型计划”
...制药等领域工业微尺度设计的变革。OpenLAM计划希望未来研究人员可以一键获取任意元素组合体系的势能函数,极大地简化获取精确模型的过程,不再需要生成大量新的第一性原理计算数据,以及进一步拥有结构搜索、结构生成...……更多
OpenAI掀小模型血战!苹果DCLM强势登场,碾压Mistral 7B全开源
...在不小差距,与Mistral-7B-v0.3或Gemma 8B的分数大致相当。 研究人员发现,如果使用同一数据集中额外的100B数据进行训练,并将上下文长度扩展到8k时,模型在核心和扩展基准上的分数还会进一步提升,但MMLU结果没有变化。这个结...……更多
OpenAI发布最新技术研究,AI“黑盒”不再是难题!
...次验证器的接受度和解决方案的正确性来进行持续优化。研究人员表示,随着训练轮次的增加,验证者的健全性逐渐提升,表现为对狡猾论证者生成的错误解决方案的抵抗力增强。同时,有益论证者生成的解决方案也变得更清晰...……更多
深挖大模型幻觉!哈佛大学最新报告:LLM等价于众包,只是在输出「网络共识」
...性:普通用户很难察觉、识别出幻觉。最近,哈佛大学的研究人员发布了一篇报告,在几周内向各种人工智能模型提出了一系列晦涩难懂和有争议的问题,从认知信任、众包等角度研究了「大模型为什么会产生幻觉?」。论文链...……更多
更多关于科技的资讯:
iPhone 17系列或将保留三角形相机模组 渲染图有误?
【CNMO科技消息】近日,有关iPhone17系列设计的传闻再次引发热议。此前有报道称,至少一款iPhone17机型可能会采用水平排列的相机设计
2024-12-22 22:23:00
小米15 Pro推送澎湃OS 2新版本
【CNMO科技消息】12月18日,根据博主@懒酱的日记本的消息,小米15Pro迎来了澎湃OS2的新版本更新,版本号为OS2
2024-12-22 22:23:00
三星2024年度回顾:Galaxy AI开局 智能生态大一统
【CNMO科技】2024年已接近尾声,对于三星粉丝来说,这是非凡的一年。三星带来了很多值得期待和兴奋的更新,在很多方面
2024-12-22 22:24:00
华为Mate70系列销量有望破千万台 每代都在稳步增量
【CNMO科技消息】作为华为今年的旗舰机型,Mate70系列自发布后就有很高的关注度。12月18日,数码博主“数码闲聊站”透露了自己了解的华为Mate70系列激活量情况
2024-12-22 22:24:00
iPhone 17系列超前汇总:提前10个月参悟苹果刀法
【CNMO科技】2024年时日无多,2025年对苹果来说将是关键的一年。新款iPhoneSE4登场只是开胃小菜,最重要的是
2024-12-22 22:24:00
曝REDMI Turbo 4电池为6500mAh
【CNMO科技消息】此前,不少人认为REDMITurbo4的电池容量将超过6500mAh,甚至接近7000mAh。但12月18日
2024-12-22 22:24:00
三星S24 Ultra被评选为“2024年最佳手机”
【CNMO科技消息】据CNMO了解,国外知名科技媒体AndroidAuthority读者近日评选三星S24Ultra为“2024年最佳手机”
2024-12-22 22:24:00
一加Ace 5系列下周见 飞行棋邀请函速度感满满
一加Ace5系列将于12月26日14:30正式发布,一加手机这次会一口气发布一加Ace5和一加Ace5Pro骁龙双旗舰
2024-12-22 22:25:00
一加Ace 5 Pro支持IP65防尘防水:风里雨里都不怕
一加已经官宣,将于2024年12月26日14:30举办新品发布会,正式发布一加Ace5系列手机,包括一加Ace5和一加Ace5Pro骁龙双旗舰
2024-12-22 22:25:00
一加手表3曝光 支持ECG心电图功能、独立通信
12月20号消息,根据外媒Smartprix爆料,一加计划在明年第一季度推出全新一加手表3,依旧延续前代的设计,但是会拥有数字表冠
2024-12-22 22:25:00
联想YOGA新机曝光 采用屏下摄像头屏占比吸睛
伴随着CES2025的临近,越来越多的新品爆料信息开始在网上流传。今天X用户WalkingCat就曝光了联想一款YOGA系列新品轻薄本的外观造型
2024-12-22 22:26:00
OPPO A5 Pro太可靠 零下35度冰冻也能正常用
即将在12月24日推出的OPPOA5Pro是一款品质相当出色的手机,据OPPO方面介绍,该机支持IP66+IP68+IP69的满级防水
2024-12-22 22:26:00
汇顶科技3D超声波指纹探秘 自研技术普惠消费者
在2024年,vivoX100Ultra、iQOONeo9SPro+等机型纷纷搭载汇顶科技自主研发的3D超声波指纹方案
2024-12-22 22:27:00
联想新掌机发布会预告特别嘉宾 带来首款SteamOS掌机
此前的消息表明,联想有望在即将开幕的CES2025上带来其首款第三方SteamOS掌机。而目前已经有外媒收到了该次发布活动的邀请函
2024-12-22 22:27:00
真我明年新机或将搭载2K屏幕 同红米一加竞争?
【CNMO科技消息】近两个月来,realme真我先后发布了真我GT7Pro、真我V30Pro、真我Neo7等多款机型,带来了高通骁龙8Elite
2024-12-22 22:28:00