• 我的订阅
  • 头条热搜
谷歌deepmind公布ai模型训练法
...学能力更强的AI模型。谷歌DeepMind使用PaLM2模型进行测试,研究人员建立了专用“代码池”,使用代码形式为模型输入一系列问题,并设置了评估器流程,之后模型便会在每一次迭代中,自动从代码池中挑选问题,生成“具有创造...……更多
小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law
...训练模型之间的表现,后者是一个*大14倍的预训练模型。研究人员考虑了在两种模型中都预期会有 tokens的预训练和 tokens的推理。可以看到,在修订场景中(右上),当 << 时,测试阶段的计算通常优于额外的预训练。然而,...……更多
免训练大模型知识编辑,吸收新数据更高效|EMNLP\\\'24
...导致过拟合,从而影响其原始性能。为了解决上述问题,研究人员期望探索更有效的检索和即时编辑方式,以及对模型进行更小的干预,以避免在编辑数据集上过度拟合。 模型方法知识编辑相关背景在本文中,研究团队首先形...……更多
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
... checkpoint、训练日志和训练数据都已经开源。尽管大语言模型 (LM) 在各种任务上取得了重大进展,但在训练和推理方面,性能和成本之间仍然需要权衡。对于许多学者和开发人员来说,高性能的 LM 是无法访问的,因为它们的构建...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...模型与相似的体积大 10 倍的模型相比具有显著竞争力。研究人员使用分类目标预训练的视觉变换器(ViT)模型与对比性预训练的模型(SigLIP)进行了比较,结果发现,PaLI-3 虽然在标准图像分类基准上略微表现不佳,但基于 SigLIP...……更多
与OpenAI o1技术理念相似,TDPO-R算法有效缓解奖励过优化问题
...武汉大学、悉尼大学、京东探索研究院和南洋理工大学的研究人员便在ICML 2024上发表了一项 “扩散模型对齐” 方向的研究,所提出的名为TDPO-R 的强化学习算法与 o1 不谋而合地也采用了细粒度奖励机制。论文链接:https://openrevie...……更多
大模型时代结束?大佬齐预测:AI模型或需先缩小规模,才能再次扩大规模
...人工智能系统如何从更少的数据中学到更多的东西。微软研究人员在开发Phi模型时也做出了相同的判断,Hugging Face AI研究人员也同意对于高质量数据集的追求,并发布了高质量的训练数据集。这意味着一味扩张不再是科技巨头们...……更多
华人团队爆火instructblip抢跑看图聊天
...劣的天气因素造成的。给我介绍下这幅画进行多轮对话 研究人员表示,正是基于强大BLIP-2,才使得InstructBLIP「看」的更好。最最重要的是,InstructBLIP在多个任务上实现了最先进的性能,甚至在图片解释和推理上表现优于GPT4。为...……更多
ai绘画侵权实锤,扩散模型可能记住你的照片
...了弄清楚扩散模型到底能不能记忆和再生个体训练样本,研究人员首先提出了“记忆”的新定义。一般来说,关于记忆的定义集中在文本语言模型上,如果可以提示模型从训练集中恢复一个逐字序列,就表示这个序列被提取和记...……更多
清华团队提出新型光计算架构,光训练速度提升1个数量级
...,极大地限制了光训练的规模和效率。为解决上述问题,研究人员提出了正反互易和光学共通的解决思路。·正反互易:全前向智能光计算训练架构。受物理学对称性的启发,研究人员建立了“空间互易-时间反演”的双对称光传...……更多
类人神经网络再进一步!DeepMind最新50页论文提出AligNet框架:用层次化视觉概念「对齐」人类
...能导致了这些模型的前述弱点? 最近,DeepMind等机构的研究人员联合发布了一篇长达50页的论文,提出了一个可能导致AI模型与人类表现存在差异的原因:人类概念知识是从精细到粗尺度进行分层组织的,而深度学习模型表征无...……更多
Yandex推出开源大语言模型训练工具,称可节省高达20%的图形处理器资源
...习社区分享我们在大型语言模型方面的成果,为提高全球研究人员和开发人员的可访问性和效率做出贡献。”事实上,大型语言模型训练是一个耗时且资源密集的过程。在大型语言模型训练期间,开发人员必须有效管理三种主要...……更多
Nature封面:AI训AI 越训越傻
...练AI,可能会让AI变傻?!来自牛津、剑桥等学校机构的研究人员最新发现,使用合成数据训练,大模型可能会崩溃。其研究成果被选为最新的Nature封面。直接一个:GARBAGE OUT!要知道,现在绝大部分科技公司的大模型都在用合成...……更多
3天把Llama训成Mamba,性能不降,推理更快!
...又搞出了有意思的研究:来自康奈尔、普林斯顿等机构的研究人员成功将Llama提炼成了Mamba模型,并且设计了新的推测解码算法,加速了模型的推理。先来看一张其乐融融的图片(一眼AI):右边的小羊驼代表Llama,而左边的蛇(M...……更多
谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍
...表征学习?这需要更进一步地观察模型才能确定,为此,研究人员测量并比对了diffusion transformer和当前的SOTA自监督模型DINOv2之间的表征差距,包括语义差距和特征对齐两种角度。语义差距从图2a可知,预训练SiT的隐藏层表示在第...……更多
AI大模型有望再扩1000倍!剑桥耶鲁康奈尔:PNN是变革关键
...者之间的数据传输速度较低。由于看到了这些性能限制,研究人员对可替代当前AI系统的其他计算平台重新产生了兴趣,例如光学、光子学和模拟电子学。论文将这些非常规计算平台统称为PNN,指代利用物理系统的属性执行计算...……更多
人工智能已经可以解决复杂的数学问题了,还有哪些工作无法被取代
...可能需要数百或数千个小时。在过去的五年里,人工智能研究人员已经开始教LLMs自动将数学语句形式化。LLMs已经可以将一种自然语言翻译成另一种自然语言。但从数学到代码的转换是一个艰巨的挑战。尽管LLMs在自然语言处理等...……更多
OpenAI GPT-4 AI 模型无需额外训练可通过日本理疗师考试
...40 道实践题,测试记忆、理解、应用、分析和评估能力。研究人员在 GPT-4 中输入了 1000 个问题,并将答案对比了官方解决方案。GPT-4 通过了所有五个测试部分,正确回答了 73.4% 的问题。不过,人工智能在处理技术性问题和包含...……更多
如何让“机器不学习”?学会“遗忘”将使新一代AI更出色
...蔽相关数据的策略。例如,微软和美国俄亥俄州立大学的研究人员在用于训练模型的数据中引入了噪音,使大模型随后输出的信息由数据中更泛化的模式,而不是特定的、可识别的例子所决定。这从理论上保证了大模型不会透露...……更多
LLM训练通信量减少10000倍!全新分布式优化器,整合世间算力训练强大AI
...重大突破,通过使用与架构和网络无关的分布式优化器,研究人员成功将训练LLM时GPU间的通信量降低了1000到10000倍!如果可以使用世界上所有的算力来训练AI模型,会怎么样?近日,凭借发布了开源的Hermes 3(基于Llama 3.1)而引...……更多
o1金牌团队揭秘AI超越人类惊人时刻!22分完整版视频全公开
...一个推理模型,也就是会比以往「思考」得更多。在OpenAI研究人员看来,「思考」就是推理的一种最直观的方式。有时候,当被问及意大利首都是什么问题时,我们几乎不用思考,即刻就能得出答案。但有时候,涉及商业企划书...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
...11402项目主页:https://nvlm-project.github.io/在模型设计方面,研究人员对纯解码器多模态大模型(如LLaVA)和基于交叉注意力的模型(如Flamingo)进行了全面对比,并根据总结出的优势和劣势,提出了一种全新架构,提升了模型的训...……更多
Meta祭出三篇最详尽Llama微调指南!千字长文,0基础小白必备
...量参数进行训练来解决这些缺陷。 微调可能有益的原型研究人员将以下场景确定为可从微调中受益的常见用例:- 语气、风格、形式定制:使用案例可能会寻求反映特定角色或服务特定受众的LLM。通过使用定制数据集对LLM进行...……更多
综合RLHF、DPO、KTO优势,统一对齐框架UNA来了
...论基础UNA 的理论基础源于对 RLHF 目标函数的重新推导。研究人员证明,给定 RLHF 的经典目标函数,最优策略可以通过一个隐式的奖励函数来诱导。该隐式奖励函数是策略模型与参考策略之间的对比结果,通过这个函数,UNA 能够...……更多
纽约大学教授 Nature 发文:为了科学界的未来
...习、项目反应理论和广义线性模型在政治科学中的应用。研究人员应该避免商用模型的诱惑,共同开发透明的大型语言模型,以确保可重复性。拥抱开源,拒绝垄断似乎每天都有一个全新的大型语言模型(LLM)推出,其创建者和学...……更多
生成式AI的抄袭输出问题值得关注(附图片)
...中均包含“screencap”。 (图片来源:IEEE Spectrum)大语言模型(LLM)在多大程度上“记住”了其训练输入内容是一直以来广受关注的问题。而最近的实证研究表明,大语言模型在某些情况下的确可以重现或者生成只包含细小差别...……更多
ChatGPT张口就来的“病”应该怎么“治”?
...。在 2021 年的一篇论文中,来自牛津大学和 OpenAI 的三位研究人员,确定了像 ChatGPT 这样的大型语言模型(LLMs)模型,可能产生的两大类虚假信息:来自于其训练数据集中不准确的源材料,如常见的错误概念,比如「吃火鸡会让...……更多
深度势能核心开发者团队发布“大原子模型计划”
...制药等领域工业微尺度设计的变革。OpenLAM计划希望未来研究人员可以一键获取任意元素组合体系的势能函数,极大地简化获取精确模型的过程,不再需要生成大量新的第一性原理计算数据,以及进一步拥有结构搜索、结构生成...……更多
OpenAI掀小模型血战!苹果DCLM强势登场,碾压Mistral 7B全开源
...在不小差距,与Mistral-7B-v0.3或Gemma 8B的分数大致相当。 研究人员发现,如果使用同一数据集中额外的100B数据进行训练,并将上下文长度扩展到8k时,模型在核心和扩展基准上的分数还会进一步提升,但MMLU结果没有变化。这个结...……更多
ai自给自足,用合成数据做训练
...人这么做了。来自香港大学、牛津大学和字节跳动的几名研究人员,决定尝试一下能否使用高质量AI合成图片,来提升图像分类模型的性能。为了避免AI合成的图像过于单一、或是质量不稳定,他们还提出了几类提升数据多样性...……更多
更多关于科技的资讯:
今天是腾讯26岁生日 官方回忆杀:你第一次用QQ、QQ秀是啥时候
快科技11月11日消息,今天不仅是双11电商购物节,还是腾讯的26岁生日。腾讯成立于1998年11月11日,由马化腾、张志东等五位创始人共同创立
2024-11-11 17:46:00
数字创新 造物未来
11月6日,2024中国电子半导体产业创新发展大会暨国际电子电路(大湾区)展览会(2024CPCAShowPlus)在深圳国际会展中心(宝安)启幕
2024-11-11 17:46:00
BBA也没逃脱:为啥第三季度很多车企赚不到钱了
这是一股冰冷的寒潮。跨国车企们,似乎一夜之间失去了钞能力,从扎堆释放的第三季度财报来看,净利润几乎都出现了断崖式下跌。对电动化比较激进的大众
2024-11-11 17:46:00
史低!AMD锐龙9000系列CPU大降价:最高降幅28%
快科技11月11日消息,锐龙9000非X30D系列的价格持续走低。最近,美国颇受消费者喜爱的零售商Microcenter已经将四款锐龙9000系列CPU的价格降到了史低
2024-11-11 17:46:00
领克首款纯电SUV内饰官宣!套内面积4.03平米 首创百变灵动岛
快科技11月11日消息,克汽车最近发布了旗下新车领克Z20的更多细节图片,揭示了其内饰的豪华配置和创新设计。据悉,领克Z20的车内空间拥有4
2024-11-11 17:46:00
动态均速214km/h!奔驰打破保时捷纯电车24小时最长行驶里程纪录
快科技11月11日消息,奔驰CLA纯电版车型的原型车最近达成了一项新的世界纪录:纯电车型24小时最长行驶里程的纪录。它的成绩是24小时连续行驶2309
2024-11-11 17:46:00
三季度全球最赚钱的十家车企:超一半利润腰斩 仅比亚迪、特斯拉逆势上涨
快科技11月11日消息,据报道,在刚刚过去的第三季度,全球主流车企普遍遇到了销量下滑,利润大降的情况。有媒体根据车企财报数据
2024-11-11 17:46:00
造物数科数智成果亮相2024电子半导体产业创新发展大会
2024年11月6日,2024电子半导体产业创新发展大会暨国际电子电路(大湾区)展览会(CPCAShowPlus2024)在深圳国际会展中心(宝安新馆)成功启幕
2024-11-11 18:01:00
特斯拉股价上周暴涨29%!市值再度突破1万亿美元
快科技11月11日消息,据媒体报道,特斯拉在电动汽车产销量的持续大幅增加推动下,曾在2021年10月成为全球首家市值超过10000亿美元的车企
2024-11-11 18:16:00
中国自主研发养鱼桶:养殖密度提高30倍 节水85%
快科技11月11日消息,华中科技大学近日发布消息称,在中国国际大学生创新大赛(2024)总决赛上,该校生命学院的“鱼多康”团队荣获“青年红色筑梦之旅”赛道金奖
2024-11-11 18:16:00
卢伟冰回应发布会上误喊3000:真不是小米15 Pro的成本价
快科技11月11日消息,此前在小米15系列发布会上,卢伟冰在公布小米15 Pro价格时,把5299元说成“3000”,然后改口“5299”
2024-11-11 18:16:00
双11进入最后冲刺阶段!iPhone 16价格出现新低:5099元起
快科技11月11日消息,今天下午,微博话题“iPhone 16价格出现新低”引发热议。据报道,一年一度的双11大促进入了最后的冲刺阶段
2024-11-11 18:46:00
曝Intel将扩大Arrow Lake台积电代工规模!应对AMD和NVIDIA竞争
快科技11月11日消息,据媒体报道,面对AMD和NVIDIA的激烈竞争,英特尔计划在2025年通过扩大与台积电的合作来提升其芯片竞争力
2024-11-11 18:46:00
本田飞度10月卖出695辆:只占比亚迪海鸥销量1/74
快科技11月11日消息,燃油车时代,如果你想花10万元买一台代步车,那么本田飞度无疑是避不开的选择,而它的销量也确实很有保障
2024-11-11 18:46:00
全白高颜值!微星MPG Z890 EDGE TI WIFI刀锋钛主板评测:一键提升10%带宽、降低10%延迟
一、前言:颜值与做工均衡的性价比Z890主板Intel新一代的桌面处理器酷睿Ultra 200S虽然在游戏性能方面不尽如人意
2024-11-11 18:46:00