• 我的订阅
  • 头条热搜
这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct
开源模型阵营又迎来一员猛将:Tülu 3。它来自艾伦人工智能研究所(Ai2),目前包含 8B 和 70B 两个版本(未来还会有 405B 版本),并且其性能超过了 Llama 3.1 Instruct 的相应版本!长达 73 的技术报告详细介绍了后训练的细节。在...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
就在刚刚,Meta 发布了其最先进开源大型语言模型的下一代产品——Llama 3。据介绍,Llama 3 在 24K GPU 集群上训练,使用了 15T 的数据,提供了 8B 和 70B 的预训练和指令微调版本,可以支持广泛的应用。同时,Llama 3 在广泛的行业...……更多
中科大联合华为诺亚Entropy Law,揭秘大模型性能、数据压缩率
...力于推动人工智能领域的技术创新和发展。数据是大语言模型(LLMs)成功的基石,但并非所有数据都有益于模型学习。直觉上,高质量的样本在教授 LLM 上预期会有更好的效率。因此,现有方法通常专注于基于质量的数据选择。...……更多
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
... checkpoint、训练日志和训练数据都已经开源。尽管大语言模型 (LM) 在各种任务上取得了重大进展,但在训练和推理方面,性能和成本之间仍然需要权衡。对于许多学者和开发人员来说,高性能的 LM 是无法访问的,因为它们的构建...……更多
浪潮信息推出as13000g7-n系列
...步伐,于近日推出分布式全闪存储AS13000G7-N系列,专为大模型优化而设,为数据存储带来革命性的突破。该系列依托浪潮信息自研分布式文件系统,搭载新一代数据加速引擎DataTurbo,通过盘控协同、GPU直访存储、全局一致性缓存...……更多
大模型新趋势之MoE:现状、挑战及研究方向
2024年,全球主流企业加快推出MoE大模型,1-5月发布千亿以上大模型均采用MoE优化架构,且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势,更适合处理大规模数据和复杂任务,已成谷歌、OpenAI、...……更多
Llama3训练每3小时崩一次?豆包大模型、港大为脆皮万卡训练提效
伴随大模型迭代速度越来越快,训练集群规模越来越大,高频率的软硬件故障已经成为阻碍训练效率进一步提高的痛点,检查点(Checkpoint)系统在训练过程中负责状态的存储和恢复,已经成为克服训练故障、保障训练进度和提...……更多
中国最大开源MoE模型,255B参数无条件免费商用,元象发布
元象XVERSE发布中国最大MoE开源模型:XVERSE-MoE-A36B,该模型总参数255B,激活参数36B,达到100B模型性能的「跨级」跃升。同时训练时间减少30%,推理性能提升100%,使每token成本大幅下降。在多个权威评测中,元象MoE效果大幅超越多...……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
【新智元导读】谷歌DeepMind推出LLM自动评估模型FLAMe系列,FLAMe-RM-24B模型在RewardBench上表现卓越,以87.8%准确率领先GPT-4o。大语言模型都卷起来了,模型越做越大,token越来越多,输出越来越长。那么问题来了,如何有效地评估大...……更多
llava-1.6与gpt-4vmp面硬刚的性能,一起来看看
...-Plus,与GPT-4V正面硬刚,这个有着SOTA级别性能的多模态大模型真正做到了“人无我有,人有我优”。继2023年4月的初级版本、2023年10月的LLaVA-1.5之后,2024年1月31日,微软研究院又联合威斯康星大学麦迪逊分校和哥伦比亚大学的研...……更多
Meta祭出三篇最详尽Llama微调指南!千字长文,0基础小白必备
...开的彻彻底底。这不,Meta一连放出三篇技术文章,从大模型适配方法出发,介绍了:如何使用特定领域数据微调LLM,如何确定微调适配自己的用例,以及如何管理良好训练数据集的经验法则。接下来,直接进入正题。适配大模...……更多
比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型
...研究人员,利用延迟掩蔽、MoE、分层扩展等策略,将扩散模型的训练成本降到了1890美元。训练一个扩散模型要多少钱?之前最便宜的方法(Wuerstchen)用了28400美元,而像Stable Diffusion这样的模型还要再贵一个数量级。大模型时代...……更多
壁仞科技申请一种模型训练的节点组网方法及装置专利,可提高整体训练性能
...息显示,北京壁仞科技开发有限公司申请一项名为“一种模型训练的节点组网方法及装置”的专利,公开号CN 119676089 A,申请日期为2024年12月。专利摘要显示,本公开提供一种模型训练的节点组网方法及装置,其中所述方法包括...……更多
OpenAI掀小模型血战!苹果DCLM强势登场,碾压Mistral 7B全开源
【新智元导读】小模型时代来了?OpenAI带着GPT-4o mini首次入局小模型战场,Mistral AI、HuggingFace本周接连发布了小模型。如今,苹果也发布了70亿参数小模型DCLM,性能碾压Mistral-7B。小模型的战场,打起来了!继GPT-4o mini、Mistral Ne……更多
免训练大模型知识编辑,吸收新数据更高效|EMNLP\'24
让大模型能快速、准确、高效地吸收新知识!被EMNLP 2024收录的一项新研究,提出了一种检索增强的连续提示学习新方法,可以提高知识终身学习的编辑和推理效率。模型编辑旨在纠正大语言模型中过时或错误的知识,同时不需...……更多
模型即服务,卓世科技MaaS平台 2.0 正式上线
引言:MaaS(ModelasaService,模型即服务)是一种将人工智能算法模型及其相关能力封装成服务,以降低人工智能技术使用门槛、控制应用建设成本、简化系统运维管理复杂度,并提升人工智能技术的综合应用效能的模式。 上新了...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了LLM骨干模型,特别是在文本数学和编码基准测试中,平均准确率提高了4.3个百分点。文本...……更多
1890美元,就能从头训练一个还不错的12亿参数扩散模型
...只用1890美元、3700 万张图像,就能训练一个还不错的扩散模型。现阶段,视觉生成模型擅长创建逼真的视觉内容,然而从头开始训练这些模型的成本和工作量仍然很高。比如 Stable Diffusion 2.1 花费了 200000 个 A100 GPU 小时。即使研...……更多
大模型时代结束?大佬齐预测:AI模型或需先缩小规模,才能再次扩大规模
【新智元导读】小模型强势来袭,「大模型时代」或将落幕?「小模型周」过去了 ,小模型的最新战场才刚刚开辟。上周GPT-4o mini和Mistral NeMo二连发,「麻雀虽小,五脏俱全」的小模型成为业界大佬密切关注的新方向。 这么说...……更多
具身智能竞速时刻,百度百舸提供全栈加速方案
...晰。每一家企业都面临着同样的核心命题:如何将前沿的模型能力,转化为在真实世界各类场景中可规模化应用落地的机器人产品?这背后,是研发团队对模型迭代速度的极致追求。企业亟需突破算力瓶颈、简化工程复杂性、缩...……更多
将偏好学习引入模型训练,北大李戈团队提出代码生成优化新框架
代码模型SFT对齐后,缺少进一步偏好学习的问题有解了。北大李戈教授团队与字节合作,在模型训练过程中引入偏好学习,提出了一个全新的代码生成优化框架——CodeDPO。在部分模型上,相比于单独使用SFT,CodeDPO能够将模型的...……更多
微美全息(NASDAQ:WIMI)将迁移学习引入到语义分割模型,实现高质量的语义分割任务
...景理解、图像分析、机器人感知和图像分割等。语义分割模型是计算机视觉领域中的一种模型,旨在将图像中的每个像素分配给特定的语义类别。与传统的图像分类模型只能给整个图像分配一个类别不同,语义分割模型能够为图...……更多
...外版美国斯坦福大学等机构研究团队近日宣布,在基座大模型基础上,仅耗费数十美元就开发出相对成熟的推理模型。尽管其整体性能尚无法比肩美国开放人工智能研究中心(OpenAI)开发的o1、中国深度求索公司的DeepSeek-R1等,...……更多
ai自给自足,用合成数据做训练
...定尝试一下能否使用高质量AI合成图片,来提升图像分类模型的性能。为了避免AI合成的图像过于单一、或是质量不稳定,他们还提出了几类提升数据多样性和可靠性的方法,帮助AI合成更好的数据集(来喂给AI的同类doge)。结果...……更多
苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果
苹果最新杀入开源大模型战场,而且比其他公司更开放。推出7B模型,不仅效果与Llama 3 8B相当,而且一次性开源了全部训练过程和资源。要知道,不久前Nature杂志编辑Elizabeth Gibney还撰文批评:许多声称开源的AI模型,实际上在...……更多
没有这些,别妄谈做 ChatGPT 了
...在用行动来表明战斗力,比如前些天复旦大学推出的 MOSS 模型,一经开放试用,便冲上热搜。一时间眼花缭乱,让人生疑。有钱就能训出模型?以美团大佬带资入组为代表,很多创业者和投资人盯上了 ChatGPT,作为一个 NLPer,我...……更多
OpenCity大模型预测交通路况,零样本下表现出色,来自港大百度
长时间交通状况预测,可以用大模型实现了。香港大学联合华南理工大学和百度,推出了长时间城市交通预测模型——OpenCity。而且泛化能力极强,可有效应用于广泛的交通预测场景。为了解决传统交通预测模型泛化性及长期预...……更多
微软、英伟达纷纷押注小模型,大模型不香了?
...发展的道路上,科技巨头们曾经竞相开发规模庞大的语言模型,但如今出现了一种新趋势:小型语言模型(SLM)正逐渐崭露头角,挑战着过去“越大越好”的观念。视觉中国当地时间8月21日,微软和英伟达相继发布了最新的小型...……更多
NeurIPS 2024 | FaceChain团队新作,开源拓扑对齐人脸表征模型
...直在进行深入研究。采用了新一代的 Transformer 人脸表征模型 TransFace 后,FaceChain 去年也是推出了 10s 直接推理的人物写真极速生成工作,FaceChain-FACT。继 TransFace 之后,FaceChain 团队最近被机器学习顶级国际会议 NeurI……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...这是该团队在继 PMC-LLaMA 后,在持续构建开源医疗语言大模型的最新进展。该项目受到科创 2030—“新一代人工智能” 重大项目支持。在医疗领域中,大语言模型已经有了广泛的研究。然而,这些进展主要依赖于英语的基座模型...……更多
更多关于科技的资讯:
今年以来,肥乡联社将线上贷款营销作为零售信贷破局增长、优化信贷业务格局的关键举措,通过多维度发力,不断提升线上贷款办理效率与客户体验
2025-09-09 16:56:00
鲁网9月9日讯为深入贯彻落实市委、市政府提振消费决策部署,邮储银行滨州市分行主动对接“购在中国・精品购物齐鲁汇暨滨州活力之夏消费季”活动
2025-09-09 16:57:00
锁定10月北京 首个U宠生活方式展UPET内容大餐已就位
金秋十月,不可错过的宠物行业新概念展——Upet有宠生活展 北京首个城区宠展充满创新基因的Upet有宠生活展,将于10月24-26日
2025-09-09 11:38:00
智能制造重塑生产模式——辛集省级先进智能工厂一线观察
近日,河北省工业和信息化厅公布2025年第一批先进级智能工厂名单,辛集市澳森特钢集团有限公司、河北申科电子股份有限公司
2025-09-09 11:38:00
中国AI云市场报告:阿里云占比35.8%,高于2到4名的总和
9月9日,国际权威市场调研机构英富曼(Omdia)发布《中国AI云市场,1H25》报告,报告显示,2025年上半年,中国AI云市场规模达223亿元
2025-09-09 11:45:00
京东户外出游季正式开启 携手迪卡侬、牧高笛等带来大牌爆品不止5折
金秋时节天朗气清,正是奔赴户外探索自然的好时机。9月8日起,京东户外装备出游季正式开启,携手迪卡侬、喜德盛、牧高笛、挪客
2025-09-09 11:49:00
【宅男财经|专家面对面】9月8日,媒体获悉,小米公司发布内部公告称,中国区市场部员工王腾,泄露公司机密信息,且存在利益冲突等严重违规违纪行为
2025-09-09 12:13:00
8月12日,位于宁晋县的河北童泰电子商务有限公司内,各式各样的儿童服装整齐摆放,款式新颖,直播间的工作人员正对着镜头推介婴幼儿连体衣和包臀衣
2025-09-09 12:23:00
鲁网9月9日讯水流悄无声息地通过测量管道,水表内的换能器就能精准地发射、接收超声波信号,并对接收到的数据进行智能处理和分析
2025-09-09 13:18:00
一台绘蜡机 绘出蜡染新风采
9月5日,走进位于凯里市民族文化创意产业园的初色东方(贵州)品牌运营管理有限公司,凯里市蜡染传承人靳秀丽正在操作绘蜡设备
2025-09-09 13:24:00
2025亚太机器人世界杯青岛国际邀请赛在青举行
齐鲁晚报·齐鲁壹点 徐润杰 杨雪 通讯员 杨治峰9月6日至9日,作为2025海洋合作发展论坛的同期活动,2025亚太机器人世界杯青岛国际邀请赛在青岛西海岸新区举行
2025-09-09 09:37:00
电网运行风险防御技术与装备全国重点实验室:他们在!大停电多年未遇,“网”自岿然不动编者按科技改变世界,而位于各大高校院所
2025-09-09 07:43:00
由十几人紧盯变一两人巡检,5G+智能产线“显神通”一根头发丝的1/7!滑块南京造,精度航天级□南京日报/紫金山新闻记者黄琳燕走进南京工艺装备制造股份有限公司(以下简称“南京工艺”)的“5G+智能滑块生产线”车间
2025-09-09 07:43:00
尚诗颖 南昌市新建区象山初级中学摘要:人工智能为中学生外语教育领域引入了新的变革与视角,着重关注学生个性化学习需求及自主学习能力的培养
2025-09-09 06:59:00
共创优质产品体验,从“MagicOS创享家”看荣耀的“听劝”哲学
摘要:以“听劝”的姿态持续进化,才是产品迭代的核心价值坐标。8月底,成都宽窄巷子又一次“出圈”了。年轻人能听Live现场
2025-09-08 08:19:00