• 我的订阅
  • 头条热搜
这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct
开源模型阵营又迎来一员猛将:Tülu 3。它来自艾伦人工智能研究所(Ai2),目前包含 8B 和 70B 两个版本(未来还会有 405B 版本),并且其性能超过了 Llama 3.1 Instruct 的相应版本!长达 73 的技术报告详细介绍了后训练的细节。在...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
就在刚刚,Meta 发布了其最先进开源大型语言模型的下一代产品——Llama 3。据介绍,Llama 3 在 24K GPU 集群上训练,使用了 15T 的数据,提供了 8B 和 70B 的预训练和指令微调版本,可以支持广泛的应用。同时,Llama 3 在广泛的行业...……更多
中科大联合华为诺亚Entropy Law,揭秘大模型性能、数据压缩率
...力于推动人工智能领域的技术创新和发展。数据是大语言模型(LLMs)成功的基石,但并非所有数据都有益于模型学习。直觉上,高质量的样本在教授 LLM 上预期会有更好的效率。因此,现有方法通常专注于基于质量的数据选择。...……更多
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
... checkpoint、训练日志和训练数据都已经开源。尽管大语言模型 (LM) 在各种任务上取得了重大进展,但在训练和推理方面,性能和成本之间仍然需要权衡。对于许多学者和开发人员来说,高性能的 LM 是无法访问的,因为它们的构建...……更多
浪潮信息推出as13000g7-n系列
...步伐,于近日推出分布式全闪存储AS13000G7-N系列,专为大模型优化而设,为数据存储带来革命性的突破。该系列依托浪潮信息自研分布式文件系统,搭载新一代数据加速引擎DataTurbo,通过盘控协同、GPU直访存储、全局一致性缓存...……更多
大模型新趋势之MoE:现状、挑战及研究方向
2024年,全球主流企业加快推出MoE大模型,1-5月发布千亿以上大模型均采用MoE优化架构,且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势,更适合处理大规模数据和复杂任务,已成谷歌、OpenAI、...……更多
Llama3训练每3小时崩一次?豆包大模型、港大为脆皮万卡训练提效
伴随大模型迭代速度越来越快,训练集群规模越来越大,高频率的软硬件故障已经成为阻碍训练效率进一步提高的痛点,检查点(Checkpoint)系统在训练过程中负责状态的存储和恢复,已经成为克服训练故障、保障训练进度和提...……更多
中国最大开源MoE模型,255B参数无条件免费商用,元象发布
元象XVERSE发布中国最大MoE开源模型:XVERSE-MoE-A36B,该模型总参数255B,激活参数36B,达到100B模型性能的「跨级」跃升。同时训练时间减少30%,推理性能提升100%,使每token成本大幅下降。在多个权威评测中,元象MoE效果大幅超越多...……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
【新智元导读】谷歌DeepMind推出LLM自动评估模型FLAMe系列,FLAMe-RM-24B模型在RewardBench上表现卓越,以87.8%准确率领先GPT-4o。大语言模型都卷起来了,模型越做越大,token越来越多,输出越来越长。那么问题来了,如何有效地评估大...……更多
llava-1.6与gpt-4vmp面硬刚的性能,一起来看看
...-Plus,与GPT-4V正面硬刚,这个有着SOTA级别性能的多模态大模型真正做到了“人无我有,人有我优”。继2023年4月的初级版本、2023年10月的LLaVA-1.5之后,2024年1月31日,微软研究院又联合威斯康星大学麦迪逊分校和哥伦比亚大学的研...……更多
Meta祭出三篇最详尽Llama微调指南!千字长文,0基础小白必备
...开的彻彻底底。这不,Meta一连放出三篇技术文章,从大模型适配方法出发,介绍了:如何使用特定领域数据微调LLM,如何确定微调适配自己的用例,以及如何管理良好训练数据集的经验法则。接下来,直接进入正题。适配大模...……更多
比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型
...研究人员,利用延迟掩蔽、MoE、分层扩展等策略,将扩散模型的训练成本降到了1890美元。训练一个扩散模型要多少钱?之前最便宜的方法(Wuerstchen)用了28400美元,而像Stable Diffusion这样的模型还要再贵一个数量级。大模型时代...……更多
OpenAI掀小模型血战!苹果DCLM强势登场,碾压Mistral 7B全开源
【新智元导读】小模型时代来了?OpenAI带着GPT-4o mini首次入局小模型战场,Mistral AI、HuggingFace本周接连发布了小模型。如今,苹果也发布了70亿参数小模型DCLM,性能碾压Mistral-7B。小模型的战场,打起来了!继GPT-4o mini、Mistral Ne……更多
模型即服务,卓世科技MaaS平台 2.0 正式上线
引言:MaaS(ModelasaService,模型即服务)是一种将人工智能算法模型及其相关能力封装成服务,以降低人工智能技术使用门槛、控制应用建设成本、简化系统运维管理复杂度,并提升人工智能技术的综合应用效能的模式。 上新了...……更多
免训练大模型知识编辑,吸收新数据更高效|EMNLP\\\'24
让大模型能快速、准确、高效地吸收新知识!被EMNLP 2024收录的一项新研究,提出了一种检索增强的连续提示学习新方法,可以提高知识终身学习的编辑和推理效率。模型编辑旨在纠正大语言模型中过时或错误的知识,同时不需...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了LLM骨干模型,特别是在文本数学和编码基准测试中,平均准确率提高了4.3个百分点。文本...……更多
大模型时代结束?大佬齐预测:AI模型或需先缩小规模,才能再次扩大规模
【新智元导读】小模型强势来袭,「大模型时代」或将落幕?「小模型周」过去了 ,小模型的最新战场才刚刚开辟。上周GPT-4o mini和Mistral NeMo二连发,「麻雀虽小,五脏俱全」的小模型成为业界大佬密切关注的新方向。 这么说...……更多
1890美元,就能从头训练一个还不错的12亿参数扩散模型
...只用1890美元、3700 万张图像,就能训练一个还不错的扩散模型。现阶段,视觉生成模型擅长创建逼真的视觉内容,然而从头开始训练这些模型的成本和工作量仍然很高。比如 Stable Diffusion 2.1 花费了 200000 个 A100 GPU 小时。即使研...……更多
将偏好学习引入模型训练,北大李戈团队提出代码生成优化新框架
代码模型SFT对齐后,缺少进一步偏好学习的问题有解了。北大李戈教授团队与字节合作,在模型训练过程中引入偏好学习,提出了一个全新的代码生成优化框架——CodeDPO。在部分模型上,相比于单独使用SFT,CodeDPO能够将模型的...……更多
微美全息(NASDAQ:WIMI)将迁移学习引入到语义分割模型,实现高质量的语义分割任务
...景理解、图像分析、机器人感知和图像分割等。语义分割模型是计算机视觉领域中的一种模型,旨在将图像中的每个像素分配给特定的语义类别。与传统的图像分类模型只能给整个图像分配一个类别不同,语义分割模型能够为图...……更多
苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果
苹果最新杀入开源大模型战场,而且比其他公司更开放。推出7B模型,不仅效果与Llama 3 8B相当,而且一次性开源了全部训练过程和资源。要知道,不久前Nature杂志编辑Elizabeth Gibney还撰文批评:许多声称开源的AI模型,实际上在...……更多
OpenCity大模型预测交通路况,零样本下表现出色,来自港大百度
长时间交通状况预测,可以用大模型实现了。香港大学联合华南理工大学和百度,推出了长时间城市交通预测模型——OpenCity。而且泛化能力极强,可有效应用于广泛的交通预测场景。为了解决传统交通预测模型泛化性及长期预...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...这是该团队在继 PMC-LLaMA 后,在持续构建开源医疗语言大模型的最新进展。该项目受到科创 2030—“新一代人工智能” 重大项目支持。在医疗领域中,大语言模型已经有了广泛的研究。然而,这些进展主要依赖于英语的基座模型...……更多
微软、英伟达纷纷押注小模型,大模型不香了?
...发展的道路上,科技巨头们曾经竞相开发规模庞大的语言模型,但如今出现了一种新趋势:小型语言模型(SLM)正逐渐崭露头角,挑战着过去“越大越好”的观念。视觉中国当地时间8月21日,微软和英伟达相继发布了最新的小型...……更多
NeurIPS 2024 | FaceChain团队新作,开源拓扑对齐人脸表征模型
...直在进行深入研究。采用了新一代的 Transformer 人脸表征模型 TransFace 后,FaceChain 去年也是推出了 10s 直接推理的人物写真极速生成工作,FaceChain-FACT。继 TransFace 之后,FaceChain 团队最近被机器学习顶级国际会议 NeurI……更多
AI大模型行业报告:大模型发展迈入爆发期,开启AI新纪元(附下载)
技术:大模型发展呈现“规模定律”,Transformer为技术基座1.1 大模型“大力出奇迹”的背后:Scaling Law大规模语言模型(Large Language Models,LLM)泛指具有超大规模参数或者经过超大规模数据训练所得到的语言模型。与传统语言模...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...况,这一举动引起了业界的广泛关注。然而,在视觉语言模型的角逐中,谷歌也不甘示弱。 近日,Google Research、Google DeepMind 和 Google Cloud 共同推出了一个更小、更快、更强大的视觉语言模型(VLM)——PaLI-3,该模型与相似的体...……更多
谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
...著的能力跟进,可见其技术发展与创新的潜力。除了Gemini模型外,Gemma这一系列轻量级的SOTA开放模型似乎与我们距离更近。它基于Gemini模型相同的研究和技术构建,旨在让每个人都拥有构建AI的工具。谷歌持续扩展Gemma家族,包...……更多
谷歌 AI 推出 CardBench 评估框架
...用的基数估计技术,依赖于启发式(Heuristic)方法和简化模型,例如假设数据统一和列独立。这些方法虽然计算效率高,但往往需要准确预测基数,在涉及多个表和过滤器的复杂查询中表现尤为明显。最新的数据驱动方法试图在...……更多
CMU清华教LLM练成数学高手,LeanSTaR训练模型边思考边证明,登顶新SOTA
...学生怎么办?CMU清华团队提出了Lean-STaR训练框架,在语言模型进行推理的每一步中都植入CoT,提升了模型的定理证明能力,成为miniF2F上的新SOTA。如果想训练LLM证明定理的能力,你会怎么做?既然模型可以通过海量语料学会生成...……更多
更多关于科技的资讯:
明星大咖云集:央视跨年晚会节目单公布
12月31日消息,据媒体报道,《启航2025——中央广播电视总台跨年晚会》节目单正式出炉,这档晚会将于晚上8点正式播出
2024-12-31 18:41:00
卫星直击179人遇难的韩国济州空难:机场大片被熏黑
当地时间2024年12月29日上午9时许,韩国济州航空公司一架客机在降落中飞机发生鸟击,降落时冲出跑道,与跑道尽头的围墙等设施发生碰撞
2024-12-31 18:41:00
抖音李亮:字节70亿美元购买英伟达芯片不实 张一鸣从未参与算力采购和数据中心建设
快科技12月31日消息,针对今日媒体报道的字节跳动70亿美元购买英伟达芯片的消息,抖音集团副总裁李亮回应称,相关报道多处不实且数字不准确
2024-12-31 18:41:00
华为鸿蒙智行官宣入驻天猫京东!全系车型都将上架
快科技12月31日消息,今天鸿蒙智行官方宣布入驻天猫、京东两大电商平台,对应的官方旗舰店也在今天正式开业。店铺内上架了包含近期刚上市的享界S9
2024-12-31 18:41:00
胖东来:明日起 自有品牌部分商品调整为同城线上限购销售
快科技12月31日消息,据媒体报道,今日,胖东来发布通知称,胖东来超市自有品牌部分商品调整为同城线上限购销售,凭会员账号每周每个单品按照限购数量购买一次
2024-12-31 18:41:00
沪渝蓉沿江高铁最后一段宜昌至涪陵正式开工:全程时速350公里
国铁集团官方宣布,12月31日,赶在2024年的最后一天,沪渝蓉沿江高铁宜昌至涪陵段(沿江高铁宜涪段)正式开工建设!沿江高铁宜涪段起自在建的沪渝蓉沿江高铁武汉至宜昌段宜昌北站
2024-12-31 19:12:00
赵明:荣耀12月海外销量占比突破50%!真正成为国际化企业
快科技12月31日消息,今天,荣耀CEO赵明在微博上发布了管理团队新年致辞。赵明透露,在今年12月,荣耀的海外销量占比突破50%
2024-12-31 19:12:00
大嘴猴5A级抗菌秋裤到手19元:锁温保暖 赠退货宝
大嘴猴5A秋裤原价46元,下单领取优惠券,到手价为19元。购买链接:天猫(券后19元)这款秋裤采用远红外热感升温科技,面料纤维吸收远红外线光波
2024-12-31 19:12:00
售价1.5亿!宝骏E100计划登陆越南:将成当地市场最便宜的车
快科技12月31日消息,据媒体报道,TMT汽车与上汽通用五菱合资公司达成协议,将三款小型低成本电动汽车Baojun Yep
2024-12-31 19:12:00
购物狂欢、电音跨年、烟花秀……元旦假期济南商场活动缤纷来袭
元旦假期,济南多家商场购物中心不断“上新”,超多福利与精彩活动吸引潮流一代前往现场打卡。消费抽大奖、DJ电音倒数跨年、新春启幕跑
2024-12-31 19:21:00
近日,交通运输部科技司组织综合交通运输大数据专项交通强国建设试点两项试点任务验收工作,高德地图承担的“综合交通大数据提升综合交通运输服务便捷化”任务顺利通过验收
2024-12-31 19:38:00
美女COS《剑星》伊芙:身材完美还原
日前,国外美女@Abi Aikou分享了其COS《剑星》伊芙的最新作品。据称服装灵感来自游戏更新的假日兔子战衣,这套服装完美的展示了Coser的性感身材
2024-12-31 19:42:00
罗技ERGO M575 S鼠标首发269元:配备无线轨迹球
快科技12月31日消息,罗技ERGO M575 S鼠标目前已经上市,首发269元。据介绍,罗技ERGO M575 S由罗技Ergo Lab的专家开发研制
2024-12-31 19:42:00
四川一长寿老人喜迎124岁生日:现已六世同堂 每天必食用猪油
快科技12月31日消息,据媒体报道,今日,在四川省南充市南部县花罐镇柴氏祠村,一位名叫邱柴氏老人迎来她的124岁生日。据了解
2024-12-31 19:42:00
2149元 蓝戟Intel Arc B580 Tri OC显卡终于开售!目前仅在中国销售
快科技12月31日消息,前不久蓝戟正式发布了全新Intel Arc 580系列显卡,共推出了ARC B580 PHOTON
2024-12-31 19:42:00