• 我的订阅
  • 头条热搜
...术成本×产品市场契合度)。在大模型时代,模型训练和推理成本构成了几乎每个创业公司都必须要面对的增长陷阱。用户增长需要优质的应用,而优质应用离不开强大的基座模型,强大基座模型的背后往往是高昂的训练成本,...……更多
Meta提出“可持续思维链”,让大模型在连续潜空间中推理
...ta 提出“可持续思维链”:让大语言模型在连续潜空间中推理GameArena:通过实时电脑游戏评估 LLM 推理想要第一时间获取每日最新大模型热门论文? 点击阅读原文,查看「2024必读大模型论文」合集,以及申请加入「大模型技术...……更多
00后华裔小哥哈佛辍学组团挑战英伟达,史上最快AI芯片Sohu推理性能超H100二十倍!
...元导读】史上最快Transformer芯片诞生了!用Sohu跑Llama 70B,推理性能已超B200十倍,超H100二十倍!刚刚,几位00后小哥从哈佛辍学后成立的公司Etached,宣布再融资1.2亿美元。有史以来最快的Transformer芯片,刚刚诞生了?去年21岁哈佛...……更多
免训练大模型知识编辑,吸收新数据更高效|EMNLP\'24
...的连续提示学习新方法,可以提高知识终身学习的编辑和推理效率。模型编辑旨在纠正大语言模型中过时或错误的知识,同时不需要昂贵的代价进行再训练。终身模型编辑是满足LLM持续编辑要求的最具挑战性的任务。之前的工作...……更多
360智脑7b参数模型采用3.4万亿tokens训练
...AMBADA,考察的能力包括自然语言理解、知识、数学计算和推理、代码生成、逻辑推理等。其中360模型在四个评测数据集上达到第一,平均分为第三。在LongBench(多任务、中英双语、针对大语言模型长文本理解能力的评测基准)测...……更多
1890美元,就能从头训练一个还不错的12亿参数扩散模型
...在训练过程中在两个损失之间进行相应的超参数调优。在推理过程中,该方法不掩蔽任何 patch。未掩蔽微调由于极高的掩蔽率会大大降低扩散模型学习图像全局结构的能力,并在序列大小上引入训练 - 测试分布偏移,因此作者考...……更多
亚马逊连甩6款大模型!推出3nm AI训练芯片,最强AI服务器算力爆表
...比,苹果已用Amazon Graviton、Inferentia等AWS芯片在机器学习推理工作负载方面实现了40%以上的效率提升,并预计在Trainium 2上预训练模型时,效率将提高50%。被亚马逊豪掷80亿美元投资的Anthropic,宣布与AWS共同构建面向机器学习训练...……更多
LeCun 的世界模型初步实现!基于预训练视觉特征,零样本规划
...常有限…… 无法理解物理世界,没有持续性记忆,不能推理(只要推理的定义是合理的)、不能规划。」Yann LeCun 批评 LLM 的推文之一相反,他更注重所谓的世界模型(World Model),也就是根据世界数据拟合的一个动态模型。比...……更多
大模型步入推理Scaling时代,SambaNova如何挑战英伟达的霸主地位
...震。o1 能像人类一样「思考」复杂问题,拥有优秀的通用推理能力。在未经专门训练的情况下,o1 能够直接拿下数学奥赛金牌,甚至能在博士级别的科学问答环节上超越人类专家。在性能跃升之外,更重要的是,它揭示了大模型...……更多
Hugging Face发布SmolVLM开源 AI 模型:20 亿参数,用于端侧推理
...lVLM AI 视觉语言模型(VLM),仅有 20 亿参数,用于设备端推理,凭借其极低的内存占用在同类模型中脱颖而出。官方表示 SmolVLM AI 模型的优点在于体积小、速度快、内存高效,并且完全开源,所有模型检查点、VLM 数据集、训练...……更多
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
...像描述性能。实验结果表明,PGv3在文本提示遵循、复杂推理和文本渲染准确率方面表现出色;用户偏好研究表明,PGv3模型在常见的设计应用中,如表情包(stickers)、海报和logo设计,具有超越人类的图形设计能力,还能够精确...……更多
大模型不会推理,为什么也能有思路?有人把原理搞明白了
大模型不会照搬训练数据中的数学推理,回答事实问题和推理问题的「思路」也不一样。大语言模型的「推理」能力应该不是推理,在今年 6 月,一篇 Nature 论文《Language is primarily a tool for communication rather than thought》曾引发……更多
万字技术干货!LLM工程师必读量化指南,可视化图解揭秘大模型如何压缩
...型的参数可能超过数十亿,通常需要显存较大的GPU来加速推理过程。因此,越来越多的研究开始关注如何缩小模型,比如改进训练方法或使用适配器。该领域的一项主要技术被称为量化(quantization)。ML工程师Maarten Grootendorst撰...……更多
芯片战场丨瞄准大模型 摩尔线程首个千卡智算中心落地
...模型智算加速卡MTT S4000,以及专为千亿参数大模型训练和推理提供支持的摩尔线程KUAE平台。近年在AI热潮之下,国内的智算中心不断兴建。根据此前国家信息中心联合浪潮信息发布的《智能计算中心创新发展指南》统计,目前全...……更多
大模型价格战谁会受益
...价值联系在一起,在他看来,大模型商业模式建立在用于推理的算力显著超过训练的算力,C(用户)端的推理成本显著低于获客成本,那时可能会产生新的商业模式,不会像现在在B(企业)端打价格战。创业公司和大公司、大...……更多
刘庆峰谈科大讯飞与华为合作:任正非高度重视,双方共同看好,非干不可
...“心中有数”,也很清楚与GPT-4在小样本快速训练、复杂推理、多模态综合使用、长文本内容等方面还有差距。“国内大模型都有不小差距,那些说跟它差不多的,我觉得还是要更客观。要有科学精神,才能真正实现从追赶到超...……更多
中国电信何忠江发布千亿参数大模型
...表示,星辰语义拥有超12亿风格数据、训练显存降低50%、推理提速4.5倍;中文意象理解生成能力提升30%,语义细粒度生成效果提升25%。在创意提效方面,星辰语义生产时间较此前生产工具减少92%,设计成本下降了95%。"总体而言,...……更多
国产大模型加速落地,争夺“中国版ChatGPT”心智定位
...技等也分别推出全新的大模型产品。李开复表示,大模型推理成本的下降会推动中国AI大模型进入”落地为王”的阶段,今年会迎来“大模型应用爆发元年”。他同时预测,明年下半年,随着大模型推理成本的大幅度下降,人们...……更多
昆仑万维:“天工大模型3.0”将于4月17日正式发布 同步开源4000亿参数MoE超级模型
...“天工2.0”MoE大模型,“天工3.0”在模型语义理解、逻辑推理、以及通用性、泛化性、不确定性知识、学习能力等领域拥有惊人的性能提升,其模型技术知识能力提升超过20%,数学/推理/代码/文创能力提升超过30%。同时,“天工...……更多
英伟达地表最强,黄教主被称作AI界“霉霉”
...来支持高达10万亿参数的AI模型训练和大语言模型的实时推理。有望在数据处理、工程模拟、电子设计自动化、计算机辅助药物设计、量子计算和生成人工智能等领域实现新的突破。用黄仁勋的原话来说,它就是“当今世界上最...……更多
精准狙击Llama 3.1?Mistral AI开源Large 2,123B媲美Llama 405B
...l Large 2,该模型拥有 1230 亿个参数,在代码生成、数学、推理等方面与 OpenAI 和 Meta 的最新尖端模型不相上下。紧随 Llama 3.1 405B 之后,Mistral Large 2 的发布让开源大模型的赛道一下子热闹起来,而这一模型的特点是 ——「足够大...……更多
轻量化模型架构catvton的优势在哪里
...分简洁高效:2个网络模块(VAE+UNet)899.06M总参数量<8G推理显存(输出图像1024×768)轻量化的架构来源于CatVTON对现有方法模块冗余的观察:基于Warping的方法依靠几何匹配对服装进行形变再利用试穿模块融合,结果生硬不自然;...……更多
李开复辟谣「掉队」传闻,零一万物推「白菜价」顶级模型
...搜索、月之暗面 Kimi 探索版,则相继推出了主打具备深度推理能力的 AI 搜索; 百川智能和阶跃星辰尚未释放进一步动作; 零一万物选择公布了最新模型进展,力破停止预训练等传言。10 月 16 日,继千亿参数模型 Yi-Large 之后,...……更多
微软开源爆火1bit大模型推理框架!千亿参数模型量化后单CPU可跑
微软开源1bit大模型推理框架!现在1000亿参数大模型量化后单CPU可跑,速度可达每秒5-7个token。就是今年爆火论文The Era of 1-bit LLMs的官方代码实现,开源不到一周GitHub已揽获7.9k Star。传统大模型参数以16位浮点数(如FP16或BF16)形...……更多
大模型重构生命科学!最大基础模型面世,解锁DNA超长序列
...,从跨模态预训练、到下游任务的微调都可以完成。而在推理端,他们为该领域量身定制地打造了生物与AI融合的计算引擎。这个值得说道说道。因为在我们日常大模型语境中,可能只需要针对AI模型本身进行推理优化,就能在...……更多
《永劫无间》手游首次将具有18亿参数的大语言模型引入终端侧
...可以大幅提升腾讯混元大模型在终端侧的运行效率,端侧推理实现首个token生成时延达到150ms,解码速率达到超过 30tokens/秒。腾讯混元大模型已为腾讯内部超过700个业务场景和C端应用提供底层技术支持,在骁龙8至尊版芯片上部...……更多
amd推出10亿参数语言模型系列amdolmo
...ens进行预训练,让模型在处理自然语言任务时具有强大的推理能力。IT之家援引新闻稿,OLMo模型采用解码器(decoder-only)架构,并通过下一个标记预测(next-tokenprediction)进行训练,这种架构在生成文本和理解上下文方面表现出...……更多
llava-1.6与gpt-4vmp面硬刚的性能,一起来看看
...率基础上,并通过改进视觉指令数据集和SGLang,提升了“推理、OCR等方面的性能”,意味着人类向AGI(通用人工智能)探索的道路上又迈进了一步。LLaVA-1.6的研发团队成员Haotian Liu在X平台发文原文 二、更适合中国人体质的GPT-4V...……更多
重磅!TeleAI 完成首个全国产化万卡万参大模型训练
...型有效训练时长占比达到 98% 以上。TeleChat-52B在OpenCampass推理榜单排名第一在今年5月的 OpenCampass 测试榜单中,TeleChat 系列模型的逻辑推理能力名列开源大模型榜单第一。作为新一代版本,TeleChat2-115B 在9月最新公布的 C-Eval ……更多
随着大模型的发展日新月异,其推理和训练的边界问题也引起了广泛讨论。近日,清程极智CEO汤雄超在一场行业活动中明确表示,尽管外界有声音认为OpenAI发布的o1模型模糊了推理和训练的界限,但从技术角度来看,这两个阶段...……更多
更多关于科技的资讯:
生产周期缩短1/3,宇捷轴承凭核心技术领跑细分市场
齐鲁晚报·齐鲁壹点 陶春燕 山东省宇捷轴承制造有限公司是国家级专精特新重点“小巨人”企业、国内最大的调心滚子轴承生产企业
2025-09-27 20:05:00
电动车照亮小区应急通道?淄博供电验证居民V2G桩集群放电场景
当小区突发故障停电,地下车库里业主们的电动汽车,瞬间变身为一个巨大“充电宝”,为消防、通风和应急照明系统供电,守护社区安全
2025-09-27 12:35:00
数字游民在南京:我推着房间找邻居
随时“云端”办公,自由“安放”工位,数字游民社区兴起数字游民在南京:我推着房间找邻居南京首个乡村数字游民社区坐落于浦口草圣书乡景区
2025-09-26 08:14:00
三迭纪项目入选国家药监局智慧监管典型案例年产3亿片!3D打印药片,片片皆可溯源南报网讯(通讯员唐斐记者张希)近日,国家药品监督管理局信息中心正式公布“2025年药品智慧监管典型案例”
2025-09-26 08:14:00
二〇二五年中国香料香精化妆品精品博览会启幕十七个香妆产业创新转化项目签约南报网讯(记者夏思宇)9月25日上午,2025年中国香料香精化妆品精品博览会在南京扬子江国际会议中心开幕
2025-09-26 08:15:00
厦门网讯(厦门日报通讯员 李汶鸿)24日,在上海市普陀区普熙金融广场PUSH艺术中心举办的“数字人民币国际运营中心业务平台推介会”上
2025-09-26 08:38:00
在智能语音机器人赛道,技术稳定性与迭代能力是核心竞争力,神州泰岳旗下鼎富智能avavox大模型语音机器人依托两大技术优势
2025-09-26 08:52:00
服务升级,烟台联通创新推出急救知识培训增值服务
近日,烟台联通在客户日活动中面向VIP客户创新开展急救知识培训公益增值服务,邀请中国红十字会专业急救讲师现场授课,通过“理论+实操”相结合的方式
2025-09-26 09:24:00
中交一公局集团建筑公司武清城改项目QC成果斩获省部级二等成果奖
近日,由中交一公局集团建筑公司武清城改项目申报的《BIM+智能设备在大型城中村改造项目施工阶段的应用》凭借在特大型群体住宅工程的应用实践
2025-09-26 10:49:00
中新经纬9月26日电 9月25日,小米集团创始人、董事长兼CEO雷军在年度演讲上回顾了小米汽车造车历程。雷军提到,今年6月
2025-09-26 10:54:00
与邻一起 共建美好社区!我爱我家首届社区好邻节启幕
近日,头部房产经纪企业我爱我家正式启动主题为“好邻·好礼·好生活”的2025我爱我家社区好邻节。据介绍,本次活动从9月22日至10月31日
2025-09-26 11:24:00
小米汽车推出独特定制服务:试运营一年,每月最多定制40台
9月25日,小米公司创始人雷军在年度演讲中宣布推出一项独特的服务——小米定制服务。雷军表示,小米YU7是为一群高审美,无法容忍平庸的人设计的
2025-09-26 11:37:00
解放双手!小米推出首款三区洗衣机,衣服、内衣、袜子各占一个筒
9月25日,在年度演讲暨秋季新品发布会上, 小米推出了首款三区洗衣机——米家三区洗衣机Pro 滚筒10kg,售价3999元
2025-09-26 11:38:00
机构:鸿蒙电脑占高端市场份额超70%
华为鸿蒙折叠电脑MateBook Fold非凡大师的上市成为改写高端笔记本市场格局的关键事件。根据GFK 2025年6月统计
2025-09-26 11:38:00
补链强基 延链拓新——济南历城绘就产业发展新图景
鲁网9月26日讯(记者 李晓晨)从算力之巅的超级计算中心到家庭智能的创新终端,从芯片封装的关键环节到水处理技术的自主研发
2025-09-26 12:03:00