• 我的订阅
  • 头条热搜
Meta提出“可持续思维链”,让大模型在连续潜空间中推理
...ta 提出“可持续思维链”:让大语言模型在连续潜空间中推理GameArena:通过实时电脑游戏评估 LLM 推理想要第一时间获取每日最新大模型热门论文? 点击阅读原文,查看「2024必读大模型论文」合集,以及申请加入「大模型技术...……更多
...术成本×产品市场契合度)。在大模型时代,模型训练和推理成本构成了几乎每个创业公司都必须要面对的增长陷阱。用户增长需要优质的应用,而优质应用离不开强大的基座模型,强大基座模型的背后往往是高昂的训练成本,...……更多
00后华裔小哥哈佛辍学组团挑战英伟达,史上最快AI芯片Sohu推理性能超H100二十倍!
...元导读】史上最快Transformer芯片诞生了!用Sohu跑Llama 70B,推理性能已超B200十倍,超H100二十倍!刚刚,几位00后小哥从哈佛辍学后成立的公司Etached,宣布再融资1.2亿美元。有史以来最快的Transformer芯片,刚刚诞生了?去年21岁哈佛...……更多
免训练大模型知识编辑,吸收新数据更高效|EMNLP\\\'24
...的连续提示学习新方法,可以提高知识终身学习的编辑和推理效率。模型编辑旨在纠正大语言模型中过时或错误的知识,同时不需要昂贵的代价进行再训练。终身模型编辑是满足LLM持续编辑要求的最具挑战性的任务。之前的工作...……更多
360智脑7b参数模型采用3.4万亿tokens训练
...AMBADA,考察的能力包括自然语言理解、知识、数学计算和推理、代码生成、逻辑推理等。其中360模型在四个评测数据集上达到第一,平均分为第三。在LongBench(多任务、中英双语、针对大语言模型长文本理解能力的评测基准)测...……更多
1890美元,就能从头训练一个还不错的12亿参数扩散模型
...在训练过程中在两个损失之间进行相应的超参数调优。在推理过程中,该方法不掩蔽任何 patch。未掩蔽微调由于极高的掩蔽率会大大降低扩散模型学习图像全局结构的能力,并在序列大小上引入训练 - 测试分布偏移,因此作者考...……更多
亚马逊连甩6款大模型!推出3nm AI训练芯片,最强AI服务器算力爆表
...比,苹果已用Amazon Graviton、Inferentia等AWS芯片在机器学习推理工作负载方面实现了40%以上的效率提升,并预计在Trainium 2上预训练模型时,效率将提高50%。被亚马逊豪掷80亿美元投资的Anthropic,宣布与AWS共同构建面向机器学习训练...……更多
大模型步入推理Scaling时代,SambaNova如何挑战英伟达的霸主地位
...震。o1 能像人类一样「思考」复杂问题,拥有优秀的通用推理能力。在未经专门训练的情况下,o1 能够直接拿下数学奥赛金牌,甚至能在博士级别的科学问答环节上超越人类专家。在性能跃升之外,更重要的是,它揭示了大模型...……更多
LeCun 的世界模型初步实现!基于预训练视觉特征,零样本规划
...常有限…… 无法理解物理世界,没有持续性记忆,不能推理(只要推理的定义是合理的)、不能规划。」Yann LeCun 批评 LLM 的推文之一相反,他更注重所谓的世界模型(World Model),也就是根据世界数据拟合的一个动态模型。比...……更多
Hugging Face发布SmolVLM开源 AI 模型:20 亿参数,用于端侧推理
...lVLM AI 视觉语言模型(VLM),仅有 20 亿参数,用于设备端推理,凭借其极低的内存占用在同类模型中脱颖而出。官方表示 SmolVLM AI 模型的优点在于体积小、速度快、内存高效,并且完全开源,所有模型检查点、VLM 数据集、训练...……更多
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
...像描述性能。实验结果表明,PGv3在文本提示遵循、复杂推理和文本渲染准确率方面表现出色;用户偏好研究表明,PGv3模型在常见的设计应用中,如表情包(stickers)、海报和logo设计,具有超越人类的图形设计能力,还能够精确...……更多
大模型不会推理,为什么也能有思路?有人把原理搞明白了
大模型不会照搬训练数据中的数学推理,回答事实问题和推理问题的「思路」也不一样。大语言模型的「推理」能力应该不是推理,在今年 6 月,一篇 Nature 论文《Language is primarily a tool for communication rather than thought》曾引发……更多
大模型价格战谁会受益
...价值联系在一起,在他看来,大模型商业模式建立在用于推理的算力显著超过训练的算力,C(用户)端的推理成本显著低于获客成本,那时可能会产生新的商业模式,不会像现在在B(企业)端打价格战。创业公司和大公司、大...……更多
万字技术干货!LLM工程师必读量化指南,可视化图解揭秘大模型如何压缩
...型的参数可能超过数十亿,通常需要显存较大的GPU来加速推理过程。因此,越来越多的研究开始关注如何缩小模型,比如改进训练方法或使用适配器。该领域的一项主要技术被称为量化(quantization)。ML工程师Maarten Grootendorst撰...……更多
芯片战场丨瞄准大模型 摩尔线程首个千卡智算中心落地
...模型智算加速卡MTT S4000,以及专为千亿参数大模型训练和推理提供支持的摩尔线程KUAE平台。近年在AI热潮之下,国内的智算中心不断兴建。根据此前国家信息中心联合浪潮信息发布的《智能计算中心创新发展指南》统计,目前全...……更多
刘庆峰谈科大讯飞与华为合作:任正非高度重视,双方共同看好,非干不可
...“心中有数”,也很清楚与GPT-4在小样本快速训练、复杂推理、多模态综合使用、长文本内容等方面还有差距。“国内大模型都有不小差距,那些说跟它差不多的,我觉得还是要更客观。要有科学精神,才能真正实现从追赶到超...……更多
国产大模型加速落地,争夺“中国版ChatGPT”心智定位
...技等也分别推出全新的大模型产品。李开复表示,大模型推理成本的下降会推动中国AI大模型进入”落地为王”的阶段,今年会迎来“大模型应用爆发元年”。他同时预测,明年下半年,随着大模型推理成本的大幅度下降,人们...……更多
中国电信何忠江发布千亿参数大模型
...表示,星辰语义拥有超12亿风格数据、训练显存降低50%、推理提速4.5倍;中文意象理解生成能力提升30%,语义细粒度生成效果提升25%。在创意提效方面,星辰语义生产时间较此前生产工具减少92%,设计成本下降了95%。\"总体而言...……更多
李开复辟谣「掉队」传闻,零一万物推「白菜价」顶级模型
...搜索、月之暗面 Kimi 探索版,则相继推出了主打具备深度推理能力的 AI 搜索; 百川智能和阶跃星辰尚未释放进一步动作; 零一万物选择公布了最新模型进展,力破停止预训练等传言。10 月 16 日,继千亿参数模型 Yi-Large 之后,...……更多
精准狙击Llama 3.1?Mistral AI开源Large 2,123B媲美Llama 405B
...l Large 2,该模型拥有 1230 亿个参数,在代码生成、数学、推理等方面与 OpenAI 和 Meta 的最新尖端模型不相上下。紧随 Llama 3.1 405B 之后,Mistral Large 2 的发布让开源大模型的赛道一下子热闹起来,而这一模型的特点是 ——「足够大...……更多
英伟达地表最强,黄教主被称作AI界“霉霉”
...来支持高达10万亿参数的AI模型训练和大语言模型的实时推理。有望在数据处理、工程模拟、电子设计自动化、计算机辅助药物设计、量子计算和生成人工智能等领域实现新的突破。用黄仁勋的原话来说,它就是“当今世界上最...……更多
昆仑万维:“天工大模型3.0”将于4月17日正式发布 同步开源4000亿参数MoE超级模型
...“天工2.0”MoE大模型,“天工3.0”在模型语义理解、逻辑推理、以及通用性、泛化性、不确定性知识、学习能力等领域拥有惊人的性能提升,其模型技术知识能力提升超过20%,数学/推理/代码/文创能力提升超过30%。同时,“天工...……更多
轻量化模型架构catvton的优势在哪里
...分简洁高效:2个网络模块(VAE+UNet)899.06M总参数量<8G推理显存(输出图像1024×768)轻量化的架构来源于CatVTON对现有方法模块冗余的观察:基于Warping的方法依靠几何匹配对服装进行形变再利用试穿模块融合,结果生硬不自然;...……更多
微软开源爆火1bit大模型推理框架!千亿参数模型量化后单CPU可跑
微软开源1bit大模型推理框架!现在1000亿参数大模型量化后单CPU可跑,速度可达每秒5-7个token。就是今年爆火论文The Era of 1-bit LLMs的官方代码实现,开源不到一周GitHub已揽获7.9k Star。传统大模型参数以16位浮点数(如FP16或BF16)形...……更多
大模型重构生命科学!最大基础模型面世,解锁DNA超长序列
...,从跨模态预训练、到下游任务的微调都可以完成。而在推理端,他们为该领域量身定制地打造了生物与AI融合的计算引擎。这个值得说道说道。因为在我们日常大模型语境中,可能只需要针对AI模型本身进行推理优化,就能在...……更多
《永劫无间》手游首次将具有18亿参数的大语言模型引入终端侧
...可以大幅提升腾讯混元大模型在终端侧的运行效率,端侧推理实现首个token生成时延达到150ms,解码速率达到超过 30tokens/秒。腾讯混元大模型已为腾讯内部超过700个业务场景和C端应用提供底层技术支持,在骁龙8至尊版芯片上部...……更多
llava-1.6与gpt-4vmp面硬刚的性能,一起来看看
...率基础上,并通过改进视觉指令数据集和SGLang,提升了“推理、OCR等方面的性能”,意味着人类向AGI(通用人工智能)探索的道路上又迈进了一步。LLaVA-1.6的研发团队成员Haotian Liu在X平台发文原文 二、更适合中国人体质的GPT-4V...……更多
amd推出10亿参数语言模型系列amdolmo
...ens进行预训练,让模型在处理自然语言任务时具有强大的推理能力。IT之家援引新闻稿,OLMo模型采用解码器(decoder-only)架构,并通过下一个标记预测(next-tokenprediction)进行训练,这种架构在生成文本和理解上下文方面表现出...……更多
重磅!TeleAI 完成首个全国产化万卡万参大模型训练
...型有效训练时长占比达到 98% 以上。TeleChat-52B在OpenCampass推理榜单排名第一在今年5月的 OpenCampass 测试榜单中,TeleChat 系列模型的逻辑推理能力名列开源大模型榜单第一。作为新一代版本,TeleChat2-115B 在9月最新公布的 C-Eval ……更多
随着大模型的发展日新月异,其推理和训练的边界问题也引起了广泛讨论。近日,清程极智CEO汤雄超在一场行业活动中明确表示,尽管外界有声音认为OpenAI发布的o1模型模糊了推理和训练的界限,但从技术角度来看,这两个阶段...……更多
更多关于科技的资讯:
加油站错加汽油后奔驰大G趴窝:维修需要七八十万
1月19日消息,车辆加错油品后果相当严重,运转时有可能导致发动机直接报废。据1818黄金眼报道,刘女士有一辆奔驰G 400d
2025-01-19 12:58:00
帧率暴增8倍!NVIDIA揭秘DLSS进化背后:大型超算6年全天无休工作
快科技1月19日消息,NVIDIA近日NVIDIA 揭开了DLSS使游戏帧率暴增的背后技术支持,一台专门用于持续改进DLSS技术的超级计算机
2025-01-19 13:28:00
针对近日美国商务部发布的人工智能相关出口管制临时最终规则,中国贸促会在昨天的发布会上代表中国工商界做出回应,美方再次滥用出口管制措施
2025-01-19 13:53:00
华流才是顶流:美国网友已经准备在屋前屋后种菜
快科技1月19日消息,近日疯狂涌入小红书的美国网友们已经学到了非常多的新技能,而这些,往往都由中国网友传授。近日,在美国俄勒冈州
2025-01-19 13:58:00
绝美惊艳!钱塘江涌现千姿百态“奇树”
快科技1月19日消息,近日,据媒体报道,浙江钱塘江潮退之后,涌现出了千姿百态的“奇树”!这些“参天大树”栩栩如生,是潮水与滩涂共同绘就的绝美画卷
2025-01-19 13:58:00
比亚迪腾势N7迎来OTA升级:新增城市领航与车道辅助功能
快科技1月19日消息,据媒体报道,比亚迪腾势N7近日宣布启动新年首次OTA升级。此次升级覆盖了城市领航(CNOA)、车道领航(ICC)以及自动紧急制动(AEB)等多项功能
2025-01-19 14:28:00
日产汽车全球裁员9000人 董事高管职位同步削减
快科技1月19日消息,日产汽车计划在全球范围内裁员约9000人,其中包括日本本土员工,同时将在4月对现有的63名高层管理人员进行缩减
2025-01-19 14:28:00
江西省人大代表郑波:为江西高质量发展增添“智慧引擎”
本文转自:人民网-江西频道江西省人大代表、江西迅特通信技术有限公司董事长郑波在“代表通道”上接受采访。人民网记者 时雨摄人民网南昌1月19日电(记者时雨)19日
2025-01-19 16:20:00
AI助力:男子用3000美元在家实现核聚变
快科技1月19日消息,据媒体报道,近日一位加拿大男子声称在AI的帮助下,仅花费3000 美元就在家中成功实现了核聚变。该男子化名Hudzah在其Substack上分享了实验过程
2025-01-19 10:58:00
雷军晒三十多年前“大哥大”:一台两三万 比现在的手机贵多了
快科技1月19日消息,今日,雷军在微博晒出一组“大哥大”的照片称:“大家见过最早的手机吗?三十多年前,当时叫大哥大,一台两三万
2025-01-19 10:58:00
雷军来宁德时代开着小米SU7 走的时候红光满面
快科技1月19日消息,近日,小米集团创始人兼CEO雷军亲自前往宁德时代总部进行拜访,受到了宁德时代董事长曾毓群的热情接待
2025-01-19 10:58:00
不愧是我爱的极氪
极氪系在这次懂车帝冬测里还挺给力的,冰雪弯道、70码制动等都名列前茅。我就说它家的智能驾驶很稳定吧~
2025-01-19 11:43:00
那些用开塞露涂脸的人:后来都怎么样了
关于“生活中便宜好用的护肤品”,之前我们讲了凡士林(可回顾往期文章),评论区有人问甘油,今天就来聊聊~图片来源:科普中国评论区相信很多人知道
2025-01-19 11:58:00
比亚迪多车已支持 博主:双枪充电含金量在25年会不断提升
快科技1月19日消息,对于电动车补能,目前主流的方法要么是超快充,要么是换电,也有车企有自己的坚持,比如比亚迪的双枪快充
2025-01-19 11:58:00
NVIDIA RTX 5090 Vulkan/OpenCL性能首曝!比RTX 4090提升37%
快科技1月19日消息,NVIDIA最新的GeForce RTX 5090显卡的Geekbench OpenCL和Vulkan API测试成绩首次曝光
2025-01-19 11:58:00