推理,模型,成本,参数,模型,训练头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

李开复：AI大模型产业如何找到“算力”最优解

...术成本×产品市场契合度）。在大模型时代，模型训练和推理成本构成了几乎每个创业公司都必须要面对的增长陷阱。用户增长需要优质的应用，而优质应用离不开强大的基座模型，强大基座模型的背后往往是高昂的训练成本，...……更多

2024-06-17 04:28:00李开复,模型,产业,模型,应用,万物

Meta提出“可持续思维链”，让大模型在连续潜空间中推理

...ta 提出“可持续思维链”：让大语言模型在连续潜空间中推理GameArena：通过实时电脑游戏评估 LLM 推理想要第一时间获取每日最新大模型热门论文？点击阅读原文，查看「2024必读大模型论文」合集，以及申请加入「大模型技术...……更多

2024-12-13 09:19:00推理,模型,思维,空间,模型,生成

00后华裔小哥哈佛辍学组团挑战英伟达，史上最快AI芯片Soh

...元导读】史上最快Transformer芯片诞生了！用Sohu跑Llama 70B，推理性能已超B200十倍，超H100二十倍！刚刚，几位00后小哥从哈佛辍学后成立的公司Etached，宣布再融资1.2亿美元。有史以来最快的Transformer芯片，刚刚诞生了？去年21岁哈佛...……更多

2024-06-27 09:25:00小哥,英伟,哈佛,华裔,推理,芯片

$免训练大模型知识编辑，吸收新数据更高效｜EMNLP\'24$

免训练大模型知识编辑，吸收新数据更高效｜EMNLP'24

...的连续提示学习新方法，可以提高知识终身学习的编辑和推理效率。模型编辑旨在纠正大语言模型中过时或错误的知识，同时不需要昂贵的代价进行再训练。终身模型编辑是满足LLM持续编辑要求的最具挑战性的任务。之前的工作...……更多

2024-10-30 09:57:00模型,训练,知识,数据,模型,知识

360智脑7b参数模型采用3.4万亿tokens训练

...AMBADA，考察的能力包括自然语言理解、知识、数学计算和推理、代码生成、逻辑推理等。其中360模型在四个评测数据集上达到第一，平均分为第三。在LongBench（多任务、中英双语、针对大语言模型长文本理解能力的评测基准）测...……更多

2024-04-14 01:04:00模型,训练,参数,模型,文本,评测

1890美元，就能从头训练一个还不错的12亿参数扩散模型

...在训练过程中在两个损失之间进行相应的超参数调优。在推理过程中，该方法不掩蔽任何 patch。未掩蔽微调由于极高的掩蔽率会大大降低扩散模型学习图像全局结构的能力，并在序列大小上引入训练 - 测试分布偏移，因此作者考...……更多

2024-07-30 09:37:00从头,模型,训练,参数,掩蔽,训练

亚马逊连甩6款大模型！推出3nm AI训练芯片，最强AI服务

...比，苹果已用Amazon Graviton、Inferentia等AWS芯片在机器学习推理工作负载方面实现了40%以上的效率提升，并预计在Trainium 2上预训练模型时，效率将提高50%。被亚马逊豪掷80亿美元投资的Anthropic，宣布与AWS共同构建面向机器学习训练...……更多

2024-12-05 09:47:00亚马,亚马逊,芯片,模型,训练,服务器

LeCun 的世界模型初步实现！基于预训练视觉特征，零样本规

...常有限…… 无法理解物理世界，没有持续性记忆，不能推理（只要推理的定义是合理的）、不能规划。」Yann LeCun 批评 LLM 的推文之一相反，他更注重所谓的世界模型（World Model），也就是根据世界数据拟合的一个动态模型。比...……更多

2024-11-19 09:48:00样本,模型,特征,视觉,训练,规划

大模型步入推理Scaling时代,SambaNova如何挑战

...震。o1 能像人类一样「思考」复杂问题，拥有优秀的通用推理能力。在未经专门训练的情况下，o1 能够直接拿下数学奥赛金牌，甚至能在博士级别的科学问答环节上超越人类专家。在性能跃升之外，更重要的是，它揭示了大模型...……更多

2024-10-21 09:55:00英伟,霸主,推理,模型,地位,时代

Hugging Face发布SmolVLM开源 AI 模型：

...lVLM AI 视觉语言模型（VLM），仅有 20 亿参数，用于设备端推理，凭借其极低的内存占用在同类模型中脱颖而出。官方表示 SmolVLM AI 模型的优点在于体积小、速度快、内存高效，并且完全开源，所有模型检查点、VLM 数据集、训练...……更多

2024-11-28 09:47:00推理,模型,参数,模型,吞吐量,吞吐

文生图参数量升至240亿！Playground v3发布：深

...像描述性能。实验结果表明，PGv3在文本提示遵循、复杂推理和文本渲染准确率方面表现出色；用户偏好研究表明，PGv3模型在常见的设计应用中，如表情包（stickers）、海报和logo设计，具有超越人类的图形设计能力，还能够精确...……更多

2024-10-08 09:48:00文生,图形设计,深度,图形,人类,参数

大模型不会推理，为什么也能有思路？有人把原理搞明白了

大模型不会照搬训练数据中的数学推理，回答事实问题和推理问题的「思路」也不一样。大语言模型的「推理」能力应该不是推理，在今年 6 月，一篇 Nature 论文《Language is primarily a tool for communication rather than thought》曾引发……更多

2024-11-23 09:42:00推理,模型,思路,原理,推理,模型

万字技术干货！LLM工程师必读量化指南，可视化图解揭秘大模型

...型的参数可能超过数十亿，通常需要显存较大的GPU来加速推理过程。因此，越来越多的研究开始关注如何缩小模型，比如改进训练方法或使用适配器。该领域的一项主要技术被称为量化（quantization）。ML工程师Maarten Grootendorst撰...……更多

2024-08-01 09:38:00干货,可视化,模型,工程师,指南,工程

芯片战场丨瞄准大模型摩尔线程首个千卡智算中心落地

...模型智算加速卡MTT S4000，以及专为千亿参数大模型训练和推理提供支持的摩尔线程KUAE平台。近年在AI热潮之下，国内的智算中心不断兴建。根据此前国家信息中心联合浪潮信息发布的《智能计算中心创新发展指南》统计，目前全...……更多

2023-12-20 10:52:00摩尔,线程,落地,战场,芯片,模型

大模型价格战谁会受益

...价值联系在一起，在他看来，大模型商业模式建立在用于推理的算力显著超过训练的算力，C（用户）端的推理成本显著低于获客成本，那时可能会产生新的商业模式，不会像现在在B（企业）端打价格战。创业公司和大公司、大...……更多

2024-07-08 00:43:00价格战,模型,价格,模型,价格,价格战

刘庆峰谈科大讯飞与华为合作：任正非高度重视，双方共同看好，非

...“心中有数”，也很清楚与GPT-4在小样本快速训练、复杂推理、多模态综合使用、长文本内容等方面还有差距。“国内大模型都有不小差距，那些说跟它差不多的，我觉得还是要更客观。要有科学精神，才能真正实现从追赶到超...……更多

2023-10-25 21:02:00讯飞,华为,双方,高度,合作,讯飞

中国电信何忠江发布千亿参数大模型

...表示，星辰语义拥有超12亿风格数据、训练显存降低50%、推理提速4.5倍；中文意象理解生成能力提升30%，语义细粒度生成效果提升25%。在创意提效方面，星辰语义生产时间较此前生产工具减少92%，设计成本下降了95%。"总体而言，...……更多

2023-11-11 16:50:00中国电信,中国,模型,参数,电信,模型

国产大模型加速落地，争夺“中国版ChatGPT”心智定位

...技等也分别推出全新的大模型产品。李开复表示，大模型推理成本的下降会推动中国AI大模型进入”落地为王”的阶段，今年会迎来“大模型应用爆发元年”。他同时预测，明年下半年，随着大模型推理成本的大幅度下降，人们...……更多

2024-05-07 18:33:00心智,中国,落地,模型,定位,国产

昆仑万维：“天工大模型3.0”将于4月17日正式发布同步开

...“天工2.0”MoE大模型，“天工3.0”在模型语义理解、逻辑推理、以及通用性、泛化性、不确定性知识、学习能力等领域拥有惊人的性能提升，其模型技术知识能力提升超过20%，数学/推理/代码/文创能力提升超过30%。同时，“天工...……更多

2024-04-01 19:56:00万维,昆仑,模型,将于,同步,参数

英伟达地表最强，黄教主被称作AI界“霉霉”

...来支持高达10万亿参数的AI模型训练和大语言模型的实时推理。有望在数据处理、工程模拟、电子设计自动化、计算机辅助药物设计、量子计算和生成人工智能等领域实现新的突破。用黄仁勋的原话来说，它就是“当今世界上最...……更多

2024-03-19 11:56:00英伟,地表,教主,英伟,模型,人工智能

精准狙击Llama 3.1？Mistral AI开源Larg

...l Large 2，该模型拥有 1230 亿个参数，在代码生成、数学、推理等方面与 OpenAI 和 Meta 的最新尖端模型不相上下。紧随 Llama 3.1 405B 之后，Mistral Large 2 的发布让开源大模型的赛道一下子热闹起来，而这一模型的特点是 ——「足够大...……更多

2024-07-26 09:36:00模型,基准,多语,测试,性能,生成

轻量化模型架构catvton的优势在哪里

...分简洁高效：2个网络模块（VAE+UNet）899.06M总参数量<8G推理显存（输出图像1024×768）轻量化的架构来源于CatVTON对现有方法模块冗余的观察：基于Warping的方法依靠几何匹配对服装进行形变再利用试穿模块融合，结果生硬不自然；...……更多

2024-08-01 08:52:00架构,模型,优势,模型,训练,模块

李开复辟谣「掉队」传闻，零一万物推「白菜价」顶级模型

...搜索、月之暗面 Kimi 探索版，则相继推出了主打具备深度推理能力的 AI 搜索；百川智能和阶跃星辰尚未释放进一步动作；零一万物选择公布了最新模型进展，力破停止预训练等传言。10 月 16 日，继千亿参数模型 Yi-Large 之后，...……更多

2024-10-22 09:57:00李开复,白菜,传闻,万物,模型,顶级

微软开源爆火1bit大模型推理框架！千亿参数模型量化后单CP

微软开源1bit大模型推理框架！现在1000亿参数大模型量化后单CPU可跑，速度可达每秒5-7个token。就是今年爆火论文The Era of 1-bit LLMs的官方代码实现，开源不到一周GitHub已揽获7.9k Star。传统大模型参数以16位浮点数（如FP16或BF16）形...……更多

2024-10-23 12:05:00模型,微软,推理,框架,参数,模型

大模型重构生命科学！最大基础模型面世，解锁DNA超长序列

...，从跨模态预训练、到下游任务的微调都可以完成。而在推理端，他们为该领域量身定制地打造了生物与AI融合的计算引擎。这个值得说道说道。因为在我们日常大模型语境中，可能只需要针对AI模型本身进行推理优化，就能在...……更多

2024-11-07 09:50:00模型,重构,生命科学,序列,生命,基础

《永劫无间》手游首次将具有18亿参数的大语言模型引入终端侧

...可以大幅提升腾讯混元大模型在终端侧的运行效率，端侧推理实现首个token生成时延达到150ms，解码速率达到超过 30tokens/秒。腾讯混元大模型已为腾讯内部超过700个业务场景和C端应用提供底层技术支持，在骁龙8至尊版芯片上部...……更多

2024-10-23 02:55:00终端,模型,参数,语言,高通,终端

amd推出10亿参数语言模型系列amdolmo

...ens进行预训练，让模型在处理自然语言任务时具有强大的推理能力。IT之家援引新闻稿，OLMo模型采用解码器（decoder-only）架构，并通过下一个标记预测（next-tokenprediction）进行训练，这种架构在生成文本和理解上下文方面表现出...……更多

2024-11-09 00:21:00模型,参数,语言,模型,开发者,训练

llava-1.6与gpt-4vmp面硬刚的性能，一起来看看

...率基础上，并通过改进视觉指令数据集和SGLang，提升了“推理、OCR等方面的性能”，意味着人类向AGI（通用人工智能）探索的道路上又迈进了一步。LLaVA-1.6的研发团队成员Haotian Liu在X平台发文原文二、更适合中国人体质的GPT-4V...……更多

2024-02-10 21:04:00性能,模型,模态,训练,数据,卷上

重磅！TeleAI 完成首个全国产化万卡万参大模型训练

...型有效训练时长占比达到 98% 以上。TeleChat-52B在OpenCampass推理榜单排名第一在今年5月的 OpenCampass 测试榜单中，TeleChat 系列模型的逻辑推理能力名列开源大模型榜单第一。作为新一代版本，TeleChat2-115B 在9月最新公布的 C-Eval ……更多

2024-09-30 09:50:00万卡,重磅,模型,国产,训练,模型

大模型推理与训练的边界之争

随着大模型的发展日新月异，其推理和训练的边界问题也引起了广泛讨论。近日，清程极智CEO汤雄超在一场行业活动中明确表示，尽管外界有声音认为OpenAI发布的o1模型模糊了推理和训练的界限，但从技术角度来看，这两个阶段...……更多

2024-11-07 20:18:00边界,推理,模型,训练,推理,模型