边界,推理,模型,训练,推理,模型头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

昆仑万维：“天工大模型3.0”将于4月17日正式发布同步开源4000亿参数MoE超级模型

...“天工2.0”MoE大模型，“天工3.0”在模型语义理解、逻辑推理、以及通用性、泛化性、不确定性知识、学习能力等领域拥有惊人的性能提升，其模型技术知识能力提升超过20%，数学/推理/代码/文创能力提升超过30%。同时，“天工...……更多

2024-04-01 19:56:00万维,昆仑,模型,将于,同步,参数

摩尔线程GPU千卡集群完成师者AI 70亿参数教育大模型训练

...教育大模型的快速迭代，摩尔线程、师者AI还将在大模型推理上开展适配工作。摩尔线程夸娥方案是业内首个跑通、跑完国产大模型的千卡集群，基于全功能MTT S4000 GPU，提供软硬一体化的全栈解决方案，具备模型覆盖、推理加速...……更多

2024-06-14 11:37:00摩尔,师者,集群,线程,模型,训练

CMU清华教LLM练成数学高手，LeanSTaR训练模型边思

...办？CMU清华团队提出了Lean-STaR训练框架，在语言模型进行推理的每一步中都植入CoT，提升了模型的定理证明能力，成为miniF2F上的新SOTA。如果想训练LLM证明定理的能力，你会怎么做？既然模型可以通过海量语料学会生成文本，那...……更多

2024-08-10 09:47:00顶新,成数,清华,模型,训练,高手

空天信息+人工智能中国科研团队成功研发遥感智能训推一体机

...发成功一款命名为“空天·灵犀”的遥感智能训(训练)推(推理)一体机。“空天·灵犀”遥感智能训推一体机。中国科学院空天院供图“空天·灵犀”遥感智能训推一体机搭载的高精度、高时效轻量化基础模型，能够在自然资源、...……更多

2023-10-27 16:57:00空天,智能,遥感,人工智能,一体机,中国

李开复辟谣「掉队」传闻，零一万物推「白菜价」顶级模型

...搜索、月之暗面 Kimi 探索版，则相继推出了主打具备深度推理能力的 AI 搜索；百川智能和阶跃星辰尚未释放进一步动作；零一万物选择公布了最新模型进展，力破停止预训练等传言。10 月 16 日，继千亿参数模型 Yi-Large 之后，...……更多

2024-10-22 09:57:00李开复,白菜,传闻,万物,模型,顶级

轻量化模型架构catvton的优势在哪里

...分简洁高效：2个网络模块（VAE+UNet）899.06M总参数量<8G推理显存（输出图像1024×768）轻量化的架构来源于CatVTON对现有方法模块冗余的观察：基于Warping的方法依靠几何匹配对服装进行形变再利用试穿模块融合，结果生硬不自然；...……更多

2024-08-01 08:52:00架构,模型,优势,模型,训练,模块

腾讯开源最大MoE大语言模型！3D大模型同时支持文/图生成，

...型，MoE模型在相同成本下效果更优，在相同规模下训练/推理成本更低，而且容量大，可训练更多数据。当前MoE的挑战有训练稳定性差、专家负载不均衡等。一些应对方案包括：1）Scaling Law探索，设计基于中小模型簇的MoE Scaling ...……更多

2024-11-06 09:41:00模型,腾讯,全家,生成,同时,语言

智能体不够聪明怎么办？清华&蚂蚁团队：让它像学徒一样持续学习

...出的巨大潜力，而这种潜力的核心基石正是智能体的复杂推理能力。与当下广受关注的 OpenAI-o1 及其追随者略有不同，大多数实用的 AI Agent 往往需要在特定场景下发挥作用。这种情况类似于普通人类：虽然不是每个人都需要具备...……更多

2024-12-11 09:53:00清华,学徒,蚂蚁,不够,团队,怎么办

华为AI存储助力中国移动构建超大规模智算集群

...海量数据信息的投入。面对智算集群目前存在的可用度、推理体验等问题，华为推出业界首款AI存储——OceanStor A800，致力于成为支撑智算集群发展的关键基座。智算集群为千行万业发展新质生产力夯基筑石近年来，智能计算已...……更多

2024-12-19 18:16:00华为,集群,中国,中国移动,存储,规模

重磅！TeleAI 完成首个全国产化万卡万参大模型训练

...型有效训练时长占比达到 98% 以上。TeleChat-52B在OpenCampass推理榜单排名第一在今年5月的 OpenCampass 测试榜单中，TeleChat 系列模型的逻辑推理能力名列开源大模型榜单第一。作为新一代版本，TeleChat2-115B 在9月最新公布的 C-Eval ……更多

2024-09-30 09:50:00万卡,重磅,模型,国产,训练,模型

科学家推出大模型数据集，涵盖奥赛数学题，有望让AI辅导数学课

...解决复杂数学问题的能力。通过此，他们不仅提高了算法推理速度，还提高了算法搜索中间结果的质量。所新推出的数据集 TriMaster100，也更加符合算法在复杂数学问题下的评价场景。目前，赵子龙的合作者正在基于本次成果开...……更多

2024-03-13 10:26:00数学,数学题,科学家,模型,辅导,课程

连续两日逼近“20CM”涨停，南沙独角兽企业云从科技如何成为

...展开紧密协作，共同致力于本土算力和大型模型的训练与推理技术的发展。11月初，云从科技在投资者关系平台上答复投资者关心的问题时称，公司已与华为签署了全面合作框架协议，并已联合发布了从容大模型训推一体化解决...……更多

2023-11-15 10:18:00南沙,华为,独角兽,概念股,概念,科技

支持1024帧、准确率近100％，英伟达「LongVILA」

...微调，(4) LLM 的上下文扩展，以及 (5) 长监督微调。对于推理，MM-SP 解决了 KV 缓存内存使用率的挑战，这在处理非常长的序列时会成为瓶颈。通过使用 LongVILA 增加视频帧数，实验结果表明该研究在 VideoMME 和长视频字幕任务上的...……更多

2024-08-22 09:51:00英伟,准确率,支持,视频,序列,训练

阿里Qwen3登顶全球最强开源模型，用8款模型夺回中国AI话

...考两种模式。对于需要深入思考的复杂问题，模型会逐步推理，经过深思熟虑后给出最终答案。对于速度有要求的简单问题，模型则提供快速、近乎即时的响应，让用户实现对模型思考程度的控制。阿里通义团队认为，这两种模...……更多

2025-04-29 16:17:00模型,阿里,话语权,中国,话语,全球

石油巨头牵手DeepSeek

...仑大模型的问答应用“行业大家”目前已新增DeepSeek深度推理能力。用户使用“行业大家”开展行业问答时，除了可以得到昆仑大模型生成的能源化工领域专业问答结果，还能自主选择切换至“深度思考”模式，体验知识推理、...……更多

2025-02-14 22:37:00巨头,牵手,石油,沙特,模型,智能

混合架构赋予AI人类推理能力

...AI)系统在编码、战略规划和机器人科学三个领域执行复杂推理任务。聊天生成预训练转换器(ChatGPT)和“克劳德3-奥普斯”(Claude 3 Opus)等大语言模型(LLM)，根据人类输入“提示词”处理和生成文本。研究人员说，过去18个月，这些技...……更多

2024-06-12 18:15:00推理,架构,混合,人类,能力,语言

科大讯飞联手华为首次攻克全国产算力下推理模型训练难关

...15日，科大讯飞发布了当前全国产算力平台上唯一的深度推理大模型——讯飞星火X1。该模型中文数学能力国内第一，并率先应用于教育、医疗等刚需场景。同时，讯飞星火4.0 Turbo底座能力再次迎来全新升级，图文、数学和长文...……更多

2025-01-15 15:07:00讯飞,华为,难关,模型,训练,全国

云计算一哥终于搞多模态了：一口气6个大模型，还有个3nm芯片

...mazon Nova Premier：亚马逊最强多模态大模型，可处理复杂的推理任务，也可用于蒸馏客户定制化的模型。在现场，Andy也晒出了Amazon Nova在CRAG、BFCL、VisualWebBench和Mind2Web等Benchmarks上取得的分数。从成绩中不难看出，其在检索增强……更多

2024-12-05 09:45:00模态,一口,芯片,模型,一口气,亚马

360智脑7b参数模型采用3.4万亿tokens训练

...AMBADA，考察的能力包括自然语言理解、知识、数学计算和推理、代码生成、逻辑推理等。其中360模型在四个评测数据集上达到第一，平均分为第三。在LongBench（多任务、中英双语、针对大语言模型长文本理解能力的评测基准）测...……更多

2024-04-14 01:04:00模型,训练,参数,模型,文本,评测

NPU全球出货超1亿颗！芯原如何迎战大模型时代的边缘计算变革

...C9X00AI是AI-GPU/AI-PC，Tensor Core GPU IP CCTC-MP则面向大语言模型推理、训练。芯原NPU IP研发副总裁查凯南谈道，NPU的发展近年来大概有三个方向：首先是DEEP AI，在很多嵌入式设备里面，要把AI跟其它的处理IP做比较紧耦合的绑定，可以...……更多

2024-06-14 09:18:00变革,模型,边缘,时代,全球,模型

9.11和9.9哪个大？实测12个大模型8个都答错，Chat

...模型的短板，此前行业也多次讨论过大模型的数学和复杂推理能力较差，即便是目前最好的大模型GPT-4也仍然有很大进步空间。最近的一次，第一财经曾在6月报道过，根据司南评测体系OpenCompass的高考全卷测试，包括GPT-4在内，7...……更多

2024-07-17 11:56:00实测,模型,模型,数学,小数,问题

谷歌「诚意之作」，开源9B、27B版Gemma2，主打高效、

... 2此次提供的90亿（9B）和270亿（27B）参数的两个版本，其推理性能和效率均优于第一代，并具有显著的安全性改进。事实上，270亿参数版本可以与体积超过其两倍的模型进行同等级别的竞争，并且提供了此前只有专有模型才能实...……更多

2024-06-29 09:37:00诚意,经济,模型,训练,性能,注意力

大模型重构生命科学！最大基础模型面世，解锁DNA超长序列

...大模型具备了长文本读取能力，由此拓展了大模型能力的边界，更多场景得到释放，比如总结报告、故事创作，解放人们的生产力。最后，再从整个行业生态来看，百图生科已经占好生命科学AI模型提供商这一生态位—— 一边...……更多

2024-11-07 09:50:00模型,重构,生命科学,序列,生命,基础

ASC24超算大赛启动会在京举行，大模型推理等成为赛题

...在上海大学举行的总决赛。据悉，今年的赛题包括大模型推理优化、渗流数值模拟，以及国际通行基准测试HPL和HPCG等。来自高性能计算和人工智能领域的中国科学院院士、中国工程院院士、专家学者及参赛师生代表等参加了启...……更多

2024-01-07 19:35:00启动会,推理,模型,大赛,模型,上海大学

GPU训Llama 3.1疯狂崩溃，竟有大厂用CPU服务器跑

...The」。完整的回复，花了整整20个小时熟悉模型的训练和推理的朋友都知道，这些事情一点都不奇怪。集群搭建（GPU配置、网络设计、轨道优化等）、集群管理（实时监控、故障排除等）……个个都是「拦路虎」。对于缺乏相关...……更多

2024-08-02 09:47:00大厂,模型,参数,疯狂,服务器,服务

云天励飞发布14nm Chiplet大模型推理芯片

...理陈宁介绍，DeepEdge10是国内首创的国产14nm Chiplet大模型推理芯片，采用自主可控的国产工艺，内含国产RISC-V核，支持大模型推理部署。依托自研芯片DeepEdge10创新的D2D chiplet架构打造的X5000推理卡，已适配并可承载SAM CV大模型、Lla...……更多

2023-11-16 18:36:00云天,推理,芯片,模型,芯片,云天