• 我的订阅
  • 头条热搜
...版本升级,当前版本为DeepSeek-R1-0528,模型的思维深度与推理能力显著提升。更新后的R1模型针对议论文、小说、散文等文体进行了进一步优化,能够输出篇幅更长、结构内容更完整的长篇作品,同时呈现出更加贴近人类偏好的写...……更多
英伟达没有慌,黄仁勋再谈DeepSeek:“推理”的计算需求可能增加上百万倍
...于DeepSeek、Grok、OpenAl等冲击,AI正在从感知和生成式AI向推理和逻辑推理领域发展。而推理AI又增加了一条扩展规律——增加训练的计算能力能让模型变得更智能,而增加深度思考的计算能力则能让答案更精准,与一次性推理相比...……更多
腾讯版Sora发布即开源!130亿参数,模型权重、推理代码全开放
...,成为目前参数量最大的开源视频生成模型。模型权重、推理代码、模型算法等全部上传GitHub与Hugging Face,一点没藏着。实际效果如何呢?目前该模型已上线腾讯元宝APP,用户可在AI应用中的“AI视频”板块申请试用。API同步开...……更多
...达1000AITOPS处理能力和128GB统一内存,实现无缝模型开发和推理先进架构:NVIDIA?GB10GraceBlackwell超级芯片配备BlackwellGPU、20核ArmCPU和NVLink-C2C?技术,可有效提升AI工作负载扩展互联:配置为独立或私有云系统,以在桌面上驱动AI……更多
三个大模型组队挑战o1,实测360多模型协作干掉提示词工程
...横空出世,开启了大模型演化的新范式——Inference law(推理定律)。正如英伟达AI科学家Jim Fan所说,o1的出现标志着大模型研发者开始把集中在训练阶段的投入,开始转移到了推理过程。Jim还引用了机器学习先驱Rich Sutton的经典...……更多
“深思熟虑”的 AI:OpenAI 提出全新安全对齐方法
...方法直接教授模型安全规范,并训练它们在生成响应之前推理这些准则进,将安全原则融入推理过程中。 整个过程分为两个阶段,第一阶段,监督微调(SFT)训练模型参考并推理安全规范,使用从基础模型生成的数据集。第二...……更多
DeepSeek/o3的弱点找到了!三心二意 明明对了又改错了
DeepSeek和o1/o3一类推理大模型持续带来震撼之际,有人开始研究他们的弱点了。最新研究揭示:在遇到高难度问题时,推理大模型可能像“三心二意的学生”一样频繁切换解题思路,却因缺乏深入探索而失败——这种现象被研究...……更多
广汽宣布加入DeepSeek!覆盖昊铂、传祺、埃安三大品牌
...云端生成大模型接入DeepSeek模型,实现了原生自然的深度推理体验,并基于模型新增的强推理和反思能力,主动为客户提供更多个性化服务。这种融合使得汽车从简单的指令响应工具进化为能够预见需求的伙伴,重新定义了智能...……更多
国产大模型第一梯队玩家,为什么pick了CPU?
...占绝对大头的因素——算力。 现在提及大模型的训练和推理,很多人的第一反应或许就是想到了GPU。诚然GPU在高性能上占据着一定的优势,但它所存在“硬伤”也是比较明显,那便是供应不足、价格昂贵。何以破局?国产大模...……更多
阿里云CTO周靖人:全面投入升级AI大基建
...级从服务器到计算、存储、网络、数据处理、模型训练和推理平台的技术架构体系,让数据中心成为一台超级计算机,为每个AI和应用提供高性能、高效的算力服务。大会现场,通义大模型迎来了年度重磅发布,基础模型升级,...……更多
开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1
...设定了一个新的前沿”。Mistral Large 2尤其擅长代码和数学推理,上下文窗口128k,支持数十种自然语言以及80+编程语言。特别在MMLU上,其预训练版本更是达到了84.0%的准确率。消息一出,Mistral AI联创兼首席科学家第一时间转发,...……更多
百度发布深度思考大模型文心X1:性能对标R1,API调用价格减半
...百度首个原生多模态大模型,其多模态理解、文本和逻辑推理能力显著提升,在多项测试中表现优于GPT4.5,API调用价格仅为GPT4.5的1%;文心大模型X1为深度思考模型,性能对标DeepSeek-R1,调用价格约为R1的一半。百度方面表示,作...……更多
360智脑7b参数模型采用3.4万亿tokens训练
...AMBADA,考察的能力包括自然语言理解、知识、数学计算和推理、代码生成、逻辑推理等。其中360模型在四个评测数据集上达到第一,平均分为第三。在LongBench(多任务、中英双语、针对大语言模型长文本理解能力的评测基准)测...……更多
阿里云通义千问主力模型价格直降97%,大模型商业化拐点已至
...大模型性能逐渐提升,AI应用创新正进入密集探索期,但推理成本过高依然是制约大模型规模化应用的关键因素。云厂商的降价策略,不仅是对当前市场的一次重大推动,更是对未来商业智能化转型的一次深远布局。阿里云智能...……更多
阿里发布全球最强开源模型千问3 通义App第一时间已上线
...布的千问3开源模型包含8款不同尺寸,均为全新的“混合推理模型”,智能水平大幅提升的同时也更省算力。其中,千问3旗舰模型Qwen3-235B-A22B是一款混合专家(MoE)模型,该模型创下所有国产模型及全球开源模型的性能新高;而...……更多
智启新元年:PC成为AI落地首选终端
...了具备高性能计算能力的通用加速芯片,是大模型训练、推理的主要算力来源;云计算的发展和普及,则使软硬件充分解耦,大模型开发者可以以相对低的成本调用大规模的算力、存储和网络资源,开发进程大大加快;同时,Tra...……更多
2023IDEA大会:让大模型更好应对复杂问题
...本正经的胡说八道”怎么解?众所周之,大模型存在深度推理能力差、知识不可追溯、实时更新代价高等局限性,这也成为其在许多严肃领域落地的主要瓶颈。如何弥补大模型的这部分缺陷,是当下AI应用的重要课题。为此,IDEA...……更多
菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM
... 3.5依旧答错了。LeCun在此嘲讽大模型一番,大模型竟可以推理...?问题在于,LLM没有常识,不理解现实世界,也不会规划和推理。LLM行不行,就看提示了一位网友分析总结了,以上LLM失败的原因。他表示,LLM本身就是个「哑巴」...……更多
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
...较长的小说了。更重要的是,LLM真的能在这个长度上进行推理吗?近日,有两篇独立研究分别表明:长上下文水分很大!LLM实际上并不能「理解」内容。读小说挑战首先是来自UMass、AI2和普林斯顿的研究人员,推出了一项针对性...……更多
o1核心作者分享:激励AI自我学习,比试图教会AI每一项任务更重要
...绍下Hyung Won Chung,从公布的o1背后人员名单来看,他属于推理研究的基础贡献者。资料显示,他是MIT博士(方向为可再生能源和能源系统),去年2月加入OpenAI担任研究科学家。加入OpenAI之前,他在Google Brain负责大语言模型的预训...……更多
完美运行DeepSeek-R1 671B:摩尔线程MTT S4000通过中国信通院AI芯片和大模型适配验证
...院检测,摩尔线程自主研发的训推一体计算卡MTT S4000,在推理场景下与DeepSeek-R1 671B大模型的适配结果,符合“AI芯片和大模型通过性适配要求”,成功通过中国信通院《AI芯片和大模型适配能力通过性评测软硬件环境及测试细则...……更多
...能设备或家庭服务器上,使用存储在本地的个人数据进行推理和学习的人工智能基础模型。它不仅可以像公共大模型那样通过对话提供答案、创作内容,而且更精准、贴切,甚至根据用户的思维模式预测任务,并自主寻找解决方...……更多
摩尔线程GPU千卡集群完成师者AI 70亿参数教育大模型训练测试
...教育大模型的快速迭代,摩尔线程、师者AI还将在大模型推理上开展适配工作。摩尔线程夸娥方案是业内首个跑通、跑完国产大模型的千卡集群,基于全功能MTT S4000 GPU,提供软硬一体化的全栈解决方案,具备模型覆盖、推理加速...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
...-Vision-11B 既准确地识别出了餐厅,还提供了细致的思考与推理过程。 在 Meta 并未披露 Llama-3.2-11B-Vision-Instruct 对齐技术细节情况下,北大对齐小组愿开源数据、训练、模型、评估的全流程,为全模态对齐研究贡献力量。对齐框架...……更多
浙江省农博会12月7日开幕,今年可以囤点啥年货看这里
...最”都将一一亮相。中华绒螯蟹白壳新品系白玉蟹、五色草莓、柠檬杨梅汁、榴莲腰果等各类新产品也将登场。众多田间地头的新装备也会在本届农博会上露面。数字化牧场养殖方式是什么?将展出的智慧猪舍模型可以根据小猪...……更多
GPU训Llama 3.1疯狂崩溃,竟有大厂用CPU服务器跑千亿参数大模型?
...The」。完整的回复,花了整整20个小时熟悉模型的训练和推理的朋友都知道,这些事情一点都不奇怪。集群搭建(GPU配置、网络设计、轨道优化等)、集群管理(实时监控、故障排除等)……个个都是「拦路虎」。对于缺乏相关...……更多
通义App全面上线千问3 第一时间体验全球最强开源模型
...布的千问3开源模型包含8款不同尺寸,均为全新的“混合推理模型”,智能水平大幅提升的同时也更省算力。其中,千问3旗舰模型Qwen3-235B-A22B是一款混合专家(MoE)模型,该模型创下所有国产模型及全球开源模型的性能新高;Qwe...……更多
谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
... 2此次提供的90亿(9B)和270亿(27B)参数的两个版本,其推理性能和效率均优于第一代,并具有显著的安全性改进。事实上,270亿参数版本可以与体积超过其两倍的模型进行同等级别的竞争,并且提供了此前只有专有模型才能实...……更多
小红书技术副总裁王晓博:大模型让AI越来越像人,更懂小红书的内容与用户
...数据对用户和内容进行建模,会导致新笔记分发难,缺乏推理能力导致信息茧房等问题。在小红书的推荐系统中,率先将大模型作为笔记的语义编码器来使用,通过语义压缩提示词(prompt)结合对比学习技术,让大模型能够把笔...……更多
腾讯推出新一代大模型「混元Turbo」,性能大幅提升,定价低50%
...元Turbo”。腾讯介绍,该模型采用MoE架构,比上一代产品推理效率提升100%,推理成本降低50%,解码速度提升20%。腾讯公司副总裁、云与智慧产业事业群COO兼腾讯云总裁邱跃鹏宣布,腾讯混元Turbo在腾讯云上线,输入和输出价格只...……更多
更多关于社会的资讯:
中新经纬12月1日电 “国家医保局”微信号1日消息,医保基金作为人民群众的“看病钱”“救命钱”,绝不容许任何形式的侵占
2025-12-01 09:54:00
中国网12月1日讯据“北京发布”公众号消息,近日,一种新型网络诈骗频发——诈骗分子针对助学金、奖学金和各类补贴发放的校园场景精准施骗
2025-12-01 10:32:00
捡到装有10万现金的包裹,她报警急寻失主
大皖新闻讯 “我捡到一个包裹,里面全是钱!”近日,合肥市公安局包河分局骆岗派出所的接警电话里,传来卫大姐焦急的求助声,民警郭佳慧立即赶赴现场
2025-12-01 10:48:00
在欢笑与触摸间播种未来:陈经纶中学嘉铭分校科技节点亮孩童科学梦
2025年11月下旬,一股蓬勃的科技热浪席卷了北京市陈经纶中学嘉铭分校的五大校区。以“国之砥柱、科创未来”为主题的第二届校园科技节
2025-12-01 09:55:00
记者走基层|王洋洋的新房暖洋洋
11月25日,承德市兴隆县六道河镇六道沟村村民王洋洋在新房辅导孩子学习。 河北日报记者 冯 阳摄11月25日,走进承德市兴隆县六道河镇六道沟村村民王洋洋家
2025-12-01 08:44:00
2006条!竟有这么多成语与邯郸相关
11月30日,邯郸成语文化发展研究成果发布会现场。刘学维摄河北新闻网11月30日讯(河北日报记者刘剑英、陈正)邯郸是“中国成语典故之都”
2025-12-01 08:39:00
厦门网讯(厦门日报记者 赵张昀)在厦门,秋冬是徒步、露营的好时节,仙灵旗山、天竺山等厦门热门登山徒步路线迎来不少游人。近期
2025-12-01 08:04:00
11月29日,山西大学音乐学院舞蹈排练厅内,26名来自泰国、老挝、苏丹等国家的留学生手持彩扇、胸系花鼓,学习左权小花戏步伐“三颠步”与晋南花鼓的击鼓技巧
2025-12-01 07:23:00
中国吉林网特别报道|他带着艾滋病毒的十年,藏着年轻人该懂的真相
“你们知道这个持续检测没有病毒量,是不传染这个事情吗?”说这话的是小王(化名),站在记者面前的他神情坦然,若非他主动提起
2025-12-01 06:08:00
中国空天信息和卫星互联网创新联盟2025创新发展大会在雄安举办二十项重磅成果展现空天产业硬实力河北日报讯(见习记者康晓博)凝聚各方智慧
2025-11-30 07:40:00
60家!西安市公办养老机构名单公布
近日,西安市民政局官方网站公布了西安市公办养老机构名单。西安市公办养老机构共60家,覆盖新城区、碑林区、莲湖区、雁塔区等18个区县
2025-11-30 08:00:00
做到“老年友善”了吗?记者走访西安11家社区卫生服务中心
作为老年群体日常问诊、慢病管理、健康体检的核心阵地,社区卫生服务中心的“老年友善”建设水平,直接关系到老年人就医的便捷与安全
2025-11-30 08:01:00
清晨六点半,73岁的孙玉梅轻手轻脚地将一叠百元钞票压在餐桌的粥碗下。整整2000元,是她这个月给儿媳的“菜钱”。这样的动作
2025-11-30 08:33:00
为进一步防止倒卖 广德卡旺卡每单限购12杯
大皖新闻讯 近日,广德“三件套”火爆出圈,吸引众多游客来到广德旅游。“三件套”中,卡旺卡奶茶作为安徽本土奶茶品牌,在广德仅设一家门店
2025-11-30 11:08:00
收官不落幕・医起向未来!中欧医药中心携全球成果亮相第二十七届高交会
第二十七届中国国际高新技术成果交易会(高交会)圆满落幕。中欧医药中心首次专场参展,携全球前沿医药创新成果亮相深圳国际会展中心
2025-11-30 12:04:00