• 我的订阅
  • 头条热搜
...测中,它的综合能力逼近当时的顶尖大模型,尤其在逻辑推理和数学题上展现出强劲性能,而且它的成本要远低于作比较的其他大模型。更令圈内研究者惊喜的,是它在训练方式上的简化。以往的模型在提升推理能力时,通常依...……更多
用60%成本干80%的事,DeepSeek分享沉淀多年的高性能深度学习架构
...包括一些降低计算 - 存储整合网络中信息拥堵的方法、高吞吐量分布式文件系统 3FS 以及一个时间共享式调度平台 HAI Platform。最后,他们验证了这整套设计的稳定性和稳健性。下图总结了他们在 2023-2024 年遇到的内存和网络故障...……更多
整合长期记忆,AI实现自我进化,探索大模型这一可能性
...也能让模型在处理长期、分散和个性化的数据时逐步提升推理和学习能力。用 LTM 数据提升模型能力,使其能够自我进化在传统 LLM 中,更新模型通常需要调整所有参数,而如果目的是处理个体数据,那这种操作明显不切实际。...……更多
零一万物Yi-1.5来了,国产开源大模型排行榜再次刷新
... Yi-1.0 的持续预训练版本,使用 500B 个 token 来提高编码、推理和指令执行能力,并在 300 万个指令调优样本上进行了精细调整。刚一发布,就已经有开发者跃跃欲试:并收获了好评: 与前序模型相比,Yi-1.5 系列模型进一步提升...……更多
大模型降价背后,国产大模型的竞争逻辑变了
...市场拱手让人。另一方面,随着大模型产业的快速发展,推理成本飞速下降,也成为终端降价的基础。据百度官方透露,相比一年前,文心大模型的算法训练效率提升到了原来的5.1倍,周均训练有效率达到98.8%,推理性能提升了1...……更多
开源社区分水岭:Meta大模型Llama 3发布,参数最高或达4000亿
...行业基准测试上展现了最先进的性能,提供了包括改进的推理能力在内的新功能,是目前市场上最好的开源大模型。在架构层面,Llama3选择了标准的仅解码(decoder-only)式Transformer架构,采用包含128K token词汇表的分词器。Llama 3...……更多
万字技术干货!LLM工程师必读量化指南,可视化图解揭秘大模型如何压缩
...型的参数可能超过数十亿,通常需要显存较大的GPU来加速推理过程。因此,越来越多的研究开始关注如何缩小模型,比如改进训练方法或使用适配器。该领域的一项主要技术被称为量化(quantization)。ML工程师Maarten Grootendorst撰...……更多
...天凌晨,阿里巴巴又默默干了件大事:发布并开源全新的推理模型通义千问QwQ-32B。千问QwQ-32B是阿里探索推理模型的最新成果。通过大规模强化学习,它在数学、代码及通用能力上实现质的飞跃,整体性能比肩DeepSeek-R1。在保持...……更多
滨州移动织就“数字救援网”,赋能红十字演练通信零死角
...时小区21个,实现重点区域网络容量提升4倍,单小区峰值吞吐量达1.2Gbps,确保救援指令传输、无人机视频回传、单兵终端通信等关键业务零延迟、零丢包。智能监控,打造秒级响应中枢:演练期间,滨州移动构建“前后台联动...……更多
国产模型指令跟随全球第一!来自LeCun亲推的最难作弊LLM新榜单
...训练。 故而,Step-2总参数量达到万亿级别,每次训练或推理所激活的参数量也超过了市面上的大部分Dense模型。此外,Step-2的训练过程中,阶跃的系统团队突破了6D并行、极致显存管理、完全自动化运维等关键技术,支撑起了整...……更多
开源社区参数量最大的文生视频模型来了,腾讯版Sora免费使用
...的开源模型,开发者及企业无需从头训练,即可直接用于推理,并可基于腾讯混元系列打造专属应用及服务,能够节约大量人力及算力。同时,各大模型研发团队均可基于腾讯混元模型进行研究与创新,加速行业创新步伐。据技...……更多
DeepSeek开源惠四方(科技名家笔谈)
...与OpenAI发布ChatGPT3.5相提并论。DeepSeek以高效率、低成本的推理模型和开源的商业模式走出一条发展人工智能的新路。 坚持历史视角准确看待价值准确认识DeepSeek的价值和贡献,必须坚持历史视角,将其放在人工智能创新发展的...……更多
手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态
...类模型低 75%。端侧友好:量化后端侧内存仅占 6 GB;端侧推理速度高达 18 tokens/s,相比上代模型快 33%。并且发布即支持 llama.cpp、ollama、vllm 推理;且支持多种语言。统一高清框架,高效能力一拖三:小钢炮的传统优势 OCR 能力延...……更多
中国首个音乐SOTA模型「天工音乐大模型」今日公测
...全球最大的开源MoE大模型。「天工3.0」在语义理解、逻辑推理、通用性、泛化性、不确定性知识、学习能力等领域拥有突破性的性能提升,数学/推理/代码/文创能力提升超过30%。 (天工3.0模型参数超越Grok-1,成全球最大开源MoE...……更多
完美运行DeepSeek-R1 671B:摩尔线程MTT S4000通过中国信通院AI芯片和大模型适配验证
...院检测,摩尔线程自主研发的训推一体计算卡MTT S4000,在推理场景下与DeepSeek-R1 671B大模型的适配结果,符合“AI芯片和大模型通过性适配要求”,成功通过中国信通院《AI芯片和大模型适配能力通过性评测软硬件环境及测试细则...……更多
美股异动丨金山云一度涨超13% 小米首个推理大模型MiMo开源
...收涨14.2%,报7.4港元。消息面上,今天,小米开源首个为推理(Reasoning)而生的大模型“Xiaomi MiMo”,联动预训练到后训练,全面提升推理能力。 在数学推理(AIME 24-25)和代码竞赛(LiveCodeBench v5)公开测评集上,MiMo仅用7B的参数规模,...……更多
百川智能、阿里云等进入开源大模型领域,开启商业化前奏
...用于自身业务优化并对外开放合作。 大模型分为训练和推理两个过程,前者将大模型训练成型,后者即为应用。由于训练大模型需极大算力,开发成本高昂,业界多有关于不需“重复造轮”的讨论。例如,入场做大模型后,百...……更多
NVIDIA RTX显卡AI推理提速5倍!
...得更好的加速和应用。其中,TensorRT-LLM是一款用于加速LLM推理的库,可大大提升AI推理性能,还在不断更以支持越来越多的语言模型,而且它还是开源的。就在10月份,NVIDIA也发布了面向Windows平台的TensorRT-LLM,在配备RTX30/40系列GP...……更多
林达华谈大模型发展之路:未来会有更高效的模型结构出现
...模型的上下文长度快速增长,超长上下文解锁新应用,但推理计算代价高昂,上下文本身对于信息不会进行压缩,不能直接捕捉其中的深层知识和规律。上海人工智能实验室领军科学家林达华。过去一年,人工智能领域风起云涌...……更多
不同量级参数模型性能同样优秀 夸克大模型再登行业评测榜首
...夸克大模型具备较好的语义理解、知识掌握与应用、逻辑推理能力,整体水平达到行业一流水平。另外,在最新的百亿参数测试集中,夸克同样在法律、医疗、问答等多个领域中排名第一,夸克大模型在不同参数量级的对比中均...……更多
全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点
...精度,还显著降低了计算负担,完美解决了时序大模型在推理阶段的计算瓶颈。2. 灵活的预测范围:Time-MoE支持任意长度的输入和输出范围,能够处理从短期到长期的各种时序预测任务,实现了真正的全域时序预测。3. 全球最大...……更多
近日,高通公司发布了新一代云AI推理加速卡——CloudAI100Ultra。这款产品专为生成式AI和大型语言模型而设计,提供相当于上一代产品四倍的性能。新款CloudAI100Ultra可部署的模型规模进一步扩大,单张150W的卡上可部署100B参数模...……更多
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
...像描述性能。实验结果表明,PGv3在文本提示遵循、复杂推理和文本渲染准确率方面表现出色;用户偏好研究表明,PGv3模型在常见的设计应用中,如表情包(stickers)、海报和logo设计,具有超越人类的图形设计能力,还能够精确...……更多
首届青年科学家创新发展大会人工智能青年科学家论坛成功举办
...规模(百万亿级参数)的预训练模型,达到了EFLOPS的训练吞吐量。赵志刚在题为《发挥超算资源优势,助力大模型研发与落地》的报告中,详细介绍了济南超算的算力情况,深入分析了大模型研究与应用面临的突出问题。同时围...……更多
蚂蚁自研知识增强大模型服务框架KAG,可显著提升知识推理准确率
...地,也一定要对时间、数字和逻辑敏感,无论让它做多跳推理,还是逻辑规则数字计算,而这些恰好是大语言模型所不擅长的,包括前一段时间热议的 9.9 和 9.12 比大小的例子。基于此,我们认为在垂直领域落地的时候,大语言...……更多
“绿色引擎”撬动“蓝色动能”——2023中国海洋经济博览会观察
...圳港集团展区,展区工作人员介绍,2012-2022年,盐田港区吞吐量大幅上涨的同时,每个标箱碳排放却在下降,岸基船舶供电、龙门吊“油改电”、液化天然气(LNG)拖车应用三大举措可谓贡献良多。11月23日,观众在现场观看中国海...……更多
苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果
...CLM-Baseline取得了更高的平均分,且在ARC(小学生科学问题推理)、HellaSwag(常识推理)、MMLU等任务上表现更好。 “小”模型成新趋势回到开头,“小”模型最近已成新趋势。先是HuggingFace推出了小模型家族“SmolLM”,其中包含1...……更多
PC迎来AI时刻,英特尔、微软、联想等纷纷布局,产品价格将迎上涨
...算力是上一代的8倍,可在PC上实现高能效的AI加速和本地推理,并适配超过10款国产大模型。英特尔的老对手AMD则抢先一步,上周发布Ryzen 8040系列处理器。该处理器集成了升级的专用AI引擎NPU,算力为16TOPS,AI性能相比上一代提升...……更多
商汤生成式AI业务飙涨256%,成为中国大模型、智算服务市场占有率领头羊
...劲需求、“日日新SenseNova”大模型能力的飞跃式提升以及推理成本的快速下降,带动模型调用量增长迅速。报告期内,“绝影”智能汽车业务的表现也极为亮眼。其业务收入达1.7亿元,同比增长100%。上半年新增交付70.5万辆车,...……更多
系统级玩家微软、苹果先后出牌,端侧大模型路径清晰了?
...MGSM(跨语言数学能力)提升 2.3%,而DROP(文本段落分析推理)则下降了 3%。但与此同时,杀手级应用仍未出现。根据第三方网站SimilarWeb的监测数据,早在去年6月,ChatGPT流量即已见顶,当月其网站与移动客户端的全球流量(PV)...……更多
更多关于社会的资讯:
数据会说话|吉林雪假大数据画像
最近吉林“雪假”的话题火到“出圈”,网友们纷纷喊话“羡慕哭了”!当“冰雪假期”成为现实,吉林的冬日魅力直接拉满。这份火爆到底有多惊人
2025-12-04 18:32:00
北京楹庭律师事务所:开启土地规划纠纷风险防控全指南
北京楹庭律师事务所坐落于国贸CBD核心商务区,是经北京市司法局批准设立的合伙制律所,自创立以来便以行政法、政企纠纷为核心赛道
2025-12-04 16:02:00
珍贵史料公开 载有朱枫烈士户籍信息的口卡找到了
随着电视剧《沉默的荣耀》热映,吴石、朱枫、陈宝仓、聂曦等烈士为解放事业壮烈牺牲的事迹引发社会广泛关注与敬意。朱枫烈士,1905年出生
2025-12-04 08:10:00
伸手不见五指 热浪扑面而来每日商报讯 火灾发生后,消防员看到的是什么场景?昨天,杭州市消防救援支队开展建筑火灾内攻暨室内烟火特性训练
2025-12-04 08:10:00
画里有话|广告岂能“大字吸睛、小字埋雷”
手机产品标榜“逆光之王”的宣传下,藏着“‘逆光之王’是产品设计目标”的小字注解……近期,不少品牌商品广告中的“小字陷阱”频频引发消费者吐槽
2025-12-04 08:16:00
尽管教育部门三令五申要求减轻中小学生课业负担,并多次开展专项整治,但仍有一些地方的中小学“明减暗不减”,频繁将“成页不成册”的电子作业或试卷照片发到微信群让家长打印
2025-12-04 08:24:00
小区旧改 这根露出地面的钢丝让居民心慌 绊倒老人怎么办?
记者 王海峰 摄家住萧山潇湘社区的读者龚女士向橙柿直通车反映:我们小区正在旧改,37幢104单元前面,是一块刚修整过的水泥地
2025-12-04 08:40:00
936户杭州公租房保障家庭 12月15日起开始办理入住
12月15日(周一)起,参与2025年第7期公租房实物配租预登记并完成选房的936户保障家庭,将分批办理入住。本次入住手续办理为今年最后一批次
2025-12-04 08:41:00
浙江日报讯 (记者 林晓晖) 近年来,各类医疗大模型纷纷涌现,却缺乏严肃、权威、专业的评价体系。一个核心问题日益凸显:如何确保这些与百姓健康息息相关的AI产品安全
2025-12-04 08:41:00
杭州马市街隔离柱损坏 黄牛常会带车主来违停 交警回应:马上补装
记者 陈卫民 摄11月29日上午,市民王大伯向橙柿直通车反映:马市街122号马路边,乱停车很严重。王大伯说,他住在马市街122号
2025-12-04 08:41:00
市民蔡女士打进85100000热线:我想点赞一件事情。我在11月28日17点45分乘坐地铁5号线,到达滨江区江晖路站时
2025-12-04 08:41:00
12月2日,都市快报报道了江女士为躺在床上行动不便的母亲寻找上门配眼镜验光服务的故事(详见12月2日都市快报04版),报道一经发出
2025-12-04 08:41:00
浙江日报讯 (记者 黄宁璐 通讯员 俞英超) 日前,在舟山市普陀区展茅街道梁横村村委办公室,一场因船员在开航前购买船用物资途中突发心梗身亡而引发的赔偿纠纷
2025-12-04 08:41:00
浙江日报讯 (记者 朱承) 以全国省级国企第14位的资产总额,斩获全国第4位的营业总收入、全员劳动生产率和净资产收益率……记者日前从省国资委获悉的这组数据
2025-12-04 08:41:00
据“新化融媒”微信公号消息,新化县联合调查组12月4日发布情况通报:12月3日,网友反映“新化县存在婴儿涉拐现象”引发社会关注
2025-12-04 08:47:00