• 我的订阅
  • 头条热搜
大皖新闻讯 3月20日,腾讯发布2023年第四季度及全年业绩报告,财报指出:“腾讯混元已经发展成为领先的基础模型,在数学推导、逻辑推理以及多轮对话中性能卓越。”并首度披露腾讯混元采用混合专家模型结构,已扩展为...……更多
Llama 4训练已开启!Meta科学家最新采访,揭秘Llama 3.1是如何炼成的
...caling Law我们所熟知的Scaling Law主要关注两个维度,即模型权重和训练量,包括训练时的step、epoch和token总量等等。基本上,论文的发现就是,模型规模是重要因素。因此,GPT-3犯了一个错误——模型参数量远远超出了token总量的要...……更多
全面开源 浪潮信息发布千亿参数基础大模型“源2.0”
...51B(518亿)、2B(21亿)三种参数规模的模型,在编程、推理、逻辑等方面展示出了先进的能力。基础大模型的关键能力是大模型行业和应用落地能力表现的核心支撑。在算法、数据和算力等方面,“源2.0”提出了新的改进方法...……更多
「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」
...过一个月的漫长等待,团队终于放出了Reflection 70B的模型权重、训练数据、训练脚本和评估代码。模型权重: https://huggingface.co/glaiveai/Reflection-Llama-3.1-70B训练数据: https://huggingface……更多
字节“扣子”加入AI战场,2024大模型能搞到钱吗?
...巴的“通义千问”大模型、科大讯飞的星火大模型,再到腾讯的混元大模型,国内传统的三大互联网巨头“BAT”悉数下场。此外,华为、京东、商汤科技、网易有道、昆仑万维(300418.SZ)等等都陆续推出了大模型产品,甚至连移...……更多
NVIDIA RTX显卡AI推理提速5倍!
...得更好的加速和应用。其中,TensorRT-LLM是一款用于加速LLM推理的库,可大大提升AI推理性能,还在不断更以支持越来越多的语言模型,而且它还是开源的。就在10月份,NVIDIA也发布了面向Windows平台的TensorRT-LLM,在配备RTX30/40系列GP...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
...业基准测试中达到了 SOTA,并提供了新的功能,如改进的推理能力。最强开源 LLM 来了Meta 官方博客写道,“得益于预训练和后训练的改进,我们的预训练和指令微调模型是目前 8B 和 70B 参数尺度下最好的模型。”他们表示,后期...……更多
这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct
...有任何一个模型发布了其后训练数据。即使是主要的开放权重模型也不会发布任何数据或用于实现这种后训练的配方细节。于是,Ai2 似乎看不下去了,决定开源一切!Tülu 3 模型之外,Ai2 还发布了所有的数据、数据混合方法、...……更多
汽车新智能图谱里:理解腾讯的AI TO B路径
...具体的需求痛点,一起打磨对应的行业AI模型。这也恰是腾讯“实用”标签背后的AI产业路径。作者|皮爷出品|产业家成本、性价比——这是2023年腾讯CSIG事业群CEO汤道生在客户现场听到最多的一个词。有同样感觉的还有腾讯智慧...……更多
大模型降价背后,国产大模型的竞争逻辑变了
...将大模型的使用价格,调低至“厘”时代,百度、阿里、腾讯等巨头纷纷跟进,迅速将大模型推至免费时代。大模型免费时代加速到来5月15日,火山引擎云服务平台,发布了国内首批通过算法备案的“豆包大模型”,主力模型,...……更多
PyTorch官宣:告别CUDA,GPU推理迎来Triton加速新时代
...使用了穷举搜索来调整SplitK GEMM内核。因为每个线性层的权重矩阵都有不同的形状,如果要获得最佳性能,就需要针对每种矩阵形状调整Triton内核。Granite-8B和Llama3-8B的线性层权重矩阵规格如下: 调整每个线性层后,相比未调整...……更多
谷歌再出大招,发布最新开源大模型Gemma,笔记本上即可运行
...型,沿用了创建Gemini模型时的技术和架构优势,提供两种权重的模型版本,分别是“Gemma2B”和“Gemma7B”,分别拥有20亿和70亿个参数,其中2B版本甚至能直接在笔记本电脑上运行。性能表现方面,Gemma7B在MMLU(大规模多任务语言...……更多
微软发布旗下最小语言模型phi-2
...写电子邮件和故事,以及总结文本。在常识、语言理解和推理的基准测试中,该模型在某些领域能够跟上多达100亿个参数的模型。微软现在更新发布的Phi-2拥有27亿参数,规模虽然比此前版本翻番,但相比较其它主流语言模型,...……更多
大模型不会推理,为什么也能有思路?有人把原理搞明白了
大模型不会照搬训练数据中的数学推理,回答事实问题和推理问题的「思路」也不一样。大语言模型的「推理」能力应该不是推理,在今年 6 月,一篇 Nature 论文《Language is primarily a tool for communication rather than thought》曾引发……更多
亚马逊连甩6款大模型!推出3nm AI训练芯片,最强AI服务器算力爆表
...需要企业对训练数据进行管理,并同时考虑到模型参数和权重的问题。借助Amazon Bedrock Model Distillation,客户只需针对给定用例选择最佳模型,并从同一模型系列中选择较小的模型,即可以合适的成本提供其应用程序所需的延迟。...……更多
腾讯版“GPT-4o”来了!混元Turbo首发并上线,效率翻倍价格砍半
腾讯混元又升级了,这次它变得更快、更强、更便宜。科创南方9月5日报道,今天,2024腾讯全球数字生态大会在深圳国际会展中心举行。腾讯集团副总裁、云与智慧产业事业群COO兼腾讯云总裁邱跃鹏在现场宣布,混元Turbo已经在...……更多
pytorchtorchao正式发布,提供了一系列优化工具集
...高效训练。在推理方面,torchao提供多种量化方法,包括权重量化(Weight-OnlyQuantization)和动态激活量化(DynamicActivationQuantization),用户可以自有选择适合的量化策略,以获得最佳的模型推理性能。在稀疏性优化方面,torchao可以...……更多
百川智能发布baichuan3稳定语言模型
...处理和代码生成领域的强大实力。不仅如此,其在对逻辑推理能力及专业性要求极高的MCMLE、MedExam、CMExam等权威医疗评测上的中文效果同样超过了GPT-4,是中文医疗任务表现最佳的大模型。Baichuan3还突破“迭代式强化学习”技术...……更多
中国首个音乐SOTA模型「天工音乐大模型」今日公测
...全球最大的开源MoE大模型。「天工3.0」在语义理解、逻辑推理、通用性、泛化性、不确定性知识、学习能力等领域拥有突破性的性能提升,数学/推理/代码/文创能力提升超过30%。 (天工3.0模型参数超越Grok-1,成全球最大开源MoE...……更多
李彦宏替马化腾试错?
...彦宏的这一判断,马化腾似乎并不完全同意。就在昨天,腾讯集团召开的公司年会上,腾讯公司董事会主席、首席执行官马化腾这样说道:"AI 也是去年一个重点,全行业甚至全世界的重点,我们总算能跟上第一阵列,不能算是...……更多
CPU,正在被AI时代抛弃?
...足任务需求的条件下,提供多种针对网络激活层以及模型权重的低精度和量化方法,大幅度降低访存数据量的同时,充分发挥出英特尔®AMX等加速部件对BF16/INT8等低精度数据计算的计算能力。●多节点并行:支持张量并行(TensorP...……更多
新扩散模型OmniGen一统图像生成,架构还高度简化、易用
...上内容,还包括基本的图像去噪、边缘提取等能力。模型权重和代码已开源,用户可以自行探索更多 OmniGen 的能力。三、模型OmniGen 的核心设计原则是:简洁和有效。因此,我们最大程度舍弃了各种额外模块。OmniGen 的基本架构...……更多
整合长期记忆,AI实现自我进化,探索大模型这一可能性
...,未来可能还会出现更好的方法。组合 LTM 数据进行实时权重更新,从而实现自我进化当前的 LLM 通常分为训练和推理两个阶段。在推理阶段,模型权重是冻结的,防止模型根据新输入进行调整和学习。这种固定的推理过程会限...……更多
国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了
...去,如此自信的原因可能在于最近人们让大模型学会了「推理」的方法。就在 9 月份,OpenAI 正式公开前所未有的复杂推理大模型 o1,这是一个重大突破,新模型既具有通用的能力,也可以解决比此前的科学、代码和数学模型能...……更多
必然的命运:AI大模型冲向“免费轮盘赌”
...E Lite两款主力模型全面免费开放,即刻生效。效仿百度,腾讯云、讯飞星火也开走免费路线。腾讯云在22日将混元-lite模型调整为全面免费,同时宣布万亿参数模型混元-pro的API输入价格从0.1元/千tokens降至0.03元/千tokens。同天,科...……更多
通义千问再放大招:720亿大模型开源,全尺寸赶上LLaMA-2,还有移动端可用的18亿模型
...72B在C-Eval、CMMLU、GaokaoBench等基准得分超越GPT-4。而在数学推理方面,Qwen-72B在GSM8K、MATH测评中也领先其他开源模型;代码理解方面,Qwen-72B在HumanEval、MBPP等测评中的表现大幅提升,代码能力也有质的飞跃。△72B模型做数学题 ……更多
若愚科技推出九天机器人大脑,大模型总参数规模达130亿 |项目报道
...翻译、思维链、工具使用等多种类型的指令数据, 在逻辑推理、关系推理、感知能力上都能呈现出较好的效果。 基于自研的基于语言大模型和多模态大模型,若愚科技构建了多模态具身决策大模型,凭借人类世界通用知识和强...……更多
Meta祭出三篇最详尽Llama微调指南!千字长文,0基础小白必备
...用与初始预训练相同的自监督算法。通常会涉及所有模型权重,并将一部分原始数据与新数据混合。微调微调是以监督方式使用带注释的数据,或使用基于强化学习的技术,来适配预训练语言模型的过程。与预训练相比,微调有...……更多
昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE
...务器推理的开源千亿MoE大模型。开源地址Skywork-MoE的模型权重、技术报告完全开源,免费商用,无需申请。模型架构本次开源的Skywork-MoE模型隶属于天工3.0的研发模型系列,是其中的中档大小模型(Skywork-MoE-Medium),模型的总参数量...……更多
3D大模型助力,15分钟即可训练高质量、个性化的数字人模型
...能顶级会议 NeurIPS 2024 录用,目前已开放源代码和预训练权重。论文标题:MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes 论文链接:https://arxiv……更多
更多关于科技的资讯:
沐曦发布首款全国产通用GPU芯片“中国芯”,浦口造□南京日报/紫金山新闻记者肖凡 通讯员吴晓倩IP设计、晶圆制造、封装测试全流程国内生产
2025-10-23 07:46:00
10月22日从中北大学获悉,第十九届“挑战杯”全国大学生课外学术科技作品竞赛2025年度中国青年科技创新“揭榜挂帅”擂台赛日前在全国各地拉开帷幕
2025-10-23 07:49:00
聚焦雄安新区|首颗“雄安造”卫星完成生产下线
雄安新区空天信息产业从布局迈向实质性产出阶段首颗“雄安造”卫星完成生产下线河北日报讯(记者解丽达、曹铮 见习记者李畅)10月22日
2025-10-23 07:55:00
10月22日,安平国际会展中心。当天开幕的第25届中国·安平国际丝网博览会,用满场的“智造”活力,改写着人们对丝网的老印象
2025-10-23 07:59:00
试水市场化,VR博览会迸发新活力
会展作为经济发展的“晴雨表”和“风向标”,不仅是经济发展的助推器,更是展示经济活力的重要窗口。如今,世界VR产业大会成为南昌乃至江西的一张名片
2025-10-23 06:29:00
AI赋能医院病案内涵质量提升
鲁网10月22日讯(记者 魏萱)为深入推进健康中国建设,进一步深化医药卫生体制改革,全面提升医疗质量安全水平,建设有特色的医疗质量管理体系
2025-10-22 14:27:00
胡海建眼中的“末端决胜论”,跨越速运陆运体系如何做到“快、准、稳”?
在跨越速运的“陆空协同”运力体系中,陆运网络是连接航空枢纽与客户的关键环节。董事长胡海建深知,末端服务的“最后一公里”直接影响客户体验
2025-10-22 14:37:00
布蕾克咖啡携\
近日,布蕾克咖啡携新品「云南有机瑰夏礼盒」等多款咖啡产品登陆高端超市品牌Ole'精品超市,通过优质渠道将高品质咖啡呈现给广大咖啡爱好者
2025-10-22 14:37:00
AI驱动 数据赋能丨浪潮云领跑中国城市可信数据空间市场
近日,艾瑞咨询正式发布《2025年中国城市可信数据空间行业研究报告》,从城市可信数据空间的发展驱动因素和核心价值出发,对其总体架构
2025-10-22 17:06:00
AI赋能行业高质量发展,浪潮软件集团携线缆AI智能装备亮相华北电线电缆工业展
10月16日至18日,2025第三届华北(宁晋)电线电缆工业及材料设备展览会在河北宁晋成功举办。宁晋被誉为“中国电线电缆之乡”
2025-10-22 17:07:00
智慧兴港,科技领航:浪潮赋能港航数智化实践
近年来,我国高度重视信息化建设,先后出台多个指导意见,明确提出推动港航系统数字化转型智能化升级。在政策引领与技术创新双轮驱动下
2025-10-22 17:07:00
华为鸿蒙操作系统 6支持与Mac电脑及iPhone互传文件
10月22日14:30,华为正式推出鸿蒙操作系统6(HarmonyOS 6)。这意味着,“纯血鸿蒙”在经历“鸿蒙星河版”
2025-10-22 17:07:00
汕头企业深耕“一带一路” 艾德文制衣携转型新品再拓中东市场
2025年海湾地区国际B2B时尚贸易采购展(20周年特别版)即将开幕,这场聚焦全球时尚供应链对接的行业盛会将于11月17日-19日在迪拜世界贸易中心6号
2025-10-22 17:09:00
2025六大麦角硫因品牌榜单更新,成分筛查 + 安全适配性硬核对比
当《Nature》2024年特刊将麦角硫因(EGT)定义为 “21 世纪最具颠覆性的抗衰成分”,新加坡国立大学医院、美国国立衰老研究院等权威机构的临床数据进一步证实
2025-10-22 17:12:00
DCF智能商城:信息透明,让选择变得轻松
在信息越来越快的时代,DCF智能商城做了一件看似简单却非常重要的事——让商户和消费者之间的距离更近,让每一次交易都更有温度
2025-10-22 17:13:00