• 我的订阅
  • 头条热搜
马斯克官宣Grok-2测试版!xAI将继续拥抱开源路线吗?
继旗下xAI公司宣布正式开源大模型Grok-1后,特斯拉CEO马斯克再次在大模型市场扔下一颗重磅炸弹。当地时间8月11日晚,马斯克在X平台上透露人工智能模型Grok-2测试版将在不久后发布。事实上,马斯克在7月份就在X平台上确认,Gr...……更多
一块GPU都没用,苹果自研大模型干翻GPT-4?
...,上线Apple Intelligence的首个版本,同时47页的苹果自研大模型技术报告重磅发布。Apple Intelligence首个版本上线了以下AI功能:1、Siri升级。Siri唤醒后具备屏幕边缘发光特效,能理解用户表述不通顺的指令,且能回答关于苹果产品...……更多
杨仝团队发布FairyR1模型:5%参数量数学和代码能力超越满血DeepSeek
北京大学杨仝教授团队近期发布了其在高效大型语言模型研究方向的一项新成果——FairyR1-32B模型。该模型基于DeepSeek-R1-Distill-Qwen-32B基座,通过结合微调与模型合并技术构建。研究探索了在参数量大幅减少的情况下,模型在特...……更多
比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型
...研究人员,利用延迟掩蔽、MoE、分层扩展等策略,将扩散模型的训练成本降到了1890美元。训练一个扩散模型要多少钱?之前最便宜的方法(Wuerstchen)用了28400美元,而像Stable Diffusion这样的模型还要再贵一个数量级。大模型时代...……更多
Scaling Law百度最早提出!OpenAI/Claude受它启发,致谢中有Ilya
...统团队。他们探讨了深度学习中训练集大小、计算规模和模型精度之间的关系,并且通过大规模实证研究揭示了深度学习泛化误差和模型大小的缩放规律,还在图像和音频上进行了测试。只不过他们使用的是 LSTM,而不是Transforme...……更多
苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果
苹果最新杀入开源大模型战场,而且比其他公司更开放。推出7B模型,不仅效果与Llama 3 8B相当,而且一次性开源了全部训练过程和资源。要知道,不久前Nature杂志编辑Elizabeth Gibney还撰文批评:许多声称开源的AI模型,实际上在...……更多
全面开源 浪潮信息发布千亿参数基础大模型“源2.0”
...浪潮电子信息产业股份有限公司在京发布“源2.0”基础大模型,并宣布全面开源。“源2.0”包括102B(1026亿)、51B(518亿)、2B(21亿)三种参数规模的模型,在编程、推理、逻辑等方面展示出了先进的能力。基础大模型的关键能...……更多
AI探索宇宙结构新突破!超精准场级模拟,半秒完成冷暗物质仿真
...进行编码的样式参数。研究人员在六维N-body相空间上训练模型,将粒子速度预测为模型位移输出的时间导数,显著提高了训练效率和模型准确性。最终,模拟器在测试数据(训练期间未见过的各种宇宙学和红移)上实现了良好的...……更多
昆仑万维发布开源13B高质量商用大模型 领先Llama2和Baichuan2
10月30日,昆仑万维宣布开源百亿级大语言模型「天工」Skywork-13B系列,并配套开源了600GB、150B Tokens的超大高质量开源中文数据集。昆仑万维「天工」Skywork-13B系列目前包括130亿参数的两大模型:Skywork-13B-Base模型、Skywork-13B-Mat……更多
反击OpenAI,谷歌放出最强悍大模型Gemini
...斯·哈萨比斯在谷歌官网联名发文,官宣了最新多模态大模型Gemini 1.0(双子星)版本正式上线。这个上线时间早于外界猜测的明年1月,保密程度很高,仅有少数媒体提前猜出。Gemini 1.0是谷歌筹备了一年之久的GPT4真正竞品,也是...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...为刘家铭博士,研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真,研究方向为视觉基础模型与机器人操纵。指导老师为仉尚航,北京大学计算机学院研究员、博士生导师、博雅青年学者...……更多
AI大模型“国标”首批测试结果公布,人工智能成市场新焦点
12月22日,国内首个官方“大模型标准符合性评测”结果公布,百度文心一言、腾讯混元大模型、360智脑、阿里云通义千问四款国产大模型首批通过测试。测试结果称,上述四款模型符合《人工智能大规模预训练模型第2部分:评...……更多
类Sora模型能否理解物理规律?字节豆包大模型团队系统性研究揭秘
视频生成模型虽然可以生成一些看似符合常识的视频,但被证实目前还无法理解物理规律!自从 Sora 横空出世,业界便掀起了一场「视频生成模型到底懂不懂物理规律」的争论。图灵奖得主 Yann LeCun 明确表示,基于文本提示生...……更多
微软发布旗下最小语言模型phi-2
...会已拉开帷幕,微软在本次活动中发布了旗下最小的语言模型Phi-2,共有27亿参数,相比较此前版本有明显提升。注:微软于今年6月发布Phi-1,只有13亿代码,适用于QA问答、聊天格式和代码等等场景。该模型完全基于高质量数据...……更多
最强数学大模型易主!阿里千问新模型成绩超GPT-4o
最强数学大模型,现在易主!阿里千问大模型团队发布的Qwen2-Math,不仅超越了Llama 3.1-405B,也战胜了GPT-4o、Claude 3.5等一系列闭源模型。而且还会解决竞赛级试题,在GPT-4只能做对一道的AIME 24中,Qwen2-Math答对的题目数量达到了两...……更多
国产模型指令跟随全球第一!来自LeCun亲推的最难作弊LLM新榜单
What???一直低调行事的国内初创公司,旗下模型悄悄地跃升成国内第一、世界第五(仅排在o1系列和Claude 3.5之后)!而且是前十名中的唯一一家国产公司。(该榜上国产第二名是阿里开源的qwen2.5-72b-instruct,总榜第13)。而且...……更多
OpenCity大模型预测交通路况,零样本下表现出色,来自港大百度
长时间交通状况预测,可以用大模型实现了。香港大学联合华南理工大学和百度,推出了长时间城市交通预测模型——OpenCity。而且泛化能力极强,可有效应用于广泛的交通预测场景。为了解决传统交通预测模型泛化性及长期预...……更多
Hugging Face发布SmolVLM开源 AI 模型:20 亿参数,用于端侧推理
...日(11 月 26 日)发布博文,宣布推出 SmolVLM AI 视觉语言模型(VLM),仅有 20 亿参数,用于设备端推理,凭借其极低的内存占用在同类模型中脱颖而出。官方表示 SmolVLM AI 模型的优点在于体积小、速度快、内存高效,并且完全开...……更多
...ng Face 平台中的 NVIDIA DGX Cloud AI 超级计算来训练和调整 AI 模型;与 BOXX、戴尔科技、惠普和联想等工作站制造商合作,打造了一系列全新的高性能 RTX 工作站。IBM开源地理空间AI基础模型已在Hugging Face平台发布8月8日消息,IBM与开...……更多
CMU&清华:让LLM自己合成数据来学习,特定任务性能同样大幅提升
...赵晨阳,卡内基梅隆大学硕士生贾雪莹。虽然大规模语言模型(LLM)在许多自然语言处理任务中表现优异,但在具体任务中的效果却不尽如人意。为了提升模型在特定自然语言任务上的表现,现有的方法主要依赖于高质量的人工...……更多
优刻得首个「国产千卡智算集群」落地,支持智源千亿大模型训练
...算集群规模,才能一路突破围追堵截,进一步促进国产大模型产业生态繁荣。作为中立、安全的云计算服务厂商,优刻得持续发力人工智能智算领域,与国内主流AI芯片厂商深度合作,共同搭建的「国产千卡智算集群」现已上线...……更多
天垓100率先完成百亿级参数大模型训练,天数智芯迎来新的里程碑
...院(以下简称“智源研究院”)70亿参数的Aquila语言基础模型,使用代码数据进行继续训练,稳定运行19天,模型收敛效果符合预期,证明天数智芯有支持百亿级参数大模型训练的能力。图 天数智芯产品线总监宋煜在北京市海淀...……更多
非Transformer架构站起来了!首个纯无注意力大模型,超越Llama 3.1
Mamba 架构的大模型又一次向 Transformer 发起了挑战。Mamba 架构模型这次终于要「站」起来了?自 2023 年 12 月首次推出以来,Mamba 便成为了 Transformer 的强有力竞争对手。此后,采用 Mamba 架构的模型不断出现,比如 Mistral 发布的首...……更多
大模型步入推理Scaling时代,SambaNova如何挑战英伟达的霸主地位
...越人类专家。在性能跃升之外,更重要的是,它揭示了大模型进化范式的转变:通过更多的强化学习(训练时计算)和更多的推理(Test-Time 计算),模型可以获得更强大的性能。这又一次让我们想起 Richard Sutton 在《The Bitter Lesso...……更多
Llama 4训练已开启!Meta科学家最新采访,揭秘Llama 3.1是如何炼成的
...为什么不使用MoE架构?后训练与RLHF流程是如何进行的?模型评估是如何进行的?我们什么时候可以见到Llama 4?Meta是否会发展agent?恰逢Llama 3.1刚刚发布,Meta科学家就现身播客节目Latent Space,秉持着开源分享的精神,对以上问题...……更多
小模型正在成为AI界的新宠
大模型的发展已经进入了万亿级参数时代。DeepMind 联合创始人穆斯塔法・苏莱曼(Mustafa Suleyman)预测, 仅在未来三年内,大模型规模以惊人的速度继续扩张,将增长 1000 倍。一方面,模型的参数量与其能够处理和学习的复杂性...……更多
1行代码改进大模型训练,Llama训练速度升至1.47倍,华人团队出品
只要改一行代码,就能让大模型训练效率提升至1.47倍。拥有得州大学奥斯汀分校背景四名华人学者,提出了大模型训练优化器Cautious Optimizers。在提速的同时,Cautious能够保证训练效果不出现损失,而且语言和视觉模型都适用。...……更多
1-bit大模型还能再突破!新一代BitNet架构启用4位激活值
...et系列的原班人马推出了新一代架构:BitNet a4.8,为1 bit大模型启用了4位激活值,支持3 bit KV cache,效率再突破。量化到1 bit的LLM还能再突破?这次,他们对激活值下手了!近日,BitNet系列的原班人马推出了新一代架构:BitNet a4.8...……更多
chatgpt低成本复现流程开源
首个开源的ChatGPT低成本复现流程来了!预训练、奖励模型训练、强化学习训练,一次性打通。最小demo训练流程仅需1.62GB显存,随便一张消费级显卡都能满足了。单卡模型容量最多提升10.3倍。相比原生PyTorch,单机训练速度最高...……更多
开源大模型的ChatGPT时刻?备受期待的Llama 3 405B即将发布
...顶配,405B版本拥有4050亿个参数,是迄今为止最大的开源模型之一。昨夜凌晨,META突发Llama 3.1-405B评测数据的泄漏事件,有网友预计可能还会同时发布一个Llama 3.1-70B版本,因为“(模型提前泄露)是META的老传统了,去年的Llama模...……更多
更多关于科技的资讯:
在全球新材料产业加速发展的浪潮中,亚克力凭借高透明度、优异的耐候性和丰富的应用场景,正在成为连接工业升级与消费升级的重要材料
2025-08-28 15:39:00
晨光文具国漫嘉年华登陆上海书展:热血IP点燃Z世代文化自信
今年夏天,继Bilibili World(亚洲规模最大的ACGN综合性展会,下文简称BW)的火爆之后,上海书展成为又一热门
2025-08-28 15:44:00
当常州奥体中心的灯光照亮王海宁的球衣时,整座城市正为一粒进球沸腾——8月16日晚,苏超联赛第9轮,常州队1:0击败镇江队
2025-08-28 16:28:00
大众网记者 郑健 潍坊报道8月28日上午,潍坊市创新发展大会隆重举行,潍坊中云机器有限公司参加并做交流发言。这是对企业创新发展的褒奖
2025-08-28 16:47:00
毕节高新区:数字化引擎驱动产业集群提质增效
在毕节高新区,数字化引擎正驱动着产业变革的进程。贵州联尚科技有限公司的智能车间内,机械臂精准运作,生产数据实时跃动于中央控制大屏
2025-08-28 17:00:00
【天眼会客厅】科大讯飞陈敏军:构建城市智能体,高效赋能数字政府建设
“深耕行业多年,科大讯飞在数字化领域积累深厚。”8月27日,科大讯飞智慧城市BG副总裁、数字政府业务部总经理陈敏军走进天眼新闻会客厅
2025-08-28 17:00:00
不止一件羽绒服,从ESG报告看懂波司登的布局
从波司登的“第二财报”解析可持续时尚的未来公式千行百业都在用AI武装自己的今天,服装业也无法回避。对于服装行业来说,AI的核心战场
2025-08-29 01:13:00
暂停服务三年后 叮咚买菜重返宣城市场
大皖新闻讯 2022年5月,主打“在线菜篮子”的生鲜电商叮咚买菜在全国多个城市暂停服务,其中包括安徽宣城和滁州。(大皖新闻2022年曾报道)8月28日
2025-08-28 17:06:00
北京飞法兰克福航班上,氧气面罩突然落下!一分钟了解氧气面罩
8月28日,有网友发帖称,北京飞法兰克福航班上,氧气面罩突然落下,飞机紧急返航。网友称:北京飞法兰克福的国航CA965的航班飞了3小时左右的时候
2025-08-28 17:21:00
家家悦长清青年城店焕新启幕“环境+商品+服务”解锁购物新场景
8月28日,家家悦长清青年城店以全新形象盛大开业,聚焦大学城商圈,焕新升级后进一步深化对“Z世代”消费群体的服务布局。通过环境
2025-08-28 17:23:00
中新经纬8月28日电 题:“反内卷”是竞争方式的优化与升级作者 程实 工银国际首席经济学家、董事总经理、研究部主管近年来
2025-08-28 17:30:00
威海联通客户日走进企业,打造一站式惠民体验
8月联通客户日来临之际,山东威海联通到企业举办客户服务日活动。此次活动精心筹备,旨在为广大客户带来一场集优质产品推介、贴心便民服务于一体的专属盛宴
2025-08-28 17:35:00
2024年中国数字出版产业收入达17485.36亿
大河网讯(记者 莫韶华)8月27日,在第十五届中国国际数字出版博览会即将举办之际,第六届中国出版业知识服务大会暨2024—2025中国数字出版产业年度报告发布会在河南郑州召开
2025-08-28 17:39:00
村口小舞台演绎乡亲大梦想,线上+线下绘就农村新画卷
齐鲁晚报·齐鲁壹点 赵卓琪台上演出的是身边的“明星”,台下欢闹的是邻里乡亲。今年以来,快手三农推出“村口小舞台”活动,以“线下搭台+线上直播”的模式
2025-08-28 17:59:00
云鼎科技与中控技术签约,推动化工大模型规模化落地
8月28日下午,云鼎科技与中控技术正式签订全面深化战略合作框架协议。山东能源集团有限公司党委常委、副总经理刘强 ,云鼎科技党委书记
2025-08-28 18:31:00