• 我的订阅
  • 头条热搜
谷歌Gemini大模型的“先进”表现如何?一文告诉你
...了超越当前时代的“先进结果”,成为第一个在MMLU上(大规模多任务语言理解)超过人类专家的模型。该模型在数学、物理、历史、法律、医学和伦理等57个学科上取得了90.0%的成绩。明年初,谷歌还将推出全新升级的Bard Advanced...……更多
...类大模型研发创新的不断深入,将进一步实现精准教学、大规模因材施教和个性化学习,助力实现教育高质量发展。大模型技术推动全社会催生新产业、新模式、新动能大模型技术的颠覆性的前沿技术属性,以及广泛的行业赋能...……更多
第二届全球数贸会 | 文心一言成唯一入驻中国馆大模型
...入和输出阶段都进行知识点增强。在逻辑增强方面,通过大规模逻辑数据构建、逻辑知识建模、多粒度语义知识组合以及符号神经网络,提升逻辑能力。而在插件方面,通过数据驱动、提示构建,以及插件增强进行场景适配,协...……更多
Llama3.1训练平均3小时故障一次,H100万卡集群好脆弱
...个含16384块Nvidia H100 80GB GPU集群上进行训练的。虽说针对大规模系统有句老话:唯一确定的就是会出故障。但这一问题还是引起不少网友关注。放慢速度,check一下产品吧。 老出故障,咋整?具体来看,在419次意外中断中,148 次...……更多
大模型新趋势之MoE:现状、挑战及研究方向
...凭借平衡大模型训推成本和计算效率等优势,更适合处理大规模数据和复杂任务,已成谷歌、OpenAI、阿里、腾讯等企业控制成本、提升模型性能、应对大模型“价格战”的新方向。MoE的内涵、优势、发展历程及主要玩家MoE(Mixtur...……更多
Meta大模型LLaMA 3即将登场,参数量或达1400亿
...ormation4月8日发布的报道,作为对标GPT-4的大模型,LLaMA3的大规模版本参数量可能超过1400亿,而最大的LLaMA2版本的参数量为700亿。LLaMA3将支持多模态处理,即同时理解和生成文本及图片。值得注意的是,LLaMA3将延续Meta一直以来的...……更多
NeurIPS 2024|水印与高效推理如何两全其美?最新理论:这做不到
...的同时,提升其推理效率,降低推理成本,因此适合用于大规模生产环境。这项研究发表在了 Nature 杂志上,给出了两种具体的结合方法,分别在水印检测效果和生成速度上达到了现有最优水平,但无法同时兼顾两者。无独有偶...……更多
...型对古汉语的理解能力。在模型训练的过程中,需要使用大规模的古汉语语料库进行训练,并通过无监督学习和迁移学习等技术提高模型的鲁棒性和适应性。训练完成后,模型的评估也是关键环节,可以通过人类评估和自动评价...……更多
手脑并用,AI大模型“补全”机器人
...在目前这个时间节点,无法真正解决机器人学习的商业化大规模落地。第一个难点是数据获得的难度。在现实生活中收集其他的数据相对简单,但大规模的机器人数据目前并没有明确的获得途径,且机器人形态大小不一,实体的...……更多
林达华谈大模型发展之路:未来会有更高效的模型结构出现
...验室领军科学家林达华分享了对大模型的思考。他表示,大规模生产高质量数据是大模型研发机构的竞争力所在。当前主流的大模型无一例外都建立在Transformer架构堆叠的基础上,但产业界和学术界在不断探索更加高效的架构,...……更多
...究院院长李学龙带领下,推出了星辰语音大模型,通过超大规模语音预训练和多方言联合建模,率先实现单一模型支持30种方言自由混说语音识别,是国内支持最多方言、覆盖人口最多的语音大模型;研发团队首创“蒸馏+膨胀”...……更多
...得算力的强强结合,GLM-4稳定、高效运行于云端,并具备大规模实时推理能力,成功实现了成本效益和服务质量的平衡。这一创新使得智谱大模型能够深入理解用户需求,快速作出响应,为用户提供智能化生活的便利与高效。自2...……更多
GR-2登场!ByteDance Research提出机器人大模型,具备世界建模
...悉,GR-2 的开发团队采用了一种创新的微调方法。在经历大规模预训练后,通过在机器人轨迹数据上进行微调,GR-2 能够预测动作轨迹并生成视频。GR-2 的视频生成能力,让它在动作预测方面有着天然的优势。它能够通过输入一帧...……更多
印度宣布向AI领域投资1037亿卢比,强化对大语言模型的开发
...能在关键领域的应用,将重点开发 / 扩展 / 推广具有催化大规模社会经济转型的潜力的影响性 AI 解决方案。IndiaAI 未来技能:旨在降低进入 AI 行业的门槛,并增加本科、硕士和博士课程中的人工智能课程。此外,还将在印度二...……更多
年度生成式AI大会上海站公布最新嘉宾,报名进入最后阶段
...获得美国授权专利4项,著有《自然语言处理导论》和《大规模语言模型:理论与实践》,作为第二译者翻译专著《现代信息检索》。获得WSDM 2014最佳论文提名奖、COLING 2018领域主席推荐奖、NLPCC 2019杰出论文奖、COLING 2022杰出论文...……更多
中国农业大学发布首个国际奶业领域垂直大模型
...级参数,实现了对中文语境的深度适配。大模型通过利用大规模语料库进行预训练基础模型,针对特定模型参数不断优化,以提升产业效率,优化资源配置,增强决策能力,促进奶业高质量发展,为行业发展提供多方位支持。农...……更多
中国也有Sora同款训练架构公司,清华班底,智谱也投了 | 36氪首发
...训练效率,生数科技构建了完整的工程与数据体系,并在大规模GPU集群上实现更高效、低成本、强兼容的模型训练。唐家渝表示,去年团队花了近一个月的时间做完了华为昇腾训练架构的适配,芯片的国产替代帮助节省了不少成...……更多
DeepSeek真香!华为等各大手机厂商纷纷接入
...epSeek-R1被公认为是目前最先进的大语言模型之一,它基于大规模的数据训练,具备超强的语言理解和生成能力,在自然语言处理、代码生成、逻辑推理等多个关键领域均表现优异。业内人士表示,DeepSeek是免费开源的模型,性能...……更多
谷歌再出大招,发布最新开源大模型Gemma,笔记本上即可运行
...直接在笔记本电脑上运行。性能表现方面,Gemma7B在MMLU(大规模多任务语言理解)测试中取得了64.3%的高分,而之前的佼佼者Mistral7B得分为62.5%,Meta的Llama-27B和13B模型也有所不及。此外,Gemma还在HuggingFace和HuggingChat平台上上线……更多
浙大校友自研跨模态模型,打造具身智能的“通用语法”
...使模型具有高效的并行计算能力与灵活性,从而可以处理大规模数据集,并能通过微调预训练模型,快速适应不同任务场景。同时,其层次化结构能做到对复杂数据深层次的抽象和解析。 因此,Transformer 架构的引入为具身智能...……更多
NeurIPS | 消除多对多问题,清华大规模细粒度视频片段标注新范式
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报...……更多
全球权威评测榜单BIRD:蚂蚁数科超越谷歌等公司位居第一
...言查询转换为结构化查询语言(SQL),并且在真实复杂的大规模生产级数据库中稳定执行。BIRD--Bench数据集覆盖金融、电力、医疗等37个行业场景,总量33GB,包含超过1万条高复杂度查询任务,是全球顶级AI团队展示技术实力的权...……更多
清华郑纬民院士:AI for Science的出现,让高性能计算与AI的融合成为刚需|MEET2023
...性原则、AI基准设计四大目标以及如何通过并行方法加速大规模预训练模型。为了完整体现郑纬民院士的分享及思考,在不改变原意的基础上,量子位对他的演讲内容进行了编辑整理。关于MEET 智能未来大会:MEET大会是由量子位...……更多
上海AI实验室版o1已上线!数学题、Leetcode全拿下,还会玩24点
...的独创性探索与实践:在训练数据侧,在国内率先开发出大规模合成数据技术;在任务场景侧,新模型在数学、代码、推理谜题等多种场景都能体现出较强的推理能力,并具备一定的任务泛化性。最新的强推理模型书生InternThinke...……更多
通义千问系列AI开源模型升至Qwen2:5个尺寸,最高 128K tokens
...和显存占用降低的优势。 模型评测相比 Qwen1.5,Qwen2 在大规模模型实现了非常大幅度的效果提升。我们对 Qwen2-72B 进行了全方位的评测。在针对预训练语言模型的评估中,对比当前最优的开源模型,Qwen2-72B 在包括自然语言理解...……更多
专家模型不要专家并行!微软开源MoE新路径
...为90.4,而在编码任务基准HumanEval上拿到了74.4分。在MMLU(大规模多任务语言理解)基准测试中GRIN得分为79.4,超过了同为MoE架构的Mixtral(70.5分),以及自家的Phi-3.5(78.9分)。如果对比流行的商用模型,GPT-3.5表示感受到时代的...……更多
摩尔线程万卡GPU集群新进展!性能可提升20倍
...软件公司清程极智正式建立战略合作关系,旨在加速国产大规模GPU智算集群的产业化进程,推动AI算力生态的快速发展,为大模型行业提供更强大、灵活且高效的基础设施支持。摩尔线程近期宣布了从千卡至万卡的全功能GPU智算...……更多
AI翻译界杀手诞生!阿里国际翻译大模型吊打谷歌和GPT-4
...种识别、多维度数据质量评估,由此,就获得了高质量、大规模多语言数据。与此同时,通过利用多语言MoE、参数扩展方法,从而保证主导语言(如中英)性能不下降的情况下,提升了其他语种的性能。微调阶段,基于多语言大...……更多
天工skyagents助力大模型走入千家万户
...数据检索增强(RAG)的能力,能够支持导入更多格式和更大规模的数据和知识,相当于给大模型增加了“智能知识库外脑”。结合人工智能技术,平台能够从导入的数据中自动识别关键信息点,形成结构化的知识体系。从此,「...……更多
全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点
...的核心组成。然而,构建一个兼具强大性能与高效运算的大规模时序预测模型始终是一个巨大的挑战。此外,高质量的大型公共时间序列数据库的匮乏进一步加剧了这一难题。近日,由来自普林斯顿大学、格里菲斯大学等全球多...……更多
更多关于科技的资讯:
浙江日报义乌12月3日电 (记者 拜喆喆 何贤君 共享联盟·义乌 吴峰宇) 3日,义乌今年第1亿个跨境电商进口订单完成打包
2025-12-04 08:41:00
中国科大新实验终结爱因斯坦与玻尔世纪之辩
大皖新闻讯 大皖新闻记者从中国科学技术大学获悉,该校潘建伟、陆朝阳、陈明城教授等组成的研究团队,利用光镊囚禁的量子基态单原子
2025-12-04 11:03:00
中新经纬12月4日电 “北京市场监管”微信号4日消息,为应对AI合成技术滥用风险,规范电商直播行业秩序,近日,北京市消费者协会(以下简称“北京消协”)联合京东
2025-12-04 11:06:00
用一张照片告别2025:富士胶片X-SPACE三城点亮\
2025年11月起,富士胶片影像共享空间X-SPACE于上海、南京、杭州三地先后启动年末特别企划——"影像之树"作品征集与交流活动
2025-12-04 11:49:00
《2026年中国礼品行业展望白皮书》发布“差异化”和“质价比”等关键词
2025年10月20-23日,第33届深圳礼品家居展于深圳国际会展中心举办,展会同期进行的2025中国礼业高峰论坛上,展会主办方励展华博第三次携手国际知名咨询公司凯度重磅首发《2026年中国礼品行业展望白皮书》
2025-12-04 11:55:00
中国网12月4日讯 据国家体育总局网站消息,体育总局日前印发《关于进一步推进篮球改革发展的意见》。其中提出,有序促进职业篮球开放
2025-12-04 12:16:00
长白时评评论员 刘颂寒12月1日,电视剧《家业》和制片方华策影视发文,谴责部分短剧投机取巧,擅自截取《家业》宣传物料中的创意元素“跟拍”
2025-12-04 13:48:00
近年来,智能制造产业园引导企业顺应数字化浪潮,积极落实智改数转,推动科技创新与产业创新深度融合。以南汽集团为核心的汽车产业
2025-12-04 11:20:00
储热赋能双碳 智慧引领供热 泰山集团高电压直入式电储能技术破解能源转型难题
鲁网12月4日讯在“双碳”目标深入推进、能源结构加速转型的时代背景下,电网峰谷差拉大、清洁供热需求迫切、弃风弃光资源浪费等问题成为制约绿色发展的关键瓶颈
2025-12-04 09:57:00
上海街头的数字生活指南,是城市数字品牌与公共艺术的对话
在上海,街头悄然出现的“数字城市指示牌”成为了市民与游客驻足讨论的热点。这些立体的、新颖的指示牌,是“智云上海”这个城市信息化名片的立体呈现
2025-12-04 08:17:00
摘要:随着生成式人工智能技术在各行业的广泛应用,模型输出结果的不确定性问题日益受到关注。为提高模型在关键领域的可靠性,对输出不确定性进行量化分析成为重要方向
2025-12-04 06:17:00
杭州博士后用AI让机器懂协作、更安全杭州日报讯 让机器从执行命令的“孤岛”,成为懂得协作的群体?让机器人安全走进人类生活
2025-12-04 06:38:00
12月3日从紫林醋业获悉,紫林醋业部分主导产品通过欧盟有机认证(EU Organic Certification),获准使用欧盟统一有机标识“欧洲叶标”(Euro-Leaf)
2025-12-04 07:31:00
中新经纬12月3日电 12月3日,豆包手机助手在官方微信号就“侵犯用户隐私”等问题进行回应,称不存在任何黑客行为。具体来看
2025-12-04 07:42:00
支付宝AI4SDL研发安全体系斩获首届“AI领航杯”星光金奖
12月1日-3日,由中国互联网协会主办的2025“人工智能+”产业生态大会在北京举办。开幕式上,首届“AI领航杯”“人工智能+”应用与技能大赛总决赛举行了隆重的颁奖仪式
2025-12-04 07:47:00