大规,日本,大规模,模型,语言,模型头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...了超越当前时代的“先进结果”，成为第一个在MMLU上（大规模多任务语言理解）超过人类专家的模型。该模型在数学、物理、历史、法律、医学和伦理等57个学科上取得了90.0%的成绩。明年初，谷歌还将推出全新升级的Bard Advanced...……更多

2023-12-09 17:02:00一文,模型,先进,模型,视频,提示

教育垂类大模型助力实现精准教学范式跃升

...类大模型研发创新的不断深入，将进一步实现精准教学、大规模因材施教和个性化学习，助力实现教育高质量发展。大模型技术推动全社会催生新产业、新模式、新动能大模型技术的颠覆性的前沿技术属性，以及广泛的行业赋能...……更多

2024-01-03 07:20:00范式,模型,教学,教育,教育,模型

第二届全球数贸会 | 文心一言成唯一入驻中国馆大模型

...入和输出阶段都进行知识点增强。在逻辑增强方面，通过大规模逻辑数据构建、逻辑知识建模、多粒度语义知识组合以及符号神经网络，提升逻辑能力。而在插件方面，通过数据驱动、提示构建，以及插件增强进行场景适配，协...……更多

2023-11-24 17:28:00中国馆,文心,中国,第二届,模型,全球

Llama3.1训练平均3小时故障一次，H100万卡集群好脆

...个含16384块Nvidia H100 80GB GPU集群上进行训练的。虽说针对大规模系统有句老话：唯一确定的就是会出故障。但这一问题还是引起不少网友关注。放慢速度，check一下产品吧。老出故障，咋整？具体来看，在419次意外中断中，148 次...……更多

2024-07-30 09:38:00万卡,集群,故障,脆弱,训练,小时

大模型新趋势之MoE：现状、挑战及研究方向

...凭借平衡大模型训推成本和计算效率等优势，更适合处理大规模数据和复杂任务，已成谷歌、OpenAI、阿里、腾讯等企业控制成本、提升模型性能、应对大模型“价格战”的新方向。MoE的内涵、优势、发展历程及主要玩家MoE（Mixtur...……更多

2024-11-04 16:00:00研究方向,模型,现状,方向,趋势,研究

Meta大模型LLaMA 3即将登场，参数量或达1400亿

...ormation4月8日发布的报道，作为对标GPT-4的大模型，LLaMA3的大规模版本参数量可能超过1400亿，而最大的LLaMA2版本的参数量为700亿。LLaMA3将支持多模态处理，即同时理解和生成文本及图片。值得注意的是，LLaMA3将延续Meta一直以来的...……更多

2024-04-10 22:40:00模型,参数,模型,伯格,参数,扎克

NeurIPS 2024|水印与高效推理如何两全其美？最新理

...的同时，提升其推理效率，降低推理成本，因此适合用于大规模生产环境。这项研究发表在了 Nature 杂志上，给出了两种具体的结合方法，分别在水印检测效果和生成速度上达到了现有最优水平，但无法同时兼顾两者。无独有偶...……更多

2024-11-22 09:49:00水印,推理,理论,水印,方法,投机

古汉语大语言模型的构建及应用研究

...型对古汉语的理解能力。在模型训练的过程中，需要使用大规模的古汉语语料库进行训练，并通过无监督学习和迁移学习等技术提高模型的鲁棒性和适应性。训练完成后，模型的评估也是关键环节，可以通过人类评估和自动评价...……更多

2024-12-27 10:08:00古汉,模型,语言,应用,研究,古汉

手脑并用，AI大模型“补全”机器人

...在目前这个时间节点，无法真正解决机器人学习的商业化大规模落地。第一个难点是数据获得的难度。在现实生活中收集其他的数据相对简单，但大规模的机器人数据目前并没有明确的获得途径，且机器人形态大小不一，实体的...……更多

2023-12-16 21:02:00机器人,模型,机器,机器人,机器,智能

林达华谈大模型发展之路：未来会有更高效的模型结构出现

...验室领军科学家林达华分享了对大模型的思考。他表示，大规模生产高质量数据是大模型研发机构的竞争力所在。当前主流的大模型无一例外都建立在Transformer架构堆叠的基础上，但产业界和学术界在不断探索更加高效的架构，...……更多

2024-03-25 10:53:00林达,模型,之路,结构,发展,模型

中国电信人工智能研究院发布首个支持30种方言混说的语音大模型

...究院院长李学龙带领下，推出了星辰语音大模型，通过超大规模语音预训练和多方言联合建模，率先实现单一模型支持30种方言自由混说语音识别，是国内支持最多方言、覆盖人口最多的语音大模型；研发团队首创“蒸馏+膨胀”...……更多

2024-05-27 14:51:00音大,中国电信,人工智能,方言,中国,研究院

优刻得助力智谱AI解锁智能生活

...得算力的强强结合，GLM-4稳定、高效运行于云端，并具备大规模实时推理能力，成功实现了成本效益和服务质量的平衡。这一创新使得智谱大模型能够深入理解用户需求，快速作出响应，为用户提供智能化生活的便利与高效。自2...……更多

2024-02-29 22:25:00智能,生活,模型,推理,规模,能力

GR-2登场！ByteDance Research提出机器人

...悉，GR-2 的开发团队采用了一种创新的微调方法。在经历大规模预训练后，通过在机器人轨迹数据上进行微调，GR-2 能够预测动作轨迹并生成视频。GR-2 的视频生成能力，让它在动作预测方面有着天然的优势。它能够通过输入一帧...……更多

2024-10-10 09:57:00模型,机器,世界,物体,任务,机器

印度宣布向AI领域投资1037亿卢比，强化对大语言模型的开发

...能在关键领域的应用，将重点开发 / 扩展 / 推广具有催化大规模社会经济转型的潜力的影响性 AI 解决方案。IndiaAI 未来技能：旨在降低进入 AI 行业的门槛，并增加本科、硕士和博士课程中的人工智能课程。此外，还将在印度二...……更多

2024-03-08 09:00:00卢比,印度,对大,模型,领域,语言

年度生成式AI大会上海站公布最新嘉宾，报名进入最后阶段

...获得美国授权专利4项，著有《自然语言处理导论》和《大规模语言模型：理论与实践》，作为第二译者翻译专著《现代信息检索》。获得WSDM 2014最佳论文提名奖、COLING 2018领域主席推荐奖、NLPCC 2019杰出论文奖、COLING 2022杰出论文...……更多

2024-11-26 09:38:00上海站,上海,嘉宾,生成,阶段,大会

中国农业大学发布首个国际奶业领域垂直大模型

...级参数，实现了对中文语境的深度适配。大模型通过利用大规模语料库进行预训练基础模型，针对特定模型参数不断优化，以提升产业效率，优化资源配置，增强决策能力，促进奶业高质量发展，为行业发展提供多方位支持。农...……更多

2025-01-26 15:54:00中国农业大学,奶业,中国,模型,领域,农业

中国也有Sora同款训练架构公司，清华班底，智谱也投了 |

...训练效率，生数科技构建了完整的工程与数据体系，并在大规模GPU集群上实现更高效、低成本、强兼容的模型训练。唐家渝表示，去年团队花了近一个月的时间做完了华为昇腾训练架构的适配，芯片的国产替代帮助节省了不少成...……更多

2024-03-14 15:12:00清华,班底,中国,架构,训练,公司

DeepSeek真香！华为等各大手机厂商纷纷接入

...epSeek-R1被公认为是目前最先进的大语言模型之一，它基于大规模的数据训练，具备超强的语言理解和生成能力，在自然语言处理、代码生成、逻辑推理等多个关键领域均表现优异。业内人士表示，DeepSeek是免费开源的模型，性能...……更多

2025-02-08 20:46:00真香,华为,接入,厂商,手机,模型

谷歌再出大招，发布最新开源大模型Gemma，笔记本上即可运行

...直接在笔记本电脑上运行。性能表现方面，Gemma7B在MMLU（大规模多任务语言理解）测试中取得了64.3%的高分，而之前的佼佼者Mistral7B得分为62.5%，Meta的Llama-27B和13B模型也有所不及。此外，Gemma还在HuggingFace和HuggingChat平台上上线……更多

2024-02-23 09:18:00模型,运行,笔记本,笔记,模型,人工智能

浙大校友自研跨模态模型，打造具身智能的“通用语法”

...使模型具有高效的并行计算能力与灵活性，从而可以处理大规模数据集，并能通过微调预训练模型，快速适应不同任务场景。同时，其层次化结构能做到对复杂数据深层次的抽象和解析。因此，Transformer 架构的引入为具身智能...……更多

2024-03-22 10:31:00模态,语法,校友,模型,智能,智能

NeurIPS | 消除多对多问题，清华大规模细粒度视频片段

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报...……更多

2024-10-29 09:55:00大规,粒度,范式,清华,片段,大规模

全球权威评测榜单BIRD：蚂蚁数科超越谷歌等公司位居第一

...言查询转换为结构化查询语言（SQL），并且在真实复杂的大规模生产级数据库中稳定执行。BIRD--Bench数据集覆盖金融、电力、医疗等37个行业场景，总量33GB，包含超过1万条高复杂度查询任务，是全球顶级AI团队展示技术实力的权...……更多

2025-09-26 16:48:00蚂蚁,评测,权威,全球,公司,模型

清华郑纬民院士：AI for Science的出现，让高性能

...性原则、AI基准设计四大目标以及如何通过并行方法加速大规模预训练模型。为了完整体现郑纬民院士的分享及思考，在不改变原意的基础上，量子位对他的演讲内容进行了编辑整理。关于MEET 智能未来大会：MEET大会是由量子位...……更多

2023-01-11 05:00:00清华,院士,高性能,人工智能,模型,智能

上海AI实验室版o1已上线！数学题、Leetcode全拿下，

...的独创性探索与实践：在训练数据侧，在国内率先开发出大规模合成数据技术；在任务场景侧，新模型在数学、代码、推理谜题等多种场景都能体现出较强的推理能力，并具备一定的任务泛化性。最新的强推理模型书生InternThinke...……更多

2024-11-29 09:27:00数学题,上海,实验室,实验,数学,模型

通义千问系列AI开源模型升至Qwen2：5个尺寸，最高 12

...和显存占用降低的优势。模型评测相比 Qwen1.5，Qwen2 在大规模模型实现了非常大幅度的效果提升。我们对 Qwen2-72B 进行了全方位的评测。在针对预训练语言模型的评估中，对比当前最优的开源模型，Qwen2-72B 在包括自然语言理解...……更多

2024-06-07 09:32:00通义,模型,尺寸,模型,训练,上下文

专家模型不要专家并行！微软开源MoE新路径

...为90.4，而在编码任务基准HumanEval上拿到了74.4分。在MMLU（大规模多任务语言理解）基准测试中GRIN得分为79.4，超过了同为MoE架构的Mixtral（70.5分），以及自家的Phi-3.5（78.9分）。如果对比流行的商用模型，GPT-3.5表示感受到时代的...……更多

2024-11-12 09:57:00专家,微软,路径,模型,模型,专家