模型,参数,模型,基准,问题,推理头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

AMD的GPU跑AI模型终于Yes了？PK英伟达H100不带

...过。但是，也需要说明这些测试存在局限：仅使用了一种模型，即来自 Meta 的 Llama 2 70B。希望未来能看到这些测试中使用更多不同的 AI 模型。对 MI300X 及 AMD 未来的 GPU 来说，这个结果很是不错。但到今年年底时，考虑到英伟达 B...……更多

2024-09-05 09:49:00英伟,模型,英伟,内存,推理,性能

通义千问系列AI开源模型升至Qwen2：5个尺寸，最高 12

...息，通义千问（Qwen）今天宣布经过数月的努力，Qwen 系列模型从 Qwen1.5 到 Qwen2 的重大升级，并已在 Hugging Face 和 ModelScope 上同步开源。IT之家附上 Qwen 2.0 主要内容如下：5 个尺寸的预训练和指令微调模型，包括 Qwen2-0.5B、……更多

2024-06-07 09:32:00通义,模型,尺寸,模型,训练,上下文

迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测

...这是该团队在继 PMC-LLaMA 后，在持续构建开源医疗语言大模型的最新进展。该项目受到科创 2030—“新一代人工智能” 重大项目支持。在医疗领域中，大语言模型已经有了广泛的研究。然而，这些进展主要依赖于英语的基座模型...……更多

2024-09-30 09:51:00多语,大规,模型,语料,基准,大规模

疯狂一夜！美国AMD、谷歌纷纷亮出大杀器，人类迎来巨变前夜？

...迄今为止功能最强大、最通用的多模态人工智能（AI）大模型：Gemini（中文称“双子座”）。具体来看，谷歌最新发布的Gemini 1.0系列，主要是英语模型，共包括三个不同尺寸版本：Ultra（超大杯）、Pro（大杯）和Nano（中杯），将...……更多

2023-12-07 13:02:00美国,人类,疯狂,焦点,媒体,英伟

马斯克 xAI 推出 Grok-1.5 大语言模型

...公司 xAI 今天在官方博客中宣布，正式推出 Grok-1.5 大语言模型。Grok-1.5 具有改进的推理能力和 128k 的上下文长度，其中最显著的改进之一是其在编码和数学相关任务中的表现。Grok-1.5 将在未来几天内在平台上向早期测试人员和...……更多

2024-03-29 14:00:00马斯,马斯克,模型,语言,基准,上下文

商汤升级“日日新5.0”大模型，对标GPT-4Turbo

...数据，推理时上下文窗口达200K左右。云、端、边全栈大模型产品矩阵中，用于终端设备的“商汤端侧大模型”可满足各类终端用户对大模型技术的应用需求。“日日新5.0”和GPT-4回答趣味推理问题。4月23日，在2024商汤技术交流...……更多

2024-04-24 09:32:00商汤,模型,升级,商汤,模型,推理

多模态模型评测框架lmms-eval发布！全面覆盖，低成本，

...稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com随着大模型研究的深入，如何将其推广到更多的模态上已经成为了学术界和产业界的热点。最近发布的闭源大模型如 GPT-4o、Claude 3.5 等都已经具备了超强的图像理解能力，LLaVA-……更多

2024-08-22 09:50:00模态,框架,模型,评测,污染,成本

最强AI程序员砸饭碗：84秒跑通代码像人一样思考

...了30.07%问题的成绩夺得榜首。（SWE-Bench是一个用来评估大模型解决现实中软件问题的基准。）而这个成绩可谓是遥遥领先第二名19.27%，解锁了提升SOTA的最大增幅——57%！至于Genie的实际效果，用团队的话来说就是：它可以做到像...……更多

2024-08-13 14:46:00程序员,代码,程序,数据,模型,团队

中国电信进一步开源12B星辰大模型

...：德宏团结报性能提升30%！中国电信进一步开源12B星辰大模型本报讯近日，中国电信开源12B参数规模星辰语义大模型TeleChat-12B，相较1月开源7B版本，内容、性能和应用等方面整体效果提升30%，其中，多轮推理、安全问题等领域...……更多

2024-04-28 11:38:00进一,中国电信,中国,星辰,模型,电信

全面开源浪潮信息发布千亿参数基础大模型“源2.0”

...浪潮电子信息产业股份有限公司在京发布“源2.0”基础大模型，并宣布全面开源。“源2.0”包括102B（1026亿）、51B（518亿）、2B（21亿）三种参数规模的模型，在编程、推理、逻辑等方面展示出了先进的能力。基础大模型的关键能...……更多

2023-11-28 07:46:00浪潮信息,浪潮,模型,参数,基础,信息

扩散模型版CS: GO！世界模型+强化学习：2小时训练登顶A

...读】DIAMOND是一种新型的强化学习智能体，在一个由扩散模型构建的虚拟世界中进行训练，能够以更高效率学习和掌握各种任务。在Atari 100k基准测试中，DIAMOND的平均得分超越了人类玩家，证明了其在模拟复杂环境中处理细节和进...……更多

2024-11-19 09:49:00模型,训练,小时,学习,世界,模型

摩尔线程GPU千卡集群完成师者AI 70亿参数教育大模型训练

快科技6月14日消息，摩尔线程与全学科教育AI大模型“师者AI”联合宣布，双方已完成大模型训练测试。师者AI基于摩尔线程夸娥（KUAE）千卡智算集群，完成了其70亿参数大模型的高强度训练测试。整个训练过程用时一周，训练...……更多

2024-06-14 11:37:00摩尔,师者,集群,线程,模型,训练

多模态竞技场对标90B Llama 3.2！Pixtral

...杀入江湖的Mistral AI，在9月份甩出了自家的首款多模态大模型Pixtral 12B，如今，报告之期已至，技术细节全公开。作为欧洲的OpenAI，Mistral最近压力不小。端侧小模型端不出来，对比评测的结果又遭到质疑。上个月震撼登场的自家...……更多

2024-11-20 09:43:00模态,竞技场,竞技,报告,技术,模态

ai实验室阿里通义将推出创新视频生成大模型

...布，将在即将举行的云栖大会上推出一款创新视频生成大模型。目前，该模型的预约通道已在通义App及通义万相PC平台上开放，但具体使用权限尚未向公众开放。这款大模型由通义实验室精心打造，融合了“文生视频”与“图生...……更多

2024-09-15 02:18:00通义,阿里,生成,实验室,模型,实验

腾讯推出新一代大模型「混元Turbo」，性能大幅提升，定价低

鞭牛士 9月5日消息，腾讯宣布推出新一代大模型“混元Turbo”。腾讯介绍，该模型采用MoE架构，比上一代产品推理效率提升100%，推理成本降低50%，解码速度提升20%。腾讯公司副总裁、云与智慧产业事业群COO兼腾讯云总裁邱跃鹏...……更多

2024-09-05 14:28:00腾讯,新一代,模型,定价,性能,腾讯

还在人工炼丹？自动提示工程指南来了，还带从头实现

...APE）是指自动生成和优化 LLM 提示词的技术，目标是提升模型在特定任务上的性能。其基于提示词工程的思路，即编写多个不同的提示词并对其进行测试，只不过是让整个过程自动化。后面我们会看到，这个过程非常类似于传统...……更多

2024-09-10 13:39:00从头,人工,提示,指南,工程,提示

清华郑纬民院士：AI for Science的出现，让高性能

...准设计四大目标以及如何通过并行方法加速大规模预训练模型。为了完整体现郑纬民院士的分享及思考，在不改变原意的基础上，量子位对他的演讲内容进行了编辑整理。关于MEET 智能未来大会：MEET大会是由量子位主办的智能科...……更多

2023-01-11 05:00:00清华,院士,高性能,人工智能,模型,智能

微软被曝未来3年花1000亿美金囤芯片；杨元庆：AI不是取代

...媒体App获悉，4月19日，Meta公布期待已久的多模态开源大模型Llama 3系列。同时，Meta还推出了其首款基于Llama 3开源模型的AI聊天机器人产品——AI助手，直接对标ChatGPT-4。与此同时，科技行业裁员消息频出。谷歌宣布从3月10日开始...……更多

2024-04-30 11:00:00杨元庆,微软,美金,芯片,人类,智能

大模型推理乘上RISC-V快车？国内AI芯片创企推大模型系列

...算力需求大爆发的转折之年，如今随着国内两批超20个大模型获得审批、种类多样的大模型相关应用显现，企业对私有化部署的需求也水涨船高。面向这一行业趋势，2023年世界互联网大会乌镇峰会上，国内云端RISC-V大芯片创企希...……更多

2023-11-15 15:41:00模型,一体机,推理,快车,芯片,一体

硅谷大模型“价格战”上演，一味“卷”价格会有未来吗？

5月以来，国内大模型打响了“价格战”。从每百万个Token只要1块钱，到只要8毛钱、5毛钱……国内大厂如字节跳动、百度、智谱AI、科大讯飞等不断接力，有厂商甚至直接打出了“免费”的口号，震惊整个科技圈子。实际上，硅...……更多

2024-05-27 15:27:00硅谷,价格,价格战,一味,模型,模型

GPT-4V暴露致命缺陷？JHU等发布首个多模态ToM 测试

...即理解人们思维的能力，是开发具有类人社会智能的 AI 模型的重要基础。近日，来自 JHU, NYU, MIT, Harvard 等机构的研究团队开创了第一个多模态的 ToM 测试基准，发现现有的多模态模型和 LLM 都表现存在系统性缺陷，同时他们提出...……更多

2024-09-12 09:45:00模态,缺陷,测试,模态,模型,心智

大模型推理与训练的边界之争

随着大模型的发展日新月异，其推理和训练的边界问题也引起了广泛讨论。近日，清程极智CEO汤雄超在一场行业活动中明确表示，尽管外界有声音认为OpenAI发布的o1模型模糊了推理和训练的界限，但从技术角度来看，这两个阶段...……更多

2024-11-07 20:18:00边界,推理,模型,训练,推理,模型

支持1024帧、准确率近100％，英伟达「LongVILA」

现在，长上下文视觉语言模型（VLM）有了新的全栈解决方案 ——LongVILA，它集系统、模型训练与数据集开发于一体。现阶段，将模型的多模态理解与长上下文能力相结合是非常重要的，支持更多模态的基础模型可以接受更灵活...……更多

2024-08-22 09:51:00英伟,准确率,支持,视频,序列,训练

NeurIPS 2024评审结果公布！AI大佬晒出成绩单，又

...非常微妙，即使在过度参数化的情况下也是如此。而对大模型而言，权重衰减则扮演者完全不同的角色。与最初一版arXiv论文相比，研究人员对其进行了很多更新。Andriushchenko表示，自己非常喜欢这项新实验，并且匹配了AdamW有效...……更多

2024-09-29 09:55:00大佬,成绩单,评审,成绩,结果,又是

百川智能、阿里云等进入开源大模型领域，开启商业化前奏

闭源商业化的“百模大战”暂告段落，开源大模型仍旧热闹。今年7月Meta推出开源且免费的大型语言模型LLama2后，基于该模型微调的大模型不断涌现。此外，阿联酋阿布扎比技术创新研究所推出大参数模型Falcon180B，国内8、9月份...……更多

2023-10-14 00:21:00百川,阿里,前奏,模型,领域,智能

推理成本直降99%！百川智能「1+3」矩阵揭秘，两张4090

【新智元导读】大模型热，企业落地难？就在刚刚，百川智能推出「1+3」产品矩阵，一站式解决大模型商业化难题。「系列优质通用数据+领域增强训练工具链」，仅需10分钟就能让企业自主成为模型定制增强专家，实现行业最...……更多

2024-11-04 09:50:00百川,矩阵,旗舰,推理,模型,成本

不同量级参数模型性能同样优秀夸克大模型再登行业评测榜首

【CNMO新闻】“大模型时代，夸克有巨大机会创造出革新性搜索产品。”11月22日，夸克大模型公布了其面向搜索、生产力工具和资产管理助手的大模型技术布局。数据显示，夸克千亿级参数大模型登顶C-Eval和CMMLU两大权威榜单，...……更多

2023-11-24 13:53:00夸克,模型,量级,榜首,评测,性能

OPPO：用AndesGPT迎接下一个十年

“大模型”是2023年互联网发展技术趋势的关键词，此刻OPPO也迈入大模型竞逐的下半场。2023年初，国内大模型领域受到ChatGPT的影响，“百模大战”迅速进入白热化。今年8月，随着《生成式人工智能服务管理暂行办法》的正式施...……更多

2023-11-17 09:41:00模型,用户,能力,体验,技术,生态

NeurIPS 2024 | FaceChain团队新作，开

...直在进行深入研究。采用了新一代的 Transformer 人脸表征模型 TransFace 后，FaceChain 去年也是推出了 10s 直接推理的人物写真极速生成工作，FaceChain-FACT。继 TransFace 之后，FaceChain 团队最近被机器学习顶级国际会议 NeurI……更多

2024-10-18 09:46:00人脸,拓扑,新作,模型,团队,人脸

英特尔酷睿Ultra笔记本NPU能力体验

...智能的背景美化和视频效果5、甚至可以流畅运行大参数AI模型最近，我们收到一台搭载Meteor Lake架构酷睿Ultra 155H处理器的华硕灵耀14 2024轻薄本，趁热做了个AI性能和应用测试。通过UL Procyon AI Inference Benchmark推理性能基准测试（..……更多

2023-12-24 19:54:00英特,英特尔,能力,笔记本,体验,笔记