推理,模型,成本,参数,模型,训练头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

87.8%准确率赶超GPT-4o登顶！谷歌DeepMind发

...其基础，看模型提出的声明是否有源文档作为依据- 数学推理：区分LLM生成数学解题方案的正确或错误- 编码：涵盖Python、JavaScript、Java、C++、Go和Rus等流行编程语言，训练FLAMe从备选答案中选出正确程序或修复程序- 安全性：为了...……更多

2024-08-05 09:37:00准确率,模型,评估,评估,模型,数据

微调大模型，AMD MI300X就够了！跟着这篇博客微调Ll

随着 AI 模型的参数量越来越大，对算力的需求也水涨船高。比如最近，Llama-3.1 登上了最强开源大模型的宝座，但超大杯 405B 版本的内存就高达 900 多 GB，这对算力构成了更加苛刻的挑战。如何降低算力的使用成本和使用门槛，...……更多

2024-10-09 09:52:00模型,跟着,博客,模型,参数,训练

通义千问系列AI开源模型升至Qwen2：5个尺寸，最高 12

...有尺寸的模型都使用了 GQA，以便让大家体验到 GQA 带来的推理加速和显存占用降低的优势。模型评测相比 Qwen1.5，Qwen2 在大规模模型实现了非常大幅度的效果提升。我们对 Qwen2-72B 进行了全方位的评测。在针对预训练语言模型的...……更多

2024-06-07 09:32:00通义,模型,尺寸,模型,训练,上下文

火山引擎ai大模型赋能千行百业成趋势

...片。大的使用量，才能打磨出好模型，也能大幅降低模型推理的单位成本。豆包主力模型在企业市场的定价只有0.0008元/千Tokens，0.8厘就能处理1500多个汉字，比行业便宜99.3%。谭待表示，超低定价来自于用技术优化成本的信心，...……更多

2024-05-17 11:56:00火山,百业,模型,趋势,引擎,模型

AMD的GPU跑AI模型终于Yes了？PK英伟达H100不带

...：「算力这块，你可以用别的芯片，但是这些芯片用来做推理还 OK，做训练的话还要等几年的样子，英伟达还是处在一个垄断的地位。」但基于实证的对比研究却往往又会给出不一样的答案，比如在同一个演讲中，李沐还提到了...……更多

2024-09-05 09:49:00英伟,模型,英伟,内存,推理,性能

所谓AI革命，到现在为止，是能源的一场“灾难”

...电量为1gwh。按一户普通人家一年用电1000kwh算，每天模型推理耗能相当于1000户人家一年的用电量；若按年计算，OpenAI消耗的能源在90-200gwh左右，相当于三峡大坝一年发电量（按一年发电1000亿千瓦时计算）的0.2%，发电侧使用的水...……更多

2024-07-10 11:56:00灾难,革命,能源,能源,模型,人工智能

有了它，断网也能“纵享丝滑”

...成一个固定的生态和框架，现在所看到的这些所谓开源和推理，都还没有统一的集大成者出现。● 端侧AI的需求是由应用驱动的，选择云还是端侧AI，主要取决于用户的选择，比如交通领域，需要做一些人流分析，包括人脸识别...……更多

2024-01-03 22:00:00云端,模型,场景,能力,成本,芯片

面壁智能的端侧大模型面壁MiniCPM正式亮相

...大的底层支撑，先是算力方面，凭借全流程高效infra10倍推理加速，能够将成本降低90%；其次在算法方面，面壁模型通过高效模型训练配置实现模型能力快速形成；数据处理方面，凭借现代化数据工厂形成从数据治理到多维评测...……更多

2024-02-01 21:36:00模型,智能,模型,智能,用户,数据

李彦宏：大模型场景下开源是最贵的，多模态是通往AGI的必经之

...练效率提升到了原来的5.1倍，周均训练有效率达到98.8%，推理性能提升了105倍，推理的成本降到了原来的1%。会上，百度发布了文心大模型4.0的工具版，该工具版可以让开发者体验代码解释器功能，开发者不仅可以通过自然语言...……更多

2024-04-16 17:57:00李彦,模态,之路,必经,模型,场景

思维链让大模型推理更准确？谷歌早于OpenAI押中o1模型核

...本质的不同。其不仅进入到复杂的领域，还表现出超强的推理能力。OpenAI 将 GPT-4o 和 o1 在国际数学奥林匹克竞赛资格考试方面进行对比测试。根据结果，二者差异显著，其中，前者正确解决问题的准确率是 13.4%，而 o1 的准确率...……更多

2024-09-20 13:33:00模型,推理,思维,原理,核心,模型

火山引擎丢出视频大模型「王炸」，云厂商从「价格战」回归「卷性

...始人闫俊杰向极客公园表示，从技术发展的角度看，模型推理成本 10 倍、百倍的降低是必然，只是时间问题，难的是通用模型的性能提升。在看到从 ChatGPT 到 GPT-4，性能出现了大幅提升时，大模型领域也沿着 OpenAI 在模型预训练...……更多

2024-09-26 13:33:00价格战,火山,模型,性能,厂商,引擎

英伟达最新技术分享：手把手教你用Llama 3.1合成数据改

...05B开源巨兽Llama 3.1最近正式上线，既可用于批处理和在线推理，也可以作为基座模型，进行特定领域的专门预训练或微调。尤其是考虑到Llama 3.1有如此大的参数规模，加上丰富的15.6T token训练数据，非常适合用于数据生成。这篇...……更多

2024-07-30 09:38:00手把,英伟,最新技术,模型,代码,数据

AI难盈利，商汤生成式AI创收12亿增长两倍，全年净利亏损6

...最大的增长亮点。源于市场对生成式AI模型训练、微调和推理的需求爆发性增长。该业务主要面向手机、汽车等端侧AI和2B场景。商汤称，在新的业务板块下，生成式AI业务是重点发展方向，而传统AI的核心目标是提高现金流质量...……更多

2024-03-27 15:00:00商汤,净利,亏损,全年,盈利,生成

CMU清华教LLM练成数学高手，LeanSTaR训练模型边思

...办？CMU清华团队提出了Lean-STaR训练框架，在语言模型进行推理的每一步中都植入CoT，提升了模型的定理证明能力，成为miniF2F上的新SOTA。如果想训练LLM证明定理的能力，你会怎么做？既然模型可以通过海量语料学会生成文本，那...……更多

2024-08-10 09:47:00顶新,成数,清华,模型,训练,高手

大模型时代结束？大佬齐预测：AI模型或需先缩小规模，才能再次

...数据集，完全可以训练出一个规模更小，能力更强，更有推理能力的模型。可以在超大模型的帮助下，自动生成，清洗出质量更高的训练数据集。类似GPT-4o mini，就是用GPT-4清洗出来的数据训练的。先把模型做大，然后在此基础...……更多

2024-07-23 09:40:00大佬,模型,规模,再次,时代,模型

李彦宏一番话：重掀大模型开闭源争论

...追平闭源模型，就需要更大的参数规模，这将导致更高的推理成本和更慢的反应速度。此外，使用开源模型进行个性化改款，可能会创造出孤本模型，这些模型既无法从基础模型的持续升级中获益，也无法共享算力。但阿里云CTO...……更多

2024-07-05 16:36:00李彦,一番话,争论,模型,模型,李彦

GPT-4o的识图能力有多牛？四大维度深度体验

...，准确率高达100%。图片来源：GPT-4o四、手写指令和逻辑推理最后，记者上了点难度，用手写的逻辑推理题来测试了GPT-4o的识图和逻辑推理能力。GPT-4o的回答堪称完美，不仅准确识别了手写体文字并遵照指示，且答题逻辑完全合...……更多

2024-05-19 14:21:00维度,深度,能力,体验,模型,训练

阿里国际发布最新开源多模态模型Ovis，多模态能力再升级

...Ovis在OpenCompass上的测评数据情况据介绍，Ovis能够在数学推理问答、物体识别、文本提取和复杂任务决策等方面展现出色表现。例如，Ovis可以准确回答数学问题，识别花的品种，支持多种语言的文本提取，甚至可以识别手写字体...……更多

2024-09-20 13:35:00模态,阿里,模型,能力,升级,国际

不用部署，实现大模型切换自由！Token、算力免费薅！

...可以通过页面底部的对话框对已处于启动状态的模型进行推理实测。如果频道中暂时没有处于启动状态的公共线路，您可以选择心仪的线路并一键启动。如何实现模型 API 切换自由？如所选模型实测频道的免费公共线路已处于启...……更多

2024-08-14 09:39:00切换,模型,不用,自由,模型,清湛

多模态模型评测框架lmms-eval发布！全面覆盖，低成本，

...的愿景是未来的多模态模型不再需要自行编写数据处理、推理以及提交代码。在当今多模态测试集高度集中的环境下，这种做法既不现实，测得的分数也难以与其他模型直接对比。通过接入 LMMs-Eval，模型训练者可以将更多精力...……更多

2024-08-22 09:50:00模态,框架,模型,评测,污染,成本

加速落地京东云大模型已支持数百个场景

...、性能、效果三者取得一个比较好的平衡点。京东云自研推理引擎，协同大小模型，为大模型产业落地提供最佳实践，如通过利用推测解码，用小模型辅助大模型进行推理，加速大模型推理速度，降低成本。在大模型应用开发上...……更多

2024-06-07 11:04:00云大,京东,落地,模型,场景,支持

李开复：中国大模型与美国顶尖差距从7年缩短至6个月

...战时，李开复表示，在一定程度上，整个大模型行业每年推理成本降低到1/10是可以期待的，而且是必然也应该发生的，通过降低价格让更多的人体验到大模型产品对行业是一件好事。不过他也提到，相信大部分大模型创业者不...……更多

2024-05-21 23:32:00李开复,美国,中国,顶尖,模型,差距

腾讯钟学丹：人工智能成为汽车行业新质生产力推动数智化升级

...方式，让大模型的训练效率提升至主流开源框架的2.6倍，推理加速比达到了2倍。在大模型应用方面，腾讯已经和十多家车企围绕研、产、销、服、管理等多场景展开合作。比如，在汽车软件研发环节，大语言模型不仅懂人类语...……更多

2024-03-19 14:00:00智化,腾讯,人工智能,汽车行业,生产力,人工

三个大模型组队挑战o1，实测360多模型协作干掉提示词工程

...横空出世，开启了大模型演化的新范式——Inference law（推理定律）。正如英伟达AI科学家Jim Fan所说，o1的出现标志着大模型研发者开始把集中在训练阶段的投入，开始转移到了推理过程。Jim还引用了机器学习先驱Rich Sutton的经典...……更多

2024-09-21 09:45:00模型,实测,协作,三个,提示,工程

长上下文能力只是吹牛？最强GPT-4o正确率仅55.8%，开

...较长的小说了。更重要的是，LLM真的能在这个长度上进行推理吗？近日，有两篇独立研究分别表明：长上下文水分很大！LLM实际上并不能「理解」内容。读小说挑战首先是来自UMass、AI2和普林斯顿的研究人员，推出了一项针对性...……更多

2024-07-23 17:12:00正确率,长上,下文,模型,只是,能力

高文院士：鹏城实验室已训练3个大模型，今年底将拥有两万多块卡

...城实验室主任高文发表演讲，分享了鹏城实验室在打造大模型平台上的进展。他表示，大模型训练首先需要一个平台。“现在要想训练一个大模型，需要有几千块卡，甚至上万块卡。”他介绍到，鹏城实验室在2020年就搭建了这...……更多

2024-06-05 13:00:00高文,院士,实验室,模型,训练,实验

4轮暴训，Llama 7B击败GPT-4！Meta等让LLM

...judge提示模板。除了给出评价结果，meta-judge还需要生成CoT推理过程。为减少meta-judge可能存在的位置偏好（可能倾向于选择最先出现的Judgment A），对同一对数据(jm, jn)会交换顺序让meta-judge进行两次评价，得到单次结果rmn：引入...……更多

2024-08-01 09:40:00三角,进化,模型,奖励,训练,迭代

2024北京国际车展｜加速智能汽车驶入AGI时代商汤绝影系

...向认知驱动的跃迁。依托多模态大模型强大的世界理解、推理能力、决策能力以及交互能力，DriveAGI将是目前最贴近人类思维模式、最能理解人类意图并有最强解决驾驶困难场景能力的技术方案。值得一提的是，前不久上市的小...……更多

2024-04-28 21:29:00商汤,原生态,北京,车展,模型,智能

罗格斯大学团队提出思想链概念，提高大模型的算数推理能力

...概念，提高了大语言模型（LLM，large language models）在复杂推理任务上的性能，例如算术推理、常识推理和符号推理等。图 | 金明宇（来源：金明宇）CoT 的原理是通过提供推理过程的示例，来教会模型处理推理，详细说明导致最...……更多

2024-03-15 10:41:00罗格,罗格斯,推理,模型,团队,概念

德国OpenAI加入开源大战！发布欧洲纯血版模型，曾获博世和

...（Group Query Attention，GQA）的技术。Aleph Alpha声称这提高了推理速度，且几乎没有牺牲质量。模型还采用了“旋转式位置编码”（Rotary Position Embedding，RoPE）的方法，使模型能够更好地理解句子中单词的相对位置。二、注重模型合...……更多

2024-08-28 09:43:00博世,纯血,惠普,欧洲,德国,模型