通义,模型,尺寸,模型,训练,上下文头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...幅提升。该模型基于超过 10TB tokens 训练，具备 200K 推理上下文窗口（相当于 36.5 万个汉字），推理时上下文窗口达到 200K 左右，提供自然语言处理、图片生成、自动化数据标注、自定义模型训练等多种大模型及能力。 ……更多

2024-06-25 09:43:00商汤,助手,重点,智能,办公,程序

GPT-4劲敌，谷歌进入高能+高产模式

...内的大模型而言，只有Minimax采用了MoE架构。二、扩容的上下文窗口意味着什么？虽然Gemini 1.5 Pro是 Gemini 1.5 系列的初代版本，但初代便表现不俗。扩大上下文窗口后的高水平性能是Gemini 1.5 Pro的一大亮点。多模态大模型卷到今日...……更多

2024-02-21 14:05:00劲敌,高产,模式,模型,上下文,处理

MiniMax进化论：一群「偏执者」的破浪前行

...除了在业内主流的 17 个评测集位列前茅之外，M1还是全球上下文最长的推理模型，原生支持100万token输入长度，是DeepSeek R1的8倍；并且支持8万个输出token，打破了Gemini 2.5 Pro的6.4万个限制，成为世界最长输出的模型。对大模型而...……更多

2025-07-02 13:31:00一群,进化论,偏执,进化,模型,技术

最强AI程序员砸饭碗：84秒跑通代码像人一样思考

...队表示，最初开发Genie时，只能访问微调16-32k范围内的短上下文模型，他们用这些模型进行了大量早期开发，用超1亿token的数据训练模型，虽然发现设计的架构有一定优势，但从根本上受限于模型在特定时间内可以处理的信息量...……更多

2024-08-13 14:46:00程序员,代码,程序,数据,模型,团队

通义大模型落地曹县，山东企业积极上云、用模型

...大模型的训练和应用提供了扎实的数据基础。结合阿里云通义千问等大模型和丰富的行业知识，众阳健康快速打造出了一个适用于医疗健康场景的垂直大模型。目前，山东多家县医院都已接入“众阳GPT”进行试点，医院的护理工...……更多

2024-05-29 14:40:00曹县,通义,模型,山东,落地,企业

全球首个百亿级人类基因组基础模型Genos发布！

...度优化的基因组基础模型，可支持高达百万碱基对的超长上下文分析，并实现单碱基分辨率的精准识别。Genos的推出标志着基因组研究从“读出”碱基序列迈向“读懂”生命底层逻辑的一次关键转折，有望为临床疾病诊断、个人...……更多

2025-10-24 13:21:00基因组,基因,模型,人类,基础,全球

国内首个官方“大模型标准符合性评测”公布

...模型标准符合性评测”结果公布，腾讯混元大模型、阿里通义千问等大模型成为首批通过评测的四款国产大模型的其中之二。据介绍，“大模型标准符合性评测”由中国电子技术标准化研究院发起，旨在建立中国大模型标准符合...……更多

2023-12-23 15:09:00符合性,模型,评测,标准,官方,模型

长上下文能力只是吹牛？最强GPT-4o正确率仅55.8%，开

...lan【新智元导读】当今的LLM已经号称能够支持百万级别的上下文长度，这对于模型的能力来说，意义重大。但近日的两项独立研究表明，它们可能只是在吹牛，LLM实际上并不能理解这么长的内容。大数字一向吸引眼球。千亿参数...……更多

2024-07-23 17:12:00正确率,长上,下文,模型,只是,能力

2024WAIC热议大模型助力产业新趋势，可信应用成焦点

...支持音、视、图、文等模态，达到业界一流水平，无论是上下文生成还是上下文理解，都能展现出亮眼的效果。比如，在输入狗吠声后，蚂蚁百灵大模型能框出并识别图片中的宠物狗。基于百灵多模态大模型在图文对话、视频理...……更多

2024-07-10 10:26:00可信,模型,趋势,产业,焦点,应用

不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM

...言模型（LLM），自然成为了智能体常用的基础模块。于是上下文学习示例、任务技巧、多智能体协同、强化学习算法…… 一切适用于通用智能体的想法都抢着在大模型落地。然而有一个问题始终横亘在LLM 和智能体之间：基于 LLM...……更多

2024-11-07 09:54:00样本,模型,策略,训练,经验,智能

GPT-4o不会数r，被外国小哥原地逼疯！谷歌论文揭秘Tr

...两个字母。在多次请求后，你都没有做出任何澄清或说明上下文，我无法继续进行富有成效的讨论了。如果你有真正的问题或希望解释你的观点，我可以提供帮助。否则，我们可能需要换一个话题最后，小哥承认，自己的prompt是...……更多

2024-09-09 13:36:00小哥,原地,外国,论文,小哥,研究者

赛迪报告：2023年中国政务云公有云IaaS市场占比快速提升

...先后研发并开源几十款不同参数、不同模态的大模型，其通义大模型已实现“全尺寸、跨模态、广开源”。未来，基于通义底模打造的通义行业大模型将融入城市治理、营商服务、政务办事等场景，切实服务好各级政府组织解决...……更多

2024-06-27 19:41:00赛迪,中国,政务,报告,市场,市场

pytorchtorchao正式发布,提供了一系列优化工具集

...int4，并将键值缓存量化为int8，可令LLaMA3.18B在完整的128K上下文长度下仅占用18.9GB的显存。 ……更多

2024-10-03 02:58:00工具集,工具,模型,可将,训练,推理

OpenAI史诗级更新！最强大模型炸场，128K上下文、价格

...大方面更新重点值得关注和思考。1、GPT-4 Turbo：支持128k上下文，相当于300页文档，输入价格大降2/3，速率限制翻倍，知识更新到2023年4月，改进指令跟随和JSON Mode，更新多个函数调用能力。这意味着比GPT-4更强、更便宜、开发成...……更多

2023-11-07 17:45:00上下文,史诗,模型,上下,更新,价格

阿里又干了件大事：发布并开源全新推理模型性能比肩DeepS

...阿里巴巴又默默干了件大事：发布并开源全新的推理模型通义千问QwQ-32B。千问QwQ-32B是阿里探索推理模型的最新成果。通过大规模强化学习，它在数学、代码及通用能力上实现质的飞跃，整体性能比肩DeepSeek-R1。在保持强劲性能...……更多

2025-03-07 07:27:00阿里,推理,模型,大事,性能,全新

英国ai初创公司wayve公布gaia-1最新进展

...个共享的表示形式，进而在模型中实现统一的时序对齐和上下文理解，这种编码方法，让模型能够更好地整合和理解不同类型的输入。▲图源Wayve而GAIA-1的核心，是一个自回归Transformer，能够预测序列中下一组图像token，世界模型...……更多

2023-10-10 11:51:00英国,进展,公司,模型,驾驶,生成

亚马逊连甩6款大模型！推出3nm AI训练芯片，最强AI服务

... Nova！ Nova语言模型有四款：（1）Micro：纯文本模型，128k上下文窗口，延迟最低，响应速度最快。（2）Lite：成本很低的多模态模型，300k上下文窗口，可快速处理图像、视频和文本输入。（3）Pro：多模态模型，300k上下文窗口，...……更多

2024-12-05 09:47:00亚马,亚马逊,芯片,模型,训练,服务器

Mamba作者新作：将Llama3蒸馏成混合线性 RNN

...nsformer 的模型关注与输入序列相关的部分，实现了更好的上下文理解。然而，注意力机制的缺点是计算开销大，会随输入规模而二次增长，Transformer 也因此难以处理非常长的文本。前段时间，Mamba 的出现打破了这一局面，它可以...……更多

2024-09-03 09:59:00线性,新作,混合,作者,模型,线性

DeepSeek等AI大模型加持！贵州大数据集团多款政务智

...I大模型公共服务平台”——“魔树工厂”已实现DeepSeek、通义千问、MiniMax等系列大模型的多版本覆盖、多尺寸适配、全功能通用，将面向政企及研发者提供便捷、高效、安全、可信的模型应用公共服务。这一成功部署标志着以...……更多

2025-02-22 11:52:00贵州,政务,模型,智能,应用,集团

重磅！TeleAI 完成首个全国产化万卡万参大模型训练

...议论文挖掘（Shared Task5）挑战赛冠军：TeleAI语义团队基于上下文学习策略对大模型进行优化，通过利用从粗粒度到细粒度的 Prompt 设计、多模型的投票机制等手段，进一步提高了模型准确率和鲁棒性，最终以领先第二名将近 3 分...……更多

2024-09-30 09:50:00万卡,重磅,模型,国产,训练,模型

精准狙击Llama 3.1？Mistral AI开源Larg

...et 媲美。今年 2 月，Mistral AI 推出了最初的 Large 模型，其上下文窗口包含 32,000 个 token，新版模型在此基础上构建，具有更大的 128,000 个上下文窗口（大约相当于一本 300 页的书）—— 与 OpenAI 的 GPT-4o 和 GPT-4o mini……更多

2024-07-26 09:36:00模型,基准,多语,测试,性能,生成

数字中国建设峰会设置体验区

...其境的震撼体验。阿里巴巴集团（展位号：7C11）打造的通义大模型互动体验区，设计了AIGC邮筒、通义APP、钉钉AI助理等一系列场景应用体验。大家可以感受通义千问在创意文案、办公助理、学习助手、趣味生活等方面的能力。...……更多

2024-05-21 07:59:00峰会,中国,体验,数字,建设,体验

87.8%准确率赶超GPT-4o登顶！谷歌DeepMind发

...这样的句子所左右?注意力：自动评估器是否被不相关的上下文信息干扰评估结果如表4所示，可以看到，相比其他基线模型，FLAMe系列在大部分维度都表现出明显较低的偏见，而且总体偏见值最低。使用FLAMe对解码输出重新排序最...……更多

2024-08-05 09:37:00准确率,模型,评估,评估,模型,数据

AI 胡说八道怎么办？牛津大学开发了一种“测谎”方法

...是合理的。（谁说是 Python？我 C++第一个不服！！）2忽略上下文和常识语义熵主要基于统计和概率计算，可能忽略了上下文和常识的影响。在一些需要综合上下文和常识来判断的问题中，语义熵可能无法提供准确的可靠性评估。...……更多

2024-07-01 11:40:00牛津大学,八道,牛津,怎么办,方法,开发

苹果开源7B模型，训练过程数据集一口气全给了，网友：很不像苹

...上使用2.5T tokens进行训练主要是英文数据，拥有2048tokens上下文窗口数据集包括DCLM-BASELINE、StarCoder和ProofPile2 MMLU得分接近Llama 3 8B 使用PyTorch和OpenLM框架进行训练具体而言，研究团队先是提出了一个语言模型数……更多

2024-07-23 09:33:00苹果,一口,模型,一口气,训练,过程

给小学数学题加句废话，OpenAI o1就翻车了，苹果论文质

...为。该观点还指出，人类在解决数学问题时通常有明确的上下文，而 LLM 在处理数学问题时可能没有这样的上下文。因此，如果通过适当的提示工程，向模型明确这是一个数学考试的环境，那么它们在添加多余子句时导致的性能...……更多

2024-10-14 09:55:00数学题,推理,废话,苹果,数学,小学

OpenAI推出GPT商店，人人可0代码自制智能体，业界看好

...、更便宜的GPT-4——GPT-4 Turbo，做出六大升级——更长的上下文长度、更强的控制、知识升级、多模态、模型微调定制和更高的速率限制。GPT-4的付费服务将“加量不加价”。 OpenAI还宣布，ChatGPT每周用户数量已达到1亿。自3月发...……更多

2023-11-07 15:48:00人人,业界,商店,苹果,代码,智能

阿里Q3财报：核心业务收获稳健增长，“AI驱动”潜力初现

...等场景化应用。季度内，阿里云发布业界最强开源大模型通义千问Qwen-72B。淘宝天猫、阿里国际数字商业发布了多款AI工具辅助商家经营提效，加速推进AI电商场景落地。钉钉、夸克、达摩院等还在持续扩展AI场景化应用至办公、...……更多

2024-02-07 22:43:00阿里,潜力,核心,增长,驱动,业务

微软被曝未来3年花1000亿美金囤芯片；杨元庆：AI不是取代

...含的代码数量也是 Llama 2 的四倍。与此同时，Llama 3支持8K上下文长度，是Llama 2的两倍。在处理多种类型的复杂任务方面，Llama 3 70B相比8B版本有显著的提高，同时多个基准得分也超过了Google Gemini Pro 1.5以及Claude 3 Sonnet。Me……更多

2024-04-30 11:00:00杨元庆,微软,美金,芯片,人类,智能